Studien finner rasistisk fördom i tweets som flaggats som hatretorik

Kredit:CC0 Public Domain

Tweets som tros vara skrivna av afroamerikaner är mycket mer benägna att taggas som hatretorik än tweets förknippade med vita, enligt en Cornell-studie som analyserar fem samlingar av Twitter-data som markerats för kränkande språk.

Alla fem datamängder, sammanställd av akademiker för forskning, visade partiskhet mot Twitter-användare som tros vara afroamerikaner. Även om sociala medieföretag – inklusive Twitter – förmodligen inte använder dessa datauppsättningar för sina egna system för upptäckt av hatretorik, konsekvensen i resultaten tyder på att liknande fördomar kan vara utbredda.

"Vi fann konsekvent, systematiska och betydande rasfördomar, sa Thomas Davidson, doktorand i sociologi och första författare till "Racial Bias in Hate Speech and Abusive Language Datasets, " som presenterades vid årsmötet i Föreningen för datorlingvistik, 28 juli-aug. 2 i Florens, Italien.

"Dessa system utvecklas för att identifiera språk som används för att rikta in sig på marginaliserade befolkningar online, "Sade Davidson. "Det är oerhört oroande om samma system själva diskriminerar den befolkning som de är utformade för att skydda."

När internetjättar alltmer vänder sig till artificiell intelligens för att flagga hatiskt innehåll bland miljontals inlägg, oron för partiskhet i maskininlärningsmodeller ökar. Eftersom fördomar ofta börjar i data som används för att träna dessa modeller, forskarna försökte utvärdera datauppsättningar som skapades för att hjälpa till att förstå och klassificera hatpropaganda.

För att utföra sin analys, de valde ut fem datamängder – av vilka Davidson hjälpte till att utveckla på Cornell – bestående av sammanlagt 270, 000 Twitter-inlägg. Alla fem hade kommenterats av människor för att flagga kränkande språk eller hatprat.

För varje datauppsättning, forskarna tränade en maskininlärningsmodell för att förutsäga hatiskt eller stötande tal.

De använde sedan en sjätte databas med mer än 59 miljoner tweets, matchas med folkräkningsdata och identifieras med plats och ord som är associerade med viss demografi, för att förutsäga sannolikheten att en tweet skrevs av någon av en viss ras.

Även om deras analys inte definitivt kunde förutsäga rasen för en tweets författare, det klassificerade tweets i "svartjusterad" och "vitjusterad, " vilket återspeglar det faktum att de innehöll språk associerat med någon av dessa demografier.

I alla fem fallen Algoritmerna klassade troliga afroamerikanska tweets som sexism, hattal, trakasserier eller övergrepp i mycket högre takt än de tweets som tros vara skrivna av vita – i vissa fall, mer än dubbelt så ofta.

Forskarna tror att skillnaden har två orsaker:ett översampling av afroamerikanernas tweets när databaser skapas; och otillräcklig utbildning för personer som kommenterar tweets för potentiellt hatiskt innehåll.

"När vi som forskare, eller personerna vi betalar online för att göra crowdsourcingkommentarer, titta på dessa tweets och måste bestämma dig, "Är det här hatiskt eller inte hatiskt?" vi kan se språk skrivet på vad lingvister anser vara afroamerikansk engelska och vara mer benägna att tro att det är något som är stötande på grund av våra egna interna fördomar, "Sade Davidson. "Vi vill att personer som kommenterar data ska vara medvetna om nyanserna av onlinetal och vara mycket försiktiga med vad de anser att hatretorik."

Automatisera artificiell intelligens för medicinskt beslutsfattande

Amazons självkörande leveransrobotar beger sig till Kalifornien

Elektronik

Populär Porsche SUV för att bli elektrisk

USA höjer tullarna på Airbus -plan till 15 procent från 10 procent

Facebook försvarar datadelning efter ny rapport om partneraffärer

Vetenskap

Tusentals flyr över rädslan för vulkanutbrott i Bali

Robotar i avlopp kommer att spara samhället miljoner

Svagt sken i galaxhopar lyser upp mörk materia