Kredit:iStock/champja
Vi lever i en tid av för mycket information – en oändlig ström av statusuppdateringar, memes, reposter, infografik, citat och hashtags rullar dagligen genom våra sociala medier, menade att uttrycka åsikter, trumma upp solidaritet, ge information, ändra åsikt eller orsaka kontroverser.
Problemet är, den genomsnittliga webbläsaren/användaren av sociala medier har inte tid eller råd att undersöka legitimiteten eller härkomsten av allt som dyker upp i deras flöden. Och det är denna sårbarhet som mindre noggranna innehållsgeneratorer utnyttjar för att sprida desinformation, med resultat som kan sträcka sig från lite pinsamt öga mot ansikte till rent livsavgörande eller potentiellt dödliga konsekvenser.
För datavetaren William Wang vid UC Santa Barbara, detta kaotiska morass är bördiga grunder för utforskning. Wang tror att tekniker för djupinlärning, när de distribueras i text- och hyperlänknätverket av onlineinlägg och nyhetsartiklar, kan hjälpa oss med en del av det kritiska tänkandet tunga lyft. Detta koncept ligger i hjärtat av hans treåriga projekt "Dynamo:Dynamic Multichannel Modeling of Misinformation."
"Så frågan är, fått ett inlägg, hur skulle du kunna förstå om detta är specifikt vilseledande eller om detta är ett äkta inlägg, "Wang sa, "och, med tanke på nätverkets struktur, kan du identifiera spridningen av felaktig information och hur den kommer att vara annorlunda jämfört med standardartiklar eller icke-standardartiklar?"
En hög order
Det är en stor order, speciellt inom sociala medier, som har utjämnat spelplanen mellan legitima, etablerade nyhetswebbplatser och tvivelaktiga sidor som gör sitt bästa för att se officiella ut, eller vädja till en användares känslor innan de kan ta ett steg tillbaka och ifrågasätta källan till deras information.
Dock, tack vare naturlig språkbehandling – Wangs specialitet – kan texten i dessa inlägg och artiklar användas för att avslöja information om deras skapare och spridare, såsom deras tillhörighet, ideologier och incitament för inlägg, samt vem deras avsedda publik kan vara. Algoritmen kryper igenom miljontals nyhetsartiklar som postats av anonymiserade användare på plattformar som Twitter och Reddit och undersöker artiklarnas titlar, innehåll och länkar. Syftet är att få en känsla av inte bara enheterna bakom dem, men också om deras spridningsmönster över nätverket.
"Många av oss tar webbplatser för givna och retweetar tillfälligt eller återlägger felaktig information och det är så det sprids, kaskader och sprider sig viralt, " sa Wang. "Några av de viktigaste frågorna vi ställer är:Vilka är mönstren? Vilka är incitamenten?"
Att få reda på, han och hans team föreslog en inlärningsmekanism som förklarar varför vissa berättelser publiceras om eller retweetas utöver om själva innehållet är sant eller falskt. Längs vägen, Wang sa, de skulle kunna ta reda på vem som är inblandad i spridningen av desinformationen och vilka mönster som kan uppstå i den processen. Bilder kommer också att bli en del av datamängden, han lade till.
Senare, forskarna planerar att integrera andra aspekter av sitt arbete med desinformation, som clickbait, som använder catchy, ofta sensationella titlar för att locka läsare att klicka på en länk som i bästa fall skickar dem till en tvivelaktig webbplats, eller i värsta fall, stjäl deras information.
"Clickbait är främst artiklar av låg kvalitet som verkligen kan innehålla mycket desinformation och falsk information eftersom de måste överdriva, " sa Wang. Tillsammans med datavetenskap doktorand Jiawei Wu, teamet utvecklade en metod som heter "förstärkt samträning, " som använder ett effektivt system för att märka några hundra artiklar som sedan används för att träna en maskininlärningsklassificerare att märka vad den tror kan vara clickbait i en enorm, miljoner berättelser dataset.
"Då tar vi dessa nyligen märkta instanser och tränar om klassificeraren, " Wang sa. "Denna iterativa processen tillåter oss att samla in mer etikettdata över tiden, " han lade till, vilket förfinar verktygets noggrannhet.
Att använda artificiell intelligens för att förstå och hitta mönster i flodvågen av text vi skickar till varandra varje dag skulle ge oss insikt om hur vi, avsiktligt eller omedvetet, sprida desinformation.
"Det är verkligen det fina med naturlig språkbehandling och maskininlärning, " sa Wang. "Vi har en enorm mängd data i olika format, och frågan är:Hur gör man ostrukturerad data till strukturerad kunskap? Det är ett av målen för djupt lärande och datavetenskap."