Kredit:CC0 Public Domain
Nytt arbete från MIT-forskare tittar under huven på ett automatiskt detekteringssystem för falska nyheter, avslöjar hur maskinlärande modeller fångar upp subtila men konsekventa skillnader i språket för fakta och falska berättelser. Forskningen understryker också hur falska nyhetsdetektorer bör genomgå mer rigorösa tester för att vara effektiva för verkliga tillämpningar.
Populärt som ett begrepp i USA under presidentvalet 2016, falska nyheter är en form av propaganda skapad för att vilseleda läsare, för att generera synpunkter på webbplatser eller styra opinionen.
Nästan lika snabbt som frågan blev mainstream, forskare började utveckla automatiska falska nyhetsdetektorer – så kallade neurala nätverk som "lär sig" från mängder av data för att känna igen språkliga ledtrådar som tyder på falska artiklar. Med tanke på nya artiklar att bedöma, dessa nätverk kan, med ganska hög noggrannhet, skiljer fakta från fiktion, i kontrollerade inställningar.
En fråga, dock, är problemet med den "svarta lådan" – vilket betyder att det inte går att säga vilka språkliga mönster nätverken analyserar under träning. De är också utbildade och testade i samma ämnen, vilket kan begränsa deras potential att generalisera till nya ämnen, en nödvändighet för att analysera nyheter över internet.
I ett dokument som presenterades vid konferensen och workshopen om system för neurala informationsbehandling, forskarna tar itu med båda dessa frågor. De utvecklade en modell för djupinlärning som lär sig att upptäcka språkmönster av falska och riktiga nyheter. En del av deras arbete "spricker upp" den svarta rutan för att hitta orden och fraserna som modellen fångar för att göra sina förutsägelser.
Dessutom, de testade sin modell på ett nytt ämne som den inte såg under träningen. Detta tillvägagångssätt klassificerar enskilda artiklar baserat enbart på språkmönster, som närmare representerar en verklig tillämpning för nyhetsläsare. Traditionella falska nyhetsdetektorer klassificerar artiklar baserat på text i kombination med källinformation, till exempel en Wikipedia-sida eller webbplats.
"I vårat fall, vi ville förstå vad som var klassificerarens beslutsprocess baserat enbart på språk, eftersom detta kan ge insikter om vad som är språket för falska nyheter, " säger medförfattaren Xavier Boix, en postdoc i labbet av Eugene McDermott professor Tomaso Poggio vid Center for Brains, sinnen, och Maskiner (CBMM) vid Institutionen för hjärn- och kognitionsvetenskap (BCS).
"En nyckelfråga med maskininlärning och artificiell intelligens är att du får ett svar och inte vet varför du fick det svaret, ", säger doktorand och första författare Nicole O'Brien '17. "Att visa dessa inre funktioner tar ett första steg mot att förstå tillförlitligheten hos djupinlärande falska nyhetsdetektorer."
Modellen identifierar uppsättningar av ord som tenderar att förekomma oftare i antingen riktiga eller falska nyheter - några kanske uppenbara, andra mycket mindre. Resultaten, forskarna säger, pekar på subtila men konsekventa skillnader i falska nyheter – som gynnar överdrifter och superlativ – och riktiga nyheter, som lutar mer åt konservativa ordval.
"Fake news är ett hot mot demokratin, " säger Boix. "I vårt labb, vårt mål är inte bara att driva vetenskapen framåt, men också att använda teknik för att hjälpa samhället. ... Det skulle vara kraftfullt att ha verktyg för användare eller företag som skulle kunna ge en bedömning av om nyheter är falska eller inte."
Tidningens andra medförfattare är Sophia Latessa, en student i CBMM; och Georgios Evangelopoulos, en forskare inom CBMM, McGovern Institute of Brain Research, och Laboratoriet för beräknings- och statistiskt lärande.
Begränsande partiskhet
Forskarnas modell är ett konvolutionellt neuralt nätverk som tränar på en datauppsättning av falska nyheter och riktiga nyheter. För träning och testning, forskarna använde ett populärt forskningsdataset för falska nyheter, kallas Kaggle, som innehåller cirka 12, 000 falska nyheter exempelartiklar från 244 olika webbplatser. De sammanställde också en datauppsättning av riktiga nyhetsexempel, använder mer än 2, 000 från New York Times och mer än 9, 000 från The Guardian.
I träning, modellen fångar språket i en artikel som "ordinbäddningar, " där ord representeras som vektorer - i grunden, uppsättningar av siffror – med ord med liknande semantiska betydelser samlade närmare varandra. Genom att göra så, den fångar trillingar av ord som mönster som ger ett visst sammanhang – som, säga, en negativ kommentar om ett politiskt parti. Med tanke på en ny artikel, modellen skannar texten efter liknande mönster och skickar dem över en serie lager. Ett sista utdatalager bestämmer sannolikheten för varje mönster:äkta eller falsk.
Forskarna tränade och testade först modellen på traditionellt sätt, använder samma ämnen. Men de trodde att detta kunde skapa en inneboende fördom i modellen, eftersom vissa ämnen oftare är föremål för falska eller riktiga nyheter. Till exempel, falska nyheter är i allmänhet mer benägna att innehålla orden "Trump" och "Clinton".
"Men det var inte vad vi ville, " O'Brien säger. "Det visar bara ämnen som väger starkt i falska och riktiga nyheter. ... Vi ville hitta de faktiska mönstren i språket som är indikativa för dessa."
Nästa, forskarna tränade modellen i alla ämnen utan att nämna ordet "Trump, " och testade modellen endast på prover som hade avsatts från träningsdata och som innehöll ordet "Trump." Medan den traditionella metoden nådde 93-procentig noggrannhet, den andra metoden nådde 87 procents noggrannhet. Detta noggrannhetsgap, forskarna säger, betonar vikten av att använda ämnen från utbildningsprocessen, för att säkerställa att modellen kan generalisera vad den har lärt sig till nya ämnen.
Mer forskning behövs
För att öppna den svarta lådan, forskarna gick sedan tillbaka i spåren. Varje gång modellen gör en förutsägelse om en ordtriplett, en viss del av modellen aktiveras, beroende på om trillingen är mer sannolikt från en verklig eller falsk nyhet. Forskarna designade en metod för att spåra varje förutsägelse tillbaka till dess angivna del och sedan hitta de exakta orden som gjorde att den aktiverades.
Mer forskning behövs för att avgöra hur användbar denna information är för läsare, säger Boix. I framtiden, modellen skulle potentiellt kunna kombineras med, säga, automatiserade faktagranskare och andra verktyg för att ge läsarna ett försprång i kampen mot desinformation. Efter lite förädling, modellen kan också vara grunden för en webbläsartillägg eller app som uppmärksammar läsarna på potentiellt falska nyhetsspråk.
"Om jag bara ger dig en artikel, och markera dessa mönster i artikeln medan du läser, du kan bedöma om artikeln är mer eller mindre falsk, " säger han. "Det skulle vara som en varning att säga, 'Hallå, kanske finns det något konstigt här."