I ett försök att ta itu med det växande problemet med falska nyheter på nätet, en algoritm som identifierar mönster i språket kan hjälpa till att skilja mellan fakta och felaktiga nyhetsartiklar. Kredit:Shutterstock
Har du någonsin läst något online och delat det i dina nätverk, bara för att få reda på att det var falskt?
Som mjukvaruingenjör och beräkningslingvist som tillbringar det mesta av sitt arbete och till och med fritiden framför en datorskärm, Jag är orolig över vad jag läser på nätet. I sociala mediers tid, många av oss konsumerar opålitliga nyhetskällor. Vi utsätts för ett vilt flöde av information i våra sociala nätverk – särskilt om vi spenderar mycket tid på att skanna våra vänners slumpmässiga inlägg på Twitter och Facebook.
Mina kollegor och jag på Discourse Processing Lab vid Simon Fraser University har forskat om de språkliga egenskaperna hos falska nyheter.
Effekterna av falska nyheter
En studie i Storbritannien visade att ungefär två tredjedelar av de tillfrågade vuxna regelbundet läser nyheter på Facebook, och att hälften av dem hade erfarenhet av att först tro på en falsk nyhet. En annan studie, utförd av forskare vid Massachusetts Institute of Technology, fokuserade på de kognitiva aspekterna av exponering för falska nyheter och fann att, i genomsnitt, nyhetsläsare tror på en falsk nyhetsrubrik minst 20 procent av gångerna.
Falska historier sprids nu 10 gånger snabbare än riktiga nyheter och problemet med falska nyheter hotar vårt samhälle på allvar.
Till exempel, under valet 2016 i USA, ett häpnadsväckande antal amerikanska medborgare trodde och delade en uppenbart falsk konspiration som hävdade att Hilary Clinton var kopplad till en människohandelsring som hade slut på en pizzarestaurang. Ägaren till restaurangen mottog dödshot, och en troende dök upp i restaurangen med en pistol. Detta – och ett antal andra falska nyheter som distribuerades under valsäsongen – hade en obestridlig inverkan på folks röster.
Det är ofta svårt att hitta ursprunget till en berättelse efter partisangrupper, sociala medier bots och vänner till vänner har delat det tusentals gånger. Faktakontrollwebbplatser som Snopes och Buzzfeed kan bara ta upp en liten del av de mest populära ryktena.
Tekniken bakom internet och sociala medier har möjliggjort denna spridning av desinformation; kanske är det dags att fråga vad den här tekniken har att erbjuda för att ta itu med problemet.
Giveaways i skrivstil
De senaste framstegen inom maskininlärning har gjort det möjligt för datorer att omedelbart slutföra uppgifter som skulle ha tagit människor mycket längre tid. Till exempel, det finns datorprogram som hjälper polisen att identifiera kriminella ansikten på några sekunder. Denna typ av artificiell intelligens tränar algoritmer för att klassificera, upptäcka och fatta beslut.
När maskininlärning tillämpas på naturlig språkbehandling, det är möjligt att bygga textklassificeringssystem som känner igen en typ av text från en annan.
Under de senaste åren har Forskare som behandlar naturligt språk har blivit mer aktiva i att bygga algoritmer för att upptäcka felaktig information; detta hjälper oss att förstå egenskaperna hos falska nyheter och utveckla teknik för att hjälpa läsarna.
Ett tillvägagångssätt hittar relevanta informationskällor, tilldelar varje källa ett trovärdighetspoäng och integrerar dem sedan för att bekräfta eller avfärda ett givet påstående. Detta tillvägagångssätt är starkt beroende av att spåra den ursprungliga nyhetskällan och poängsätta dess trovärdighet baserat på en mängd olika faktorer.
Ett andra tillvägagångssätt undersöker skrivstilen för en nyhetsartikel snarare än dess ursprung. De språkliga egenskaperna hos en skriven text kan säga oss mycket om författarna och deras motiv. Till exempel, specifika ord och fraser tenderar att förekomma oftare i en vilseledande text jämfört med en ärlig skriven.
Hittar falska nyheter
Vår forskning identifierar språkliga egenskaper för att upptäcka falska nyheter med hjälp av maskininlärning och naturlig språkbehandlingsteknologi. Vår analys av en stor samling faktagranskade nyhetsartiklar om en mängd olika ämnen visar att, i genomsnitt, falska nyhetsartiklar använder fler uttryck som är vanliga i hatretorik, såväl som ord relaterade till sex, död och ångest. Genuina nyheter, å andra sidan, innehåller en större andel ord relaterade till arbete (affärer) och pengar (ekonomi).
Detta tyder på att ett stilistiskt tillvägagångssätt kombinerat med maskininlärning kan vara användbart för att upptäcka misstänkta nyheter.
Vår falska nyhetsdetektor är byggd baserad på språkliga egenskaper utvunna från en stor mängd nyhetsartiklar. Den tar en bit text och visar hur lik den är de falska nyheterna och riktiga nyheter som den har sett tidigare. (Testa!)
Den största utmaningen, dock, är att bygga ett system som kan hantera det stora utbudet av nyhetsämnen och det snabba bytet av rubriker online, eftersom datoralgoritmer lär sig av prover och om dessa prover inte är tillräckligt representativa för onlinenyheter, modellens förutsägelser skulle inte vara tillförlitliga.
Ett alternativ är att låta mänskliga experter samla in och märka en stor mängd falska och riktiga nyhetsartiklar. Dessa data gör det möjligt för en maskininlärningsalgoritm att hitta gemensamma funktioner som fortsätter att förekomma i varje samling oavsett andra varianter. I sista hand, Algoritmen kommer att kunna skilja med förtroende mellan tidigare osynliga verkliga eller falska nyhetsartiklar.
Den här artikeln är återpublicerad från The Conversation under en Creative Commons-licens. Läs originalartikeln.