Kredit:Pixabay/CC0 Public Domain
Forskning publicerad i International Journal of Cloud Computing tittar på hur maskininlärning kan tillåta oss att analysera karaktären och egenskaperna hos uppdateringar av sociala medier och upptäcka vilka av dessa uppdateringar som lägger till gryn till ryktesbruket snarare än att vara fakta.
Fake news har funnits med oss ända sedan det första skvallret förde ett rykte vidare. Men med tillkomsten av sociala medier är det nu så mycket lättare att sprida falska nyheter, desinformation och propaganda till en stor global publik utan några begränsningar. Ett rykte kan skapa eller bryta ett rykte. Nuförtiden kan det hända världen över genom sociala mediers förstärkande ekokammare.
Mohammed Al-Sarem, Muna Al-Harby, Faisal Saeed och Essa Abdullah Hezzam från Taibah University i Medina, Saudiarabien har undersökt olika metoder för textförbehandling för att närma sig de enorma mängder data som strömmar från sociala medier dagligen . Hur väl dessa tillvägagångssätt fungerar i den efterföljande ryktedetekteringsanalysen är avgörande för hur väl falska nyheter kan upptäckas och stoppas. Teamet har testat olika tillvägagångssätt på en datauppsättning av politiska nyhetsrelaterade tweets från Saudiarabien.
Förbearbetning kan titta på de tre mest relevanta egenskaperna hos en uppdatering innan textanalysen utförs och silo de olika uppdateringarna därefter:För det första kan den titta på användningen av frågetecken och utropstecken och antalet ord. För det andra kan den titta på om ett konto är verifierat eller har egenskaper oftare kopplade till ett falskt konto eller botkonto, såsom antal tweets, svar, retweets, etc. För det tredje kan det titta på användarbaserade funktioner, som användaren namn och användarens logotyp eller profilbild.
Forskarna fann att förbearbetning kan förbättra analysen avsevärt när utdata matas till någon av stödvektormaskiner (SVM), multinomial naiva Bayes (MNB) och K-nearest neighbor (KNN) klassificerare. Dessa klassificerare reagerar dock olika beroende på vilken kombination av förbehandlingstekniker som används. Till exempel att ta bort stoppord och rensa bort kodningstaggar, som HTML, stemming och tokenisering. + Utforska vidare