Kredit:CC0 Public Domain
Människor och maskiner arbetade tillsammans för att hjälpa till att träna en artificiell intelligens—AI—modell som överträffade andra clickbait-detektorer, enligt forskare vid Penn State och Arizona State University. Dessutom, den nya AI-baserade lösningen kunde också se skillnaden mellan clickbait-rubriker som genererades av maskiner – eller botar – och sådana som skrivits av människor, sa de.
I en studie, forskarna bad folk att skriva sitt eget clickbait – ett intressant, men vilseledande, nyhetsrubrik utformad för att locka läsare att klicka på länkar till andra onlineartiklar. Forskarna programmerade också maskiner för att generera artificiella clickbaits. Sedan, rubrikerna från både människor och maskiner användes som data för att träna en clickbait-detektionsalgoritm.
Den resulterande algoritmens förmåga att förutsäga clickbait-rubriker var cirka 14,5 procent bättre än andra system, enligt forskarna, som släppte sina resultat idag (28 augusti) vid 2019 IEEE/ACM International Conference on Advances in Social Networks Analysis (ASONAM) i Vancouver, Kanada.
Utöver dess användning i clickbait-detektion, teamets tillvägagångssätt kan hjälpa till att förbättra prestanda för maskininlärning i allmänhet, sa Dongwon Lee, projektets huvudutredare och en docent vid College of Information Sciences and Technology. Lee är också en filial till Penn State's Institute for CyberScience (ICS), som ger Penn State-forskare tillgång till superdatorresurser.
"Det här resultatet är ganska intressant eftersom vi framgångsrikt har visat att maskingenererad clickbait-träningsdata kan matas tillbaka till träningspipelinen för att träna en mängd olika maskininlärningsmodeller för att få förbättrad prestanda, " sa Lee. "Detta är steget mot att ta itu med den grundläggande flaskhalsen med övervakad maskininlärning som kräver en stor mängd högkvalitativ träningsdata."
Enligt Thai Le, doktorand vid College of Information Sciences and Technology, Penn State, en av utmaningarna för utvecklingen av clickbait-detektion är bristen på märkt data. Precis som människor behöver lärare och studieguider för att hjälpa dem att lära sig, AI-modeller behöver data som är märkta för att hjälpa dem att lära sig att göra de korrekta kopplingarna och associationerna.
"En av de saker vi insåg när vi startade det här projektet är att vi inte har många positiva datapunkter, " sa Le. "För att identifiera clickbait, vi måste få människor att märka utbildningsdata. Det finns ett behov av att öka mängden positiva datapunkter så att senare, vi kan träna bättre modeller."
Även om det kan vara enkelt att hitta clickbait på internet, de många varianterna av clickbait lägger till ytterligare en svårighetsgrad, enligt S. Shyam Sundar, James P. Jimirro professor i medieeffekter och meddirektör för Media Effects Research Laboratory vid Donald P. Bellisario College of Communications, och en ICS-filial.
"Det finns clickbaits som är listor, eller listiklar; det finns clickbaits som är formulerade som frågor; det finns de som börjar med vem-vad-var-när; och alla möjliga andra varianter av clickbait som vi har identifierat i vår forskning genom åren, sade Sundar. Så, att hitta tillräckligt med prover av alla dessa typer av clickbait är en utmaning. Även om vi alla stönar över antalet clickbaits runt omkring, när du kommer runt för att skaffa dem och märka dem, det finns inte många av dessa datamängder."
Enligt forskarna, studien avslöjade skillnader i hur människor och maskiner närmade sig skapandet av rubriker. Jämfört med det maskingenererade clickbait, rubriker som genererades av människor tenderade att ha fler avgöranden – ord som "vilken" och "det" – i sina rubriker.
Träning verkade också leda till skillnader i skapandet av clickbait. Till exempel, utbildade författare, som journalister, tenderade att använda längre ord och fler pronomen än andra deltagare. Journalister använde sannolikt också siffror för att starta sina rubriker.
Forskarna planerar att använda dessa resultat för att vägleda sina undersökningar till ett mer robust system för upptäckt av falska nyheter, bland andra applikationer, enligt Sundar.
"För oss, clickbait är bara ett av många element som utgör falska nyheter, men den här forskningen är ett användbart förberedande steg för att se till att vi har ett bra system för clickbait-detektion, sa Sundar.
För att hitta mänskliga clickbait-skribenter för studien, forskarna rekryterade journaliststudenter och arbetare från Amazon Turk, en crowdsource-webbplats online. De rekryterade 125 studenter och 85 arbetare från platsen. Deltagarna läste först en definition av clickbait och ombads sedan att läsa en kort – cirka 500 ord – artikel. Deltagarna ombads sedan att skriva en clickbait-rubrik för varje artikel.
De maskingenererade clickbait-rubrikerna utvecklades med hjälp av en maskininlärningsmodell som kallas Variational Autoencoders-eller VAE-generativ modell, som förlitar sig på sannolikheter för att hitta mönster i data.
Forskarna testade sin algoritm mot topppresterande system från Clickbait Challenge 2017, en online-tävling för upptäckt av clickbait.