Exempel på en Hawkes-förgreningsprocess. Den röda noden (längst till vänster) representerar ett inlägg på sociala medier. Gröna och blå noder representerar "invandrare" respektive "avkommor". Kredit:Krohn &Weninger, anpassad med tillstånd från arbetet av Medvedev et al.
På sociala medieplattformar som Reddit och Twitter kan människor uttrycka sina åsikter och delta i diskussioner om en mängd olika ämnen. Detta görs vanligtvis i kommentarstrådar, som tillåter användare att kommentera befintliga inlägg.
En kommentarstråd är i huvudsak en konversation mellan olika onlineanvändare i form av kommentarer. Inom datavetenskap, kommentarstrådar betraktas ofta som "träd, " med noder som representerar det ursprungliga inlägget och efterföljande kommentarer, och riktade kanter som representerar "svar-till"-förhållanden.
Två forskare vid University of Notre Dame har nyligen utvecklat en modell för att förutsäga storleken och formen på kommentarstrådar online när de ser dem som träd. De kallade denna modell, introducerades i en tidning som förpublicerats på arXiv, CTPM (Comment Thread Prediction Model).
"Vårt huvudsakliga forskningsmål är att förutsäga storleken och formen på en kommentarstråd på sociala medier, "Tim Weninger, en av forskarna som genomförde studien, berättade för TechXplore. "Dessa webbplatser tillåter användare att lägga upp nyheter eller bilder eller annat innehåll. Sedan andra användare som, dela eller kommentera inlägget. Vi är mest intresserade av kommentarstrådar, där en användare kan kommentera själva inlägget eller svara på kommentarer som på Reddit och Twitter (men inte Facebook eller YouTube)."
Studien som genomfördes av Weninger och hans kollega Rachel Krohn finansierades av ett US Defense Advanced Research Project Agency (DARPA) program, som specifikt fokuserar på social simulering. En av frågorna som ställs av detta program är om det är möjligt att simulera sociala medier.
Tidigare studier tyder på att de första timmarna av ett inläggs liv är av avgörande betydelse för att förutsäga dess framtida popularitet. Faktiskt, inlägg som får mycket uppmärksamhet tidigt och omedelbart kommenteras av användare skapar i allmänhet ytterligare onlinediskussion i framtiden. Å andra sidan, inlägg som till en början inte får så mycket uppmärksamhet tenderar också att dra till sig mindre uppmärksamhet i framtiden.
De flesta befintliga tekniker som är utformade för att förutsäga storleken och formen på kommentarstrådar fungerar genom att observera de första flera kommentarerna som läggs till ett inlägg och sedan skapa en prediktiv modell. Dock, eftersom majoriteten av kommentarstrådarna är relativt små, att vänta på att nya data ska genereras kan försämra det övergripande målet för prediktionsuppgiften.
DARPA-programmet som finansierade studien instruerade därför specifikt forskarna att undersöka om de kunde förutsäga ett inläggs popularitet, inklusive antalet kommentarer som det skulle få fram i framtiden, baserat enbart på dess titel. Med detta mål i åtanke, teamet utvecklade en modell som analyserar orden i ett Reddit-inläggs titel, tillsammans med inläggsanvändaren och subreddit som den skickades till. Dessa variabler används för att skapa en "Hawkes-process, " en statistisk modell som används för att representera matematiska punkter i rymden.
"Vi använder en Hawkes-process för att simulera hur människor ser inlägget, läs en kommentar, och bestäm dig sedan för att svara på varje kommentar, " Weninger sa. "Modellen är inte perfekt och simulerar faktiskt inte innehållet i kommentarerna (dvs. vi gissar inte vad kommentaren faktiskt säger, bara om det finns en kommentar eller inte), dock, i genomsnitt gör vi ett ganska bra jobb med att förutsäga vilka kommentarer som kommer att bli populära och vilka som inte kommer att bli populära bara baserat på titeln, författare och subreddit av ett inlägg."
Weninger och hans kollegor utvärderade CTPM-modellen på tusentals riktiga användardiskussioner hämtade från Reddit, jämför dess effektivitet när det gäller att förutsäga storleken och formen på kommentarstrådar med andra tekniker. Anmärkningsvärt, deras modell överträffade betydligt alla befintliga modeller och baslinjer som den jämfördes med.
"För mig är det mest betydelsefulla bidraget från detta arbete vår modells förmåga att förutsäga storleken och formen på onlinekonversationer, ", sa Weninger. "Detta är viktigt för amerikanska brottsbekämpande myndigheter och försvarsmyndigheter eftersom att kunna förutsäga framtiden i cyberrymden gör det möjligt för dessa myndigheter att förbereda effektiva försvar mot cyberattacker och andra händelser som ofta flyttar från cybervärlden till den fysiska världen. "
I framtiden, modellen som föreslagits av Weninger och hans kollegor skulle kunna användas för att förutsäga populariteten för inlägg på Twitter eller Reddit enbart baserat på deras titel. Teamet planerar nu att fortsätta undersöka hur människor konsumerar och kurerar information online, inklusive deras interaktioner med andras inlägg (t.ex. gilla-markeringar, aktier, retweets, etc.).
"Gillar, aktier, uppröstningar, och retweets från användare är det enskilt viktigaste för sociala medieföretag eftersom de anger vilket innehåll som ska marknadsföras och vilket innehåll som kan vara spam eller låg kvalitet, " Sa Weninger. "Vi studerar dessa processer och hur de kan korrumperas av individer eller grupper med dåliga avsikter. Vårt framtida arbete inom detta område kommer att titta på manipulationer av socialt innehåll (t.ex. bildändringar, photoshops, deepfakes, etc.), eftersom vi kan lära oss mycket om människor och deras kultur genom att se hur de förändrar bilder i sociala medier."
© 2019 Science X Network