I denna datavisualisering, varje nod representerar en grupp Wikipedia -sidor om ett ämne relaterat till världshändelser 2015. Kronblad bildas genom att gruppera noder från ett givet ämne. Upphovsman:Kirell Benzi
EPFL-forskare har studerat dynamiken i nätverksstrukturer med hjälp av en av världens mest besökta webbplatser:Wikipedia. Förutom en bättre förståelse av onlinenätverk, deras arbete ger spännande insikter om mänskligt socialt beteende och kollektivt minne.
Har du någonsin besökt en Wikipedia -sida för att svara på en fråga, bara för att hitta dig själv genom att klicka från sida till sida, tills du hamnar i ett ämne som är väldigt annorlunda än det du började med? Om så är fallet, du är inte bara ensam, men chansen är stor att andra människor har tagit samma rondellväg från, säga, "Game of Thrones" till "Dubrovnik" till "turistattraktion" till "världens största garnboll".
Forskare i Signal Processing Laboratory (LTS2) under ledning av professor Pierre Vandergheynst vid EPFL School of Engineering (STI) och School of Computer and Communication Sciences (IC) ville ta reda på hur denna process fungerar.
Mer specifikt, de gav sig ut för att studera dynamiken i nätverksstruktur med hjälp av signalbehandling och nätverksteori, utveckla en algoritm för att automatiskt upptäcka ovanlig aktivitet i ständiga förändringar, komplexa system som Wikipedia.
"Mänsklighetens hjärna"
Möjligheten att upptäcka och studera avvikande händelser i onlinenätverk - till exempel en plötslig ökning av antalet besök på en viss Wikipedia -sida under en viss tid - kan berätta mycket om mänsklig interaktion, kollektivt beteende, minne och informationsutbyte, säger forskarna.
Denna datavisualisering visar Wikipedia -sidor om GoT -aktörer, karaktärer och avsnitt. Kredit:LTS2/EPFL
"Vår idé var att föreställa sig Wikipedia som mänsklighetens hjärna, där sidbesök är jämförbara med spikar i hjärnaktivitet, "säger Volodymyr Miz, en forskare och doktorand student på LTS2. Miz är huvudförfattare till en artikel om den nya algoritmen, som nyligen presenterades på The Web Conference 2019 i San Francisco, Kalifornien, U.S ..
Medförfattare Kirell Benzi, en tidigare LTS2 -forskare och EPFL -datavisualiseringslektor som nu arbetar som datakonstnär, tillade att det som gjorde Wikipedia så tilltalande som datakälla var dess tillgänglighet och storlek.
"Wikipedia har cirka 5 miljarder besök per år enbart på engelska. Med denna teknik, vi kan identifiera grupper av sidor som hör ihop, " han sa.
Från kollektivt minne till falska nyheter
Forskarnas algoritm är unik eftersom den inte bara kan identifiera sådana avvikande händelser, men också ge insikter om exakt var, hur, och varför de hände.
"Kärnskillnaden är att vi ger mer sammanhang på grund av nätverksstrukturen. Till exempel, om vi tittar på Wikipedia -sidor om terroristattackerna i Paris 2015, vi kan se att sidan om attacken är direkt kopplad till sidan om Charlie Hebdo magazine, och även till en grupp sidor som representerar terrororganisationer, "Förklarar Miz.
Fluktuationer i besök på Wikipedia -sidor för två GoT -karaktärer över tid. Kredit:LTS2/EPFL
Benzi och Miz kallar denna typ av informationssökande "kollektivt minne, "eftersom det kan avslöja hur aktuella händelser utlöser minnen från det förflutna.
"Wikipedia -forskningen handlar om att försöka utforska nya fynd om själva den mänskliga naturen. Wikipedia är en mycket intressant datamängd eftersom den speglar mer eller mindre vad vi som mänskligheten bestämmer oss för att komma ihåg. vi har samma tankegång och bläddrar i samma ämnen, Säger Benzi.
Så, vilka ämnen bryr sig folk mest om, enligt denna forskning? Kort sagt:andra människor.
"Cirka 80% av besöken är för underhållning eller kändisar. I tidigare forskning har vi har funnit att 40% av alla länkar som klickas handlar om människor och deras relationer, "Benzi säger, tillägger att färre än 1% av besöken är för ämnen som är relaterade till vetenskap.
LTS2 samarbetar för närvarande med utvecklare av den kostnadsfria offline -webbläsaren Kiwix, som syftar till att få komprimerade versioner av Wikipedia till dem utan fri tillgång till internet.
"Vår metod kan vara till stor hjälp för Kiwix för att identifiera och komprimera endast relevanta delar av Wikipedia, baserat på språk och kultur, till exempel, "Säger Miz.
Andra tillämpningar av algoritmen kan innefatta att studera spridningen av falska nyheter på Twitter genom att övervaka spikar i retweets, eller förstå kopplingar mellan e-postnätverksdynamik och verkliga händelser. Dock, dessa ämnen är mer utmanande att studera än Wikipedia på grund av mindre mängder fritt tillgänglig data.
Denna datavisualisering visar Wikipedia -sidor om GoT -aktörer, karaktärer och avsnitt. Kredit:LTS2/EPFL
Fallstudie:Game of Thrones
Miz, Benzi och deras kollegor använde sin metod för att upptäcka avvikande aktivitet på Wikipedia -sidor relaterade till den sista säsongen av HBO -succéprogrammet Game of Thrones som ett exempel. Den resulterande öppna datamängden gjorde det möjligt för dem att skapa datavisualiseringar av sidor relaterade till olika aspekter av showen, inklusive skådespelare, tecken, säsonger, avsnitt, och andra ämnen.
Forskarna kunde också använda metoden för att bestämma karaktärspopularitet baserat på antalet besök på deras Wikipedia -sidor över tid, och försöker för närvarande se vilka andra sidor som aktiverades av att en viss karaktär dog i serien. Detta arbete bygger på en liknande insats 2016 för att analysera Star Wars -universum.
Benzi konstaterar att forskningen är ett utmärkt exempel på digital humaniora, där datavetenskapliga metoder och digital teknik tillämpas på sociologi, litteratur, historia och andra humaniora.
"Digital humaniora är ett riktigt intressant område, men det fungerar bara när du har en kombination av olika färdigheter från datavetenskap, teknik, psykologi, sociologi, konst och så vidare. Så, en av fördelarna är att kunna samarbeta mellan laboratorier, Säger Benzi.