Kredit:CC0 Public Domain
Skämde sociala medier Avengers' Endgame-filmen för dig? Eller kanske någon av Game of Thrones-böckerna? Ett team av forskare från University of California San Diego arbetar för att se till att det inte händer igen. De har utvecklat ett AI-baserat system som kan flagga spoilers i onlinerecensioner av böcker och TV-program.
"Spoilers finns överallt på internet, och är väldigt vanliga på sociala medier. Som internetanvändare, vi förstår smärtan av spoilers, och hur de kan förstöra ens upplevelse, sa Ndapa Nakashole, en professor i datavetenskap vid UC San Diego och en av tidningens seniorförfattare.
Vissa webbplatser tillåter människor att manuellt flagga sina inlägg med taggar som fungerar som "spoiler ahead"-varningsskyltar. Men detta händer inte alltid. Så forskare ville utveckla ett artificiell intelligensverktyg som drivs av neurala nätverk för att automatiskt upptäcka spoilers. De döpte verktyget till SpoilerNet.
På en teoretisk nivå, forskare vill bättre förstå hur människor skriver spoilers och vilken typ av språkliga mönster och allmän kunskap som markerar en mening som en spoiler.
Forskare kommer att presentera sina resultat vid 2019 års årsmöte för Association for Computational Linguistics i Florens, Italien, 28 juli till 2 augusti. Verktyget som forskarna utvecklade skulle kunna användas för att bygga ett webbläsartillägg för att skydda människor från spoilers.
För att träna och testa SpoilerNet, UC San Diego-teamet letade efter stora datamängder av meningar som innehöll spoilers. Spoiler varning! De hittade ingen. Så de skapade sina egna genom att samla in mer än 1,3 miljoner bokrecensioner kommenterade med spoilertaggar av bokrecensenter. Taggarna omfattar meningar som innehåller spoilers och gömmer dem bakom en "visa spoiler"-länk i texten. Recensionerna samlades in från Goodreads, en social nätverkssida som låter människor spåra vad de läser, och dela tankar och recensioner med andra läsare.
"Så vitt vi vet, detta är den första datamängden med spoilerkommentarer i denna skala och med en så finkornig granularitet, sa Mengting Wan, en Ph.D. student i datavetenskap vid UC San Diego och tidningens första författare.
Forskare fann att spoilermeningar tenderar att klumpas ihop i den senare delen av recensioner. Men de fann också att olika användare hade olika standarder för att tagga spoilers, och neurala nätverk behövde noggrant kalibreras för att ta hänsyn till detta.
Dessutom, samma ord kan ha olika semantiska betydelser i olika sammanhang. Till exempel, "grönt" är bara en färg i en bokrecension, men det kan vara namnet på en viktig karaktär och en signal för spoilers i en annan bok. Att identifiera och förstå dessa skillnader är utmanande, sa Wan.
Forskare utbildade SpoilerNet på 80 procent av recensionerna på Goodreads, köra texten genom flera lager av neurala nätverk. Systemet kunde upptäcka spoilers med 89 till 92 procents noggrannhet.
De körde också SpoilerNet på en datauppsättning på mer än 16, 000 enstaka meningsrecensioner av cirka 880 TV-program. Noggrannheten för verktyget för att upptäcka spoilers var 74 till 80 procent.
De flesta av felen kom från att systemet distraherades av ord som vanligtvis är laddade och avslöjande – till exempel mord eller dödad.
Ser fram emot, Goodreads dataset kan användas som ett kraftfullt verktyg för att träna algoritmer för att upptäcka spoilers i olika typer av innehåll – säg, tweets som innehåller spoilers.