Pseudo-big 5 poäng för sju huvudfigurer i Harry Potter-böckerna. Dessa poäng är percentiler baserade på ett urval av 100 siffror som förekommer i bokserien. Kredit:Arthur M. Jacobs.
Arthur Jacobs, professor och forskare vid Freie Universität Berlin, har nyligen utvecklat SentiArt, en ny maskininlärningsteknik för att utföra sentimentanalyser av litterära texter, såväl som både fiktiva och icke-fiktiva figurer. I sin tidning, inställd på att publiceras av Gränser inom robotik och AI , han tillämpade detta verktyg på passager och karaktärer från Harry Potter-böckerna.
Jacobs har en bakgrund inom neurolingvistik, en gren av lingvistik som utforskar de neurala mekanismerna förknippade med språkinlärning, förståelse och uttryck. I sitt tidigare arbete, han har ofta undersökt hur verktyg för maskininlärning kan användas för att analysera och bättre förstå mänskligt språk. Han är särskilt intresserad av vad han kallar beräkningspoetik, ett studieområde som fokuserar på användningen av beräkningsverktyg för att förstå litterärt innehåll.
"Under 2011, Jag skrev en bok med den österrikiska poeten Raoul Schrott som heter 'Hjärna och poesi , ' där vi spekulerade i att det skulle hjälpa till att utveckla sentimentanalysverktyg för litterära texter och poesi, inte bara för filmrecensioner eller Trump-tweets, som verkar vara guldstandarden i klassisk sentimentanalys, " berättade Jacobs för TechXplore. "Vi ville också utveckla ett verktyg som kan förutsäga mänskliga neuronala och beteendedata, inte bara självrapporter som samlats in via Amazon Turk."
I sin nya studie, Jacobs försökte omsätta några av idéerna i hans tidigare arbete i praktiken genom att utveckla ett verktyg för att analysera sentiment i litterära texter. Tekniken han föreslog, kallas SentiArt, använder vektorrumsmodeller och teoristyrda, empiriskt validerade listor med etiketter för att beräkna valensen av enskilda ord i en text. Vektorrymdsmodeller är representationer av textdokument som vektorer av identifierare, som ofta används för att filtrera, hämta eller organisera information.
"SentiArt är ett mycket förenklat verktyg som kan användas av icke-experter för att helt enkelt jämföra orden i deras testtext (dvs. texten de vill göra en sentimentanalys på) med ett excelark som de kan ladda ner från min hemsida gratis, " förklarade Jacobs. "I princip, verktyget ska fungera på vilket språk som helst som du kan ladda ner Facebooks så kallade vektorrymdsmodeller för, på webbsidan fastText. Medan min studie fokuserar på engelska och tyska, du kan också använda den på malaysiska, Farsi eller en kinesisk dialekt, och en mängd andra språk, eftersom fastText har vektorrymdsmodeller för över 290 språk."
Jacobs framhåller att SentiArt är ganska lätt att använda, och tillade att han kunde lära 30 tyska litteraturstudenter hur man använder det under en entimmes lektion. I sitt senaste arbete, han testade verktygets noggrannhet med hjälp av data som samlats in under en neurokognitiv studie och använde den sedan för att beräkna känslomässiga och personlighetsprofiler för några av huvudkaraktärerna i Harry Potter, inklusive Voldemort, Snape, Hermione, Hagrid, Harry, Dumboldore och Dobby.
Intressant, han beräknade dessa karaktärers känslomässiga figurer och personlighetsprofiler baserat på "de fem stora" personlighetsteorin, en etablerad konstruktion inom psykologisk forskning. "Big Five"-teorin används i allmänhet för att grovt mäta människors personlighetsdrag baserat på fem nyckeldimensioner, nämligen öppenhet, samvetsgrannhet, extraversion, behaglighet och känslomässig stabilitet.
Jacobs genomförde en serie analyser som jämförde verktyget han utvecklade med andra maskininlärningsklassificerare för sentimentanalys, som Vader och Hu-Liu. SentiArt presterade anmärkningsvärt bra när det gällde att förutsäga känslopotentialen i textavsnitt från Harry Potter-böckerna, samtidigt som de gör rimliga förutsägelser om fiktiva karaktärers känslomässiga och personlighetsprofil. Till sist, verktyget uppnådde en lovande korsvalideringsnoggrannhet genom att klassificera 100 fiktiva figurer i "bra" eller "dåliga".
"Artikeln är på ett fåtal begränsade applikationer och på två språk (tyska/engelska), så innan jag kan spekulera i applikationspotentialen, att vara en experimentell vetenskapsman, Jag skulle vilja ha många fler korsvalideringsstudier med mänskliga data, " förklarade Jacobs. "Det är bara så jag är tränad, även om dessa vanligtvis inte är huvudprioriteringarna inom bearbetning av naturligt språk (NLP) eller maskininlärningsgemenskapen. Men som neurolingvist, vi skulle alltid försöka testa förutsägelserna av en algoritm med mänskliga data innan vi spekulerar i vad den verkligen är användbar för."
Även om Jacobs betonar behovet av ytterligare studier för att fastställa SentiArts effektivitet och generaliserbarhet, verktyget han utvecklade kunde så småningom ha många intressanta tillämpningar. Till exempel, det kan tillämpas inom områden som beräkningslingvistik, personlighetspsykologi, digital humaniora och kanske till och med i kliniska miljöer. Det kan, i princip, även tillämpas på icke-fiktiva karaktärer som förekommer i Wikipedia eller Wikinews, t.ex. Winston Churchill, Marilyn Monroe eller Angela Merkel.
"Modellen passade med en första uppsättning empiriska data, Harry Potter-betygen, är definitivt uppmuntrande, ", tillade Jacobs. "Också två av de mest populära sentimentanalysverktygen jag jämförde med klarar sig inte bättre i detta sammanhang, så jag tycker att detta är en prestation som förtjänar publicering. Jag tycker att det var en trevlig gimmick att visa den känslomässiga karaktärsprofilen för Voldemort eller Harry Potter. men självklart, verktyget kan också användas på icke-fiktiva karaktärer."
Jacobs planerar nu att genomföra ytterligare korsvalideringsstudier som testar sin modells förutsägelser med mänskliga data. Han hoppas att team på andra universitet kommer att göra detsamma, antingen genom att använda data som samlats in via Amazon Turk eller neuroimaging data, som i "Harry Potter"-studien som utfördes i hans labb. Dessutom, han skulle vilja utforska sätt att förbättra prestanda för sentimentanalysverktyg i uppgifter med hjälp av regressorer för maskininlärning istället för klassificerare.
"Maskininlärningsmetoder är generellt uppdelade i två olika typer, " förklarade Jacobs. "Den första är klassificeringsmetoder, som klassificerar data i kategorier, som positivt eller negativt. Det är här min algoritm fungerar väldigt bra. Det hårda testet är inte klassificering, det är regression, which entails fitting an algorithm's predictions to continuous human data, such as ratings on a scale from one to 10. Few people in sentiment analysis use regressors, especially for literary texts, because accuracy tends to drop, till exempel, from over 90 percent to about 30 percent to 50 percent. I would like to see more work testing this, and once more empirical data has been published, I will try to improve parts of the algorithm in agreement with this new data."
In addition to his research endeavors, Jacobs will soon start teaching natural language programming (NLP) and machine learning as part of a new data science course at Freie Universität Berlin. His hope is to train new generations of data scientists to value the collection of empirical human data related to reading literature and poetry just as much as publishing code or predicting particular things.
© 2019 Science X Network