• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  •  science >> Vetenskap >  >> Fysik
    Texter som nätverk:Hur många ord räcker för att identifiera en författare?

    Författaren till en osignerad text kan identifieras genom att analysera förhållandet mellan bara några få ord i texten, som visas av fysiker-statistiker från Institutet för kärnfysik vid den polska vetenskapsakademin i Krakow. (Källa:IFJ PAN) Kredit:IFJ PAN

    Människor är mer originella än de tror – detta föreslås av en litterär textanalysmetod för stilometri som föreslagits av forskare från Institutet för kärnfysik i den polska vetenskapsakademin. Författarens individualitet kan ses i sambanden mellan inte mer än ett dussin ord i en engelsk text. Det visar sig att på slaviska språk, Författarskapsidentifiering kräver ännu färre ord, och är mer säker.

    Forskarna sökte en lösning på problemet med att verifiera författarskapet till historiska texter kända endast från fragment, identifiering av plagiat, och liknande problem. I många fall, traditionella stilometriska metoder misslyckas eller leder inte till tillräckligt tillförlitliga slutsatser. I Informationsvetenskap , forskare från Institutet för kärnfysik vid den polska vetenskapsakademin (IFJ PAN) i Krakow presenterar nu sitt eget statistiska verktyg för stilometrisk analys. Konstruerad med hjälp av grafer, den analyserar texternas struktur på ett kvalitativt nytt sätt.

    "Slutsatserna av vår forskning är, å ena sidan, uppmuntrande. De indikerar att varje persons individualitet visar sig tydligt i hur de använder ett förvånansvärt litet antal ord. Men det finns också en mörk sida. Eftersom det visar sig att människor är så originella, det blir lättare att identifiera individer genom deras uttalanden, " säger professor Stanislaw Drozdz vid Cracow University of Technology.

    Stylometri, vetenskapen som behandlar de statistiska egenskaperna hos textstilen, bygger på observationen att varje person använder samma språk på lite olika sätt. Vissa har ett bredare ordförråd, andra smalare, vissa föredrar vissa fraser och gör misstag, andra undviker upprepningar och är språkliga purister. Och i skriven text, de skiljer sig också åt i hur de använder skiljetecken. I det typiska stilometriska tillvägagångssättet, de grundläggande dragen i en text undersöks vanligtvis, inklusive frekvensen av förekomsten av enskilda ord, medan skiljetecken ignoreras. Analyser görs för den studerade texten och för texter skrivna av potentiellt välkända författare. Skaparen anses vara den person vars verk har parametrar med de värden som ligger närmast de som erhålls för det material som identifieras.

    "Vi föreslog att stilens karaktäristiska drag kunde representeras i en nätverksrepresentation av texten, med hjälp av grafer, " förklarar Tomasz Stanisz, Ph.D. student vid IFJ PAN och den första författaren till publikationen. "Grafen är en samling punkter eller hörn på grafen, sammankopplade med linjer, d.v.s. kanterna på grafen. I det enklaste fallet — i det så kallade oviktade nätverket — motsvarar hörnen enskilda ord och sammanbinds med kanter om och endast om två givna ord förekommit intill varandra minst en gång i texten. Till exempel, för meningen 'Jane är hungrig, ' grafen skulle ha tre hörn, en för varje ord, men det skulle bara finnas två kanter, en mellan 'Jane' och 'är, ' den andra mellan 'är' och 'hungrig'."

    Medan de konstruerade sina stylometriska verktyg, forskarna testade olika typer av grafer. De bästa resultaten erhölls för viktade grafer, det är, de där varje kant bär information om antalet förekomster av dess motsvarande koppling mellan ord. Två parametrar visade sig vara de mest användbara i sådana nätverk:nodgraden och klustringskoefficienten. Den första beskriver antalet kanter som kommer från en given nod och är direkt relaterad till antalet förekomster av ett givet ord i texten. I tur och ordning, klusteringskoefficienten beskriver sannolikheten att två ord som är förbundna med en kant med ett givet ord också är förbundna med en kant mellan sig.

    Med hjälp av statistiska verktyg förberedda på detta sätt, de Krakow-baserade fysikerna tittade på 96 böcker:sex romaner av åtta välkända engelska författare (Austen, Conrad, Defoe, Dickens, Doyle, Eliot, Orwell och Twain) och åtta polska författare (Korczak, Kraszewski, Lam, Orzeszkowa, Prus, Reymont, Sienkiewicz och Zeromski). Författarna inkluderade två vinnare av Nobelpriset i litteratur (Wladyslaw Reymont och Henryk Sienkiewicz). Alla texter erhölls från internetresurser:Project Gutenberg, Wikisource och Wolne Lektury. Gruppen från IFJ PAN kontrollerade sedan tillförlitligheten med vilken författarskapet till 12 slumpmässigt utvalda verk på ett språk kunde fastställas, behandla resten av poolen av verk som jämförande material.

    "När det gäller engelska texter, vi identifierade författarna korrekt i nästan 90 procent av fallen. Dessutom, för att nå framgång, det var nödvändigt att spåra sambanden mellan endast 10 till 12 ord i den granskade texten. Tvärtemot naiv intuition, en ytterligare ökning av antalet studerade ord ökade inte nämnvärt metodens effektivitet, säger Stanisz.

    På polska, bestämningen av författarskap visade sig vara ännu enklare:det krävdes endast en analys av fem till sex ord. I synnerhet, trots att mängden betydelsefulla ord var hälften så många som på engelska, sannolikheten för korrekt identifiering ökades med upp till 95 procent. Så hög diagnostisk noggrannhet, dock, uppnåddes endast när skiljetecken också behandlades som separata ord. På båda språken, utelämnande av skiljetecken resulterade i en betydande minskning av antalet korrekta gissningar. Den observerade rollen av skiljetecken är en annan bekräftelse på slutsatserna från en publikation från 2017 av gruppen av professor Drozdz, där det visades att skiljetecken spelar en lika viktig roll i språket som själva orden.

    "I jämförelse med engelska, Polska verkar ge större möjligheter att avslöja författarens stil. Vi tror att de andra slaviska språken kännetecknas av liknande egenskaper. Engelska är ett positionsspråk, vilket betyder att ordningen på orden i en mening är viktig. Denna typ av språk lämnar mindre utrymme för en individuell uttrycksstil än de slaviska språken, i vilken böjning, eller variation, bestämmer rollen för ett ord eller en fras i en mening. Detta ger större frihet att organisera ordordningen i en mening, medan dess innebörd förblir oförändrad, " säger prof. Drozdz.

    © Vetenskap https://sv.scienceaq.com