Texter som nätverk:Hur många ord räcker för att identifiera en författare?

Natural language processing (NLP)-tekniker tillåter oss att analysera texter som nätverk, där ord är noder och deras samtidiga förekomster är kanter. Detta tillvägagångssätt ger insikter i en författares stil, ordförråd och innehållspreferenser. En viktig fråga i detta sammanhang är:Hur många ord räcker för att identifiera en författare?

För att svara på denna fråga genomför forskare studier av tillskrivning av författarskap. Dessa studier involverar vanligtvis en datauppsättning av texter skrivna av olika författare, och uppgiften är att korrekt tillskriva varje text till dess författare baserat på dess språkliga egenskaper. Ett vanligt tillvägagångssätt är att använda en maskininlärningsalgoritm, såsom en stödvektormaskin (SVM) eller ett neuralt nätverk, för att klassificera texter baserat på deras ordfrekvenser eller andra språkliga egenskaper.

Antalet ord som krävs för korrekt tillskrivning av författarskap beror på flera faktorer, inklusive särarten hos författarnas skrivstilar, texternas längd och de specifika NLP-tekniker som används. I allmänhet ger längre texter mer information och kräver därför färre ord för korrekt tillskrivning. Till exempel fann en studie av Moschitti och Sebastiani (2006) att en SVM-klassificerare kunde uppnå en noggrannhet på över 90 % när det gäller att tillskriva engelska texter på 500 ord eller mer till sina författare. Men för kortare texter, som tweets eller e-postmeddelanden, kan fler ord behövas för tillförlitlig tillskrivning.

En annan faktor som påverkar antalet ord som krävs för att tillskriva författarskap är författarnas språkliga mångfald. Om författarna har väldigt lika skrivstilar kan det vara svårare att skilja på dem, även med ett stort antal ord. Å andra sidan, om författarna har distinkta skrivstilar, kan även ett litet antal ord vara tillräckligt för korrekt tillskrivning.

Sammanfattningsvis beror antalet ord som krävs för att identifiera en författare med hjälp av NLP-tekniker på flera faktorer, inklusive textlängden, särskiljningsförmågan hos författarnas skrivstilar och de specifika NLP-tekniker som används. Medan längre texter i allmänhet ger mer information och kräver färre ord för korrekt tillskrivning, kan kortare texter kräva fler ord för att uppnå tillförlitliga resultat.

Lördagscitat:Prisande hundar; utvecklingen av brunt fett; hur SSRI lindrar depression. Plus:Boeings Starliner

Falska akademiska uppsatser ökar:Varför de är en fara och hur man stoppar dem

Andra

Hur korrigerande linser fungerar

Rapport:Förödande inverkan av covid på marginaliserade samhällen i Somaliland

Skolbarn har för mycket telefontid, inte tillräckligt med speltid

Vetenskap

Rekonstruktion utan siktlinje med kollaborativ reglering av signalobjekt

Inte så dyrbart:Att ta bort guld från AFM-sonder möjliggör bättre mätning av picoscale krafter

Fiskdödar och odrickbart vatten:Här är vad du kan förvänta dig för Murray Darling i sommar