För att svara på denna fråga genomför forskare studier av tillskrivning av författarskap. Dessa studier involverar vanligtvis en datauppsättning av texter skrivna av olika författare, och uppgiften är att korrekt tillskriva varje text till dess författare baserat på dess språkliga egenskaper. Ett vanligt tillvägagångssätt är att använda en maskininlärningsalgoritm, såsom en stödvektormaskin (SVM) eller ett neuralt nätverk, för att klassificera texter baserat på deras ordfrekvenser eller andra språkliga egenskaper.
Antalet ord som krävs för korrekt tillskrivning av författarskap beror på flera faktorer, inklusive särarten hos författarnas skrivstilar, texternas längd och de specifika NLP-tekniker som används. I allmänhet ger längre texter mer information och kräver därför färre ord för korrekt tillskrivning. Till exempel fann en studie av Moschitti och Sebastiani (2006) att en SVM-klassificerare kunde uppnå en noggrannhet på över 90 % när det gäller att tillskriva engelska texter på 500 ord eller mer till sina författare. Men för kortare texter, som tweets eller e-postmeddelanden, kan fler ord behövas för tillförlitlig tillskrivning.
En annan faktor som påverkar antalet ord som krävs för att tillskriva författarskap är författarnas språkliga mångfald. Om författarna har väldigt lika skrivstilar kan det vara svårare att skilja på dem, även med ett stort antal ord. Å andra sidan, om författarna har distinkta skrivstilar, kan även ett litet antal ord vara tillräckligt för korrekt tillskrivning.
Sammanfattningsvis beror antalet ord som krävs för att identifiera en författare med hjälp av NLP-tekniker på flera faktorer, inklusive textlängden, särskiljningsförmågan hos författarnas skrivstilar och de specifika NLP-tekniker som används. Medan längre texter i allmänhet ger mer information och kräver färre ord för korrekt tillskrivning, kan kortare texter kräva fler ord för att uppnå tillförlitliga resultat.