Ett team av forskare från National Research Nuclear University MEPhI, National Research Center Kurchatov Institute och Voronezh State University har utvecklat en ny inlärningsalgoritm som gör att ett neuralt nätverk kan identifiera en författares kön genom den skrivna texten på en dator med upp till 80 procents noggrannhet.
Detta är en ny utveckling inom beräkningslingvistik. Forskningen finansierades av ett anslag från Russian Science Foundation. Resultaten publicerades i Procedia datavetenskap tidning.
Många vetenskapliga studier visar att skrivstil kan spegla vissa egenskaper hos en författare – kön, fysiologiska personlighetsdrag, och utbildningsnivå. Talmönster är ett värdefullt psykodiagnostiskt verktyg, och används ofta av personalpersonal och säkerhetstjänster.
Genom att analysera en persons tal, forskare kan diagnostisera vissa sjukdomar som demens och depression, och personens benägenhet till suicidalt beteende. Kravet på att identifiera vissa egenskaper hos en författares personlighet ökar mot bakgrund av utvecklingen av internetkommunikation – företag vill veta vilken demografi som gillar deras produkter och tjänster.
Genom att använda de numeriska värdena för olika parametrar i en text, forskare inom detta område (lingvister, psykologer, IT-experter) har skapat matematiska modeller för att identifiera vissa egenskaper hos författarens personlighet. Använda neurala nätverk, forskarna analyserade effektiviteten hos olika maskininlärningsalgoritmer för textanalys.
Under forskningen, forskarna jämförde exaktheten av könsidentifiering genom text baserat på två typer av datadriven modellering:för det första, maskininlärningsalgoritmer (som en stödvektormaskin och gradientförstärkning), och, andra, ett neuralt nätverk för djupinlärning (såsom konvolutionella neurala nätverk och långtidsminnet återkommande neurala nätverk).
"Med hjälp av dessa avancerade neurala nätverksmodeller, vi har uppnått fantastiska resultat i att identifiera skribentens kön baserat på text, under förhållanden där författaren inte försöker dölja sitt kön, sa Alexander Sboyev, biträdande professor vid MEPhI. "Vårt nästa steg är att lära det neurala nätverket att identifiera könet på en författare som medvetet försöker dölja det."
Således, i följande texter, ursprungligen publicerad på dejtingsajter, det neurala nätverket identifierade lätt författarens kön 10 av 10 gånger, trots att författare var fria att signera sina texter med ett namn som är typiskt för det motsatta könet.
Den här texten skrevs av en kvinna:"Jag är en snygg, passform 30-årig man. Jag har ett högavlönat jobb på ett stort olje- och gasbolag. Jag bor i min egen lägenhet i Moskva, och äger även ett litet men fint hus i en italiensk by. Jag är intresserad av sport, främst fotboll. Jag älskar att gå ut på helger, Jag tål inte hemska. Min perfekta tjej skulle vara blygsam och vacker, och skulle ha en attraktiv kropp, baserat på dagens standarder. Hon skulle dela mina intressen och skulle inte vara svartsjuk eller försöka göra mig svartsjuk. I framtiden, Jag planerar inte att vara den enda försörjaren i en familj, eftersom jag tror att när det gäller familjer, både män och kvinnor måste tjäna pengarna. Jag skulle vilja ha separata budgetar också. Jag kommer inte att tolerera fusk."
Den här texten skrevs av en man:"Hej! Jag är väldigt arg, mycket! Varför fortsätter du att behandla oss så här?! Vi är människor, för, vi alla är lika! Är du sexistisk? Jag kommer inte att tolerera detta längre! Jag ska krossa din bil i bitar; Jag ska spraya måla över det hela. Vänta bara, ditt monster. Det suger att vara du."
Denna forskning visade att tillvägagångssättet baserat på att använda konvolutionella neurala nätverk och metoder för djupinlärning för att identifiera en författares kön, är det mest optimala. Teamet av forskare arbetar för närvarande med att identifiera en författares ålder.