Kredit:CC0 Public Domain
En forskargrupp ledd av Northwestern Engineerings Luis Amaral har utvecklat en algoritmisk metod för dataanalys som automatiskt känner igen oinformativa ord – så kallade stoppord – i en stor textsamling. Fynden kan dramatiskt spara tid under naturlig språkbehandling samt minska dess energiavtryck.
"En av utmaningarna med maskininlärning och artificiell intelligens är att du inte vet vilken data som är användbar för en algoritm och vilken data som är ohjälpsam, sa Amaral, Erastus Otis Haven professor i kemi- och biologisk teknik vid McCormick School of Engineering. "Med hjälp av informationsteori, vi skapade ett ramverk som avslöjar vilka ord som är oinformativa för den aktuella uppgiften."
Problemet med stoppord
En av de vanligaste teknikerna som dataforskare använder vid bearbetning av naturligt språk är bag-of-words-modellen, som analyserar orden i en given text utan att beakta i vilken ordning de förekommer. För att effektivisera processen, forskare filtrerar bort stoppord, de som inte lägger till något sammanhang till dataanalysen. Många stoppordslistor är manuellt kurerade av forskare, vilket gör dem tidskrävande att utveckla och underhålla samt svåra att generalisera över språk och discipliner.
"Föreställ dig att du analyserar miljontals blogginlägg och vill lära dig vilket ämne varje inlägg tar upp, sa Amaral, som meddirigerar Northwestern Institute on Complex Systems. "Du skulle vanligtvis filtrera bort vanliga ord som 'den' och 'du, ' som inte ger någon bakgrund om ämnet."
Dock, de flesta ord som inte är användbara för den specifika uppgiften beror på språket och bloggens speciella ämnesområde. "För en samling bloggar om elektronik, till exempel, det finns många ord som inte kan göra det möjligt för en algoritm att avgöra om ett blogginlägg handlar om kvantberäkning eller halvledare, " han lade till.
En informationsteoretisk ram
Forskargruppen använde informationsteori för att utveckla en modell som mer exakt och effektivt identifierar stoppord. Centralt i modellen är ett "villkorlig entropi"-mått som kvantifierar ett givet ords säkerhet att vara informativt. Ju mer informativt ordet är, desto lägre dess villkorliga entropi. Genom att jämföra de observerade och förväntade värdena för villkorlig entropi, forskarna kunde mäta informationsinnehållet i specifika ord.
För att testa modellen, forskarna jämförde dess prestanda med vanliga ämnesmodelleringsmetoder, som härleder de ord som är mest relaterade till ett visst ämne genom att jämföra dem med annan text i datamängden. Detta ramverk gav förbättrad noggrannhet och reproducerbarhet i de studerade texterna, samtidigt som den är mer tillämplig på andra språk på ett enkelt sätt. Dessutom, systemet uppnådde optimal prestanda med avsevärt mindre data.
"Med vårt tillvägagångssätt, vi skulle kunna filtrera 80 procent eller mer av datan och faktiskt öka prestandan för befintliga algoritmer för ämnesklassificering av textkorpora, sade Amaral. Dessutom, genom att filtrera så mycket av datan, vi kan dramatiskt minska mängden beräkningsresurser som behövs."
Förutom att spara tid, filtreringssystemet kan leda till långsiktiga energibesparingar, bekämpa den negativa inverkan storskalig datoranvändning har på klimatförändringen.
En artikel som beskriver arbetet publicerades den 2 december i tidskriften Nature Machine Intelligence . Amaral var medförfattare på tidningen tillsammans med Martin Gerlach, en postdoktor i Amarals labb.
Medan forskarnas analys var begränsad till påse med ord, Amaral är övertygad om att hans system skulle kunna utökas för att ta hänsyn till ytterligare strukturella egenskaper hos språket, inklusive meningar och stycken.
Dessutom, eftersom informationsteori ger en allmän ram för analys av vilken sekvens av symboler som helst, forskarnas system skulle kunna tillämpas bortom textanalys, stödja förbehandlingsmetoder för att analysera ljud, bilder – även gener.
"Vi har börjat tillämpa denna metod för analys av data från experiment som mäter genspecifika RNA-molekyler i enskilda celler som ett sätt att automatiskt identifiera olika celltyper, ", sa Gerlach. "Att filtrera oinformativa gener - tänk på dem som "stoppgener" - är särskilt lovande för att öka noggrannheten. Dessa mätningar är mycket svårare jämfört med texter och nuvarande heuristik är inte alls lika väl utvecklad."