Vänster till höger, Ray Ptucha, biträdande professor i datateknik, Robbie Jimerson, doktorand i datavetenskap, båda från RIT, och Emily Prud'hommeaux, biträdande professor i datavetenskap, leder NSF-projektet för att använda artificiell intelligens för att bevara Seneca-språket. Kredit:A. Sue Weisler/RIT
Ett nytt forskningsprojekt vid Rochester Institute of Technology kommer att bidra till att det hotade språket i Seneca Indian Nation kommer att bevaras. Genom att använda djupinlärning, en form av artificiell intelligens, RIT-forskare bygger en automatisk taligenkänningsapplikation för att dokumentera och transkribera Seneca-folkets traditionella språk. Verket är också tänkt att vara en teknisk resurs för att bevara andra sällsynta eller försvinnande språk.
"Motivationen för detta är personlig. Det första steget i bevarandet och vitaliseringen av vårt språk är dokumentation av det, " sa Robert Jimerson (Seneca), en data- och informationsvetenskaplig doktorand vid RIT och medlem av forskargruppen. Han sammanförde stamäldste och nära vänner, alla högtalare från Seneca, att hjälpa till att producera ljud- och textdokumentation av detta indianspråk som talas flytande av färre än 50 personer.
Som alla språk, Seneca har olika dialekter. Det ger också unika utmaningar på grund av dess komplexa system för att bygga nya ord, där en hel mening kan uttryckas i ett enda ord.
Jimerson kan överbrygga både tekniken och språket.
"Under huven, det är data. Med många inhemska språk, du har inte den mängden data, " han sa, förklarar att vissa språk, medan man talar, kanske inte har så många formella språkliga verktyg – ordböcker, grammatiskt material eller omfattande klasser för icke-modersmålstalare, liknande de för spanska eller kinesiska. "En av de dyraste och mest tidskrävande processerna för att dokumentera språk är att samla in och transkribera det. Vi tittar på att ta djupa nätverk och kanske ändra arkitekturen, göra några syntetiska data för att skapa mer data, men hur får man detta att fungera i djupinlärning? Hur utökar du data du redan har?"
Processen för att erhålla data koordineras av ett brett team som inkluderar Jimerson; projektets huvudutredare Emily Prud'hommeaux, biträdande professor i datavetenskap vid Boston College och forskningsfakultet vid RITs College of Liberal Arts; Ray Ptucha, biträdande professor i datateknik vid RIT:s Kate Gleason College of Engineering och expert på system och teknologier för djupinlärning; och Karen Michaelson, professor i lingvistik, State University of New York i Buffalo. Forskargruppen tilldelades $181, 682 i finansiering över fyra år från National Science Foundation för "Collaborative Research:Deep learning speech recognition for document Seneca and other acutely under-resursed languages."
"Det här är ett spännande projekt eftersom det sammanför människor från så många discipliner och bakgrunder, från ingenjörsvetenskap och datavetenskap till lingvistik och språkpedagogik, ", sa Prud'hommeaux. "Förutom att vi kan utveckla spetsteknologi, Det här projektet stöder studenter och doktorander och engagerar medlemmar i en ursprungsbefolkning som få människor vet finns här i västra New York."
Forskarna startade projektet i slutet av juni, sammanföra communitymedlemmar och lingvister för datainsamling – skaffa och översätta aktuella och nya, originalinspelningar av Seneca-konversationer och konverterar sedan data till textutdata med hjälp av modeller för djupinlärning.
"Vad du verkligen försöker göra är att hitta gränsen mellan den nya data du kan få och förändringen av arkitekturen i ett nätverk, " förklarade Jimerson.
Sedan sommaren, teamet har drygt 50 timmars inspelat material med personer som arbetar heltid med översättningarna som inkluderar att bryta ner språket i individuella fonetiska symboler och använda denna information för att börja träna modellerna.
"Vi använder en process som kallas transfer learning som börjar med en modell tränad med lättillgängligt engelskt tal för att få de grundläggande, grundutbildning för systemet, sedan tränar vi om de neurala nätverken och finjusterar det mot Seneca-språket. Vi får mycket bra resultat, sa Ptucha, som är expert på system och teknologier för djupinlärning. Teknik för djupinlärning består av flera lager av artificiella neuroner, organiserade i en allt mer abstrakt hierarki. Dessa arkitekturer har producerat toppmoderna resultat för alla typer av mönsterigenkänningsproblem, inklusive bild- och taligenkänningstillämpningar.
"Ingen har verkligen testat det här tidigare, träna en automatiserad taligenkänningsmodell på något så resursbegränsat som Seneca. Robbie är experten på att transkribera Seneca och träna de andra i hur man gör detta. Han är en ganska sällsynt kille, sa Ptucha,
Det här aktuella projektet är en fortsättning på Jimersons arbete med att utöka de språkresurser som finns tillgängliga för hans samhälle. Under 2013, medan han var doktorand vid RIT:s Golisano College of Computing and Information Sciences, han utvecklade en online-Seneca-språköversättningsordbok för Seneca Language Revitalization Program. Projektet finansierades av Seneca Nation och tilldelades RIT:s Future Steward's Program.