Kredit:CC0 Public Domain
Föreställ dig att fly från förföljelse hemma, överleva en svår resa, anlända till ett nytt land för att söka asyl, bara för att bli avvisad vid gränsen för att ingen talar ditt språk. Detta är verkligheten för hundratals migranter som kommer till USA från avlägsna områden i Centralamerika som inte talar vanliga språk, som spanska eller portugisiska.
Brist på översättare för asylsökande som talar traditionella språk betyder att många måste vänta i månader eller till och med år i Mexiko för att ansöka om asyl, vilket skapar en lång eftersläpning i ett redan överväldigat immigrationssystem.
"Det amerikanska immigrationssystemet är inrättat för att hantera engelska och spanska", säger Katy Felkner, en Ph.D. student i datavetenskap vid USC Viterbi School of Engineering, "men det finns flera hundra personer per år som talar minoritetsspråk, i synnerhet som talar inhemska språk från Mexiko och Centralamerika, som inte har tillgång till någon av resurserna och rättshjälp som finns för spansktalande migranter."
I andra fall kan människor inte förklara hoten mot deras liv i sina hemstäder, vilket kan ligga till grund för asyl. När migranter inte kan förstå eller förstås finns det inget sätt att fastställa hotet mot deras säkerhet under en "trovärdig rädslaintervju" genomförd av det amerikanska departementet för inrikessäkerhet.
Statistiken är häpnadsväckande:asylsökande invandrare utan advokat segrade i endast 13 procent av sina fall, medan de med en advokat vann i 74 procent av sina fall, enligt en studie i Fordham Law Review.
Felkner, som bedriver sin forskning vid USC Information Sciences Institute (ISI) under Jonathan May, en forskningsdocent, arbetar på att utveckla en lösning:ett maskinöversättningssystem för mexikanska och centralamerikanska ursprungsspråk som kan användas av organisationer som tillhandahåller juridiska stöd till flyktingar och asylsökande.
"Människor påverkas direkt negativt eftersom det inte finns tolkar tillgängliga för deras språk i rättshjälpsorganisationer", säger Felkner. "Detta är ett konkret och omedelbart sätt att använda naturlig språkbehandling för socialt bästa."
"Människor påverkas direkt negativt eftersom det inte finns tolkar tillgängliga för deras språk i rättshjälpsorganisationer." Katy Felkner.
Ge asylsökande en rättvis chans
Felkner arbetar för närvarande med ett system för ett guatemalanskt språk, som är ett av de 25 vanligaste språken som talats i immigrationsdomstolen under de senaste åren, enligt The New York Times.
"Vi försöker tillhandahålla ett grovt översättningssystem för att tillåta ideella organisationer och icke-statliga organisationer som inte har resurser att anställa tolkar för att tillhandahålla en viss nivå av juridisk hjälp och ge asylsökande en rättvis chans att ta sig igenom den trovärdiga rädslaintervjun," sa Felkner.
Felkners intresse för språk började under hennes grundexamen vid University of Oklahoma, där hon tog en dubbel examen i datavetenskap och bokstäver, med inriktning på latin. Under sitt första år på college arbetade hon på ett projekt som heter Digital Latin Library, och skrev Python-kod för att skapa digitala versioner av gamla texter.
"Det var det som fick mig att tänka på språkteknologi", sa Felkner. "Jag lärde mig själv en del grunder i naturlig språkbehandling och det slutade med att jag fokuserade på maskinöversättning eftersom jag tror att det är ett av de områden som har den mest omedelbara mänskliga påverkan, och även ett av de svåraste problemen på det här området."
Medan Felkner och May för närvarande fokuserar på att utveckla en text-till-text-översättare, är slutmålet, flera år från nu, ett flerspråkigt tal-till-tal-översättningssystem:advokaten skulle tala engelska eller spanska, och systemet skulle automatiskt översätta till den asylsökandes inhemska språk och vice versa.
Tryck på den nedre gränsen
Översättningssystem tränas med hjälp av parallella data:med andra ord lär de sig av att se översättningspar, eller samma text på båda språken, på meningsnivå. Men det finns väldigt lite parallella data på inhemska språk, inklusive K'iche', trots att det talas av omkring en miljon människor.
Det beror på att parallella data bara existerar när det finns en övertygande anledning att översätta till eller från det språket. I huvudsak, sa Felkner, om det är kommersiellt gångbart - Disney dubbar filmer från engelska till spanska, till exempel - eller härrör från en religiös motivation.
I många fall, på grund av inflytande från missionärer i hela Latinamerika, är den enda parallella datakällan – samma text på båda språken – Bibeln, som inte ger forskarna mycket att arbeta med.
"Föreställ dig att du är en engelsktalande som försöker lära dig spanska, men den enda spanska du någonsin får se är Nya testamentet", sa Felkner. — Det skulle vara ganska svårt.
Det är dåliga nyheter för de datahungriga modellerna för djupinlärning som används av språköversättningssystem som tar en kvantitet över kvalitet.
"Modellerna måste se ett ord, en fras, en grammatisk konstruktion flera gånger för att se var det sannolikt inträffar och vad det motsvarar på det andra språket", sa Felkner. "Men vi har inte det här för K'iche' och andra inhemska språk med extremt låga resurser."
Siffrorna talar för sig själva. Från engelska till Kʼicheʼ har Felkner ungefär 15 000 meningar med parallella data och 8 000 meningar för spanska till Kʼicheʼ. Däremot hade den spanska till engelska modellen hon tränade för en del baslinjearbete 13 miljoner meningar med träningsdata.
"Vi försöker arbeta med i princip inga data," sa Felkner. "Och detta är fallet för i stort sett alla lågresursspråk, ännu mer i Amerika."
En taktik i befintligt arbete med låga resurser använder närbesläktade språk med högre resurser som utgångspunkt:för att till exempel översätta från engelska till rumänska skulle du börja träna modellen på spanska.
Men eftersom de inhemska språken i Amerika utvecklades separat från Europa och Asien, har majoriteten låga resurser, och de flesta av dem har extremt låga resurser, en term som Felkner myntade för att beskriva ett språk med mindre än cirka 30 000 meningar med parallella data.
"Vi försöker verkligen tänja på den nedre gränsen för hur lite data du kan ha för att framgångsrikt träna ett maskinöversättningssystem", säger Felkner.
Skapa något från ingenting
Men Felkner, med sin bakgrund inom lingvistik, lät sig inte avskräckas. Under de senaste två åren har hon arbetat med att skapa språkdata för modellerna med hjälp av några knep inom naturlig språkbehandling.
En taktik innebär att lära modellen att slutföra den abstrakta uppgiften att översätta och sedan sätta den att fungera på det specifika språket i fråga. "Det är samma princip som att lära sig köra buss genom att lära sig att köra bil först", sa Felkner.
För att göra detta tog Felkner en engelsk till spansk modell och finjusterade den sedan för Kʼicheʼ till spanska. Det visade sig att detta tillvägagångssätt, kallat transfer learning, visade lovande även i ett fall med extremt låga resurser. "Det var väldigt spännande", sa Felkner. "Transfer-inlärningsmetoden och förträning från ett icke-nära-besläktat språk hade aldrig riktigt testats i denna extremt låga resursmiljö, och jag fann att det fungerade."
Hon utnyttjade också en annan resurs:att använda grammatikböcker publicerade av fältlingvister i mitten till slutet av 70-talet för att generera plausibel syntetisk data som kan användas för att hjälpa modellerna att lära sig. Felkner använder grammatikböckerna för att skriva regler som hjälper henne att konstruera syntaktisk korrekta meningar från ordböckerna. Den tekniska termen för detta är bootstrapping eller dataförstärkning - eller i vardagsspråk "fake it 'til you make it."
"Vi använder detta som förträningsdata, för att i huvudsak lära modellerna grunderna i grammatik," sa Felkner. "Då kan vi spara våra verkliga data, såsom Bibelns parallella data, för den finjusteringsperiod då den kommer att lära sig vad som är semantiskt meningsfullt, eller vad som faktiskt är vettigt."
Slutligen testar hon en teknik som går ut på att analysera substantiv på de engelska och K'iches sidor av Bibeln, ersätta dem med andra substantiv och sedan använda en uppsättning regler för att korrekt böja meningarna för grammatik.
Om träningsdata till exempel har meningen:"pojken sparkade bollen", kan forskarna använda detta tillvägagångssätt för att skapa meningar som "flickan sparkade bollen", "läkaren sparkade bollen", "läraren sparkade bollen" boll, som alla kan bli träningsdata.
"Tanken är att använda dessa syntetiskt genererade exempel för att i huvudsak bygga en grov version av systemet, så att vi kan få stor användning av den lilla mängd verklig data som vi har, och finjustera den till exakt där vi vill att det ska vara", sa Felkner.
Omedelbar humanitär påverkan
Att arbeta med språköversättningar med extremt låga resurser är inte lätt, och det kan ibland vara frustrerande, medger Felkner. Men utmaningen, och potentialen att förändra liv, driver henne att lyckas.
Inom nästa år planerar hon att göra en studieresa för att observera hur rättshjälpsorganisationer arbetar vid gränsen och var hennes system skulle kunna passa in i deras arbetsflöde. Hon arbetar också på en demowebbplats för systemet, som hon hoppas kunna avslöja 2023, och när det väl utvecklats hoppas hon att systemet en dag kan tillämpas på andra inhemska språk.
"Klättring på högresursspråk kan få din Alexa, Google Home eller Siri att förstå dig bättre, men det är inte transformativt på samma sätt", sa Felkner. "Jag gör det här arbetet för att det har en omedelbar humanitär inverkan. Som JFK en gång sa, vi väljer att åka till månen inte för att det är lätt, utan för att det är svårt. Jag tycker ofta att de saker som är värda att göra är svåra. ." + Utforska vidare