En elev färgar in en räv under quechua-ursprungsspråkskurs med fokus på djurnamn på en offentlig grundskola i Licapa, Peru, onsdagen den 1 september 2021. Cirka 10 miljoner människor talar quechua, men försöker automatiskt översätta e-post och textmeddelanden in i den mest talade inhemska språkfamiljen i Amerika var nästan omöjlig innan Google introducerade den i sin digitala översättningstjänst onsdagen den 11 maj 2022. Internetjätten säger att ny artificiell intelligens-teknik gör det möjligt för den att avsevärt utöka Google Translates repertoar av världens språk, lägger till 24 fler den här veckan inklusive quechua och andra inhemska sydamerikanska språk som guarani och aymara. Kredit:AP Photo/Martin Mejia, Arkiv
Omkring 10 miljoner människor talar quechua, men att försöka automatiskt översätta e-post och textmeddelanden till den mest talade inhemska språkfamiljen i Amerika var länge nästan omöjligt.
Det ändrades på onsdagen, när Google lade till Quechua och en mängd andra språk till sin digitala översättningstjänst.
Internetjätten säger att ny artificiell intelligens-teknik gör det möjligt för den att avsevärt utöka Google Translates repertoar av världens språk. Den lade till 24 av dem denna vecka, inklusive quechua och andra inhemska sydamerikanska språk som guarani och aymara. Den lägger också till ett antal utbredda afrikanska och sydasiatiska språk som har saknats i populära tekniska produkter.
"Vi tittade på språk med mycket stora, underbetjänade befolkningar," sa Googles forskare Isaac Caswell till reportrar.
Nyheten från det kaliforniska företagets årliga utställning av I/O-teknik kan firas i många hörn av världen. Men det kommer sannolikt också att dra till sig kritik från dem som är frustrerade över tidigare tekniska produkter som inte förstår nyanserna i deras språk eller kultur.
Quechua var lingua franca i Inkariket, som sträckte sig från det som nu är södra Colombia till centrala Chile. Dess status började sjunka efter den spanska erövringen av Peru för mer än 400 år sedan.
Att lägga till det till de språk som Google erkänner är en stor seger för quechua-språkaktivister som Luis Illaccanqui, en peruan som skapade webbplatsen Qichwa 2.0, som innehåller ordböcker och resurser för att lära sig språket.
"Det kommer att bidra till att quechua och spanska får samma status", säger Illaccanqui, som inte var involverad i Googles projekt.
Illaccanqui, vars efternamn på quechua betyder "du är blixten", sa att översättaren också kommer att hjälpa till att hålla språket vid liv med en ny generation av ungdomar och tonåringar, "som talar quechua och spanska samtidigt och är fascinerade av sociala nätverk."
Läraren Carmen Cazorla skriver på ursprungsspråket Quechua under en klass om medicinalväxter på en offentlig grundskola i Licapa, Peru, onsdagen den 1 september 2021. Omkring 10 miljoner människor talar quechua, men försöker automatiskt översätta e-post och textmeddelanden till den mest talade inhemska språkfamiljen i Amerika var nästan omöjlig innan Google introducerade den i sin digitala översättningstjänst onsdagen den 11 maj 2022. Internetjätten säger att ny teknik för artificiell intelligens gör det möjligt för den att avsevärt utöka Google Translates repertoar av världens språk , lägga till 24 fler denna vecka inklusive quechua och andra indigenous sydamerikanska språk som guarani och aymara. Kredit:AP Photo/Martin Mejia
Caswell kallade nyheten ett "mycket stort tekniskt steg framåt" eftersom det tills nyligen inte var möjligt att lägga till språk om forskare inte kunde hitta en tillräckligt stor mängd onlinetext – som digitala böcker, tidningar eller inlägg på sociala medier – för deras AI-system att lära av.
Amerikanska teknikjättar har inte så bra erfarenhet av att få sin språkteknologi att fungera bra utanför de rikaste marknaderna, ett problem som också har gjort det svårare för dem att upptäcka farlig desinformation på sina plattformar. Fram till denna vecka erbjöds Google Translate på europeiska språk som frisiska, maltesiska, isländska och korsikanska – alla med färre än 1 miljon talare – men inte östafrikanska språk som Oromo och Tigrinya, som har miljontals talare.
De nya språken kommer att rullas ut denna vecka. De kommer ännu inte att förstås av Googles röstassistent, vilket begränsar dem till text-till-text-översättningar för närvarande. Google sa att de arbetar med att lägga till taligenkänning och andra funktioner, som att kunna översätta en skylt genom att rikta en kamera mot den.
Det kommer att vara viktigt för till stor del talade språk som quechua, särskilt inom hälsoområdet, eftersom många peruanska läkare och sjuksköterskor som bara talar spanska arbetar på landsbygden och "inte kan förstå patienter som mest talar quechua", sa Illaccanqui.
"Nästa gräns, eller utmaning, är att arbeta med tal", säger Arturo Oncevay, en peruansk maskinöversättningsforskare vid University of Edinburgh som var med och grundade en forskningskoalition för att förbättra inhemsk språkteknologi över hela Amerika. "Amerikas modersmål är traditionellt muntliga."
I sitt tillkännagivande varnade Google för att kvaliteten på översättningar på de nyligen tillagda språken "fortfarande ligger långt efter" andra språk som den stöder, som engelska, spanska och tyska, och noterade att modellerna "kommer att göra misstag och uppvisa sina egna fördomar. " Men företaget lade bara till språk om dess AI-system uppfyllde en viss kompetensgräns, sa Caswell.
"Om det finns ett betydande antal fall där det är väldigt fel, då skulle vi inte inkludera det", sa han. "Även om 90 % av översättningarna är perfekta, men 10 % är nonsens, så är det lite för mycket för oss."
Google sa att deras produkter nu stöder 133 språk. De senaste 24 är den största enskilda batchen som har lagts till sedan Google införlivade 16 nya språk 2010. Det som gjorde expansionen möjlig är vad Google kallar en maskinöversättningsmodell med "noll skott" eller "noll resurser" – en som lär sig att översätta till ett annat språk utan att någonsin se ett exempel på det.
Facebook och Instagrams moderbolag Meta introducerade ett liknande koncept som kallas Universal Speech Translator förra året.
Böcker skrivna på quechuaspråket sitter bakom en elev under en lektion om medicinalväxter, på en offentlig grundskola i Licapa, Peru, onsdagen den 1 september 2021. Cirka 10 miljoner människor talar quechua, men försöker automatiskt översätta e-postmeddelanden och textmeddelanden till den mest talade inhemska språkfamiljen i Amerika var nästan omöjlig innan Google introducerade det i sin digitala översättningstjänst onsdagen den 11 maj 2022. Internetjätten säger att ny artificiell intelligens-teknik gör det möjligt för den att avsevärt utöka Google Translates repertoar av världens språk och lägger till 24 fler den här veckan inklusive quechua och andra inhemska sydamerikanska språk som guarani och aymara. Kredit:AP Photo/Martin Mejia
Googles modell fungerar genom att träna en "enkel gigantisk neural AI-modell" på cirka 100 datarika språk, och sedan tillämpa det den har lärt sig på hundratals andra språk som den inte kan, sa Caswell. "Föreställ dig om du är en stor polyglot och sedan bara börjar läsa romaner på ett annat språk, kan du börja pussla ihop vad det kan innebära baserat på dina kunskaper om språk i allmänhet", sa han.
Han sa att den nya gruppen sträcker sig från mindre språk som Mizo, som talas i nordöstra Indien av cirka 800 000 människor, till mer allmänt talade språk som Lingala, som talas av cirka 45 miljoner människor i Centralafrika.
Det var mer än 15 år sedan – 2006 – som Microsoft fick positiv uppmärksamhet i Sydamerika med en mjukvarufunktion som översätter välbekanta Microsoft-menyer och -kommandon till quechua. Men det var före den nuvarande vågen av AI-framsteg inom realtidsöversättning.
Språkforskaren Américo Mendoza-Mori från Harvard University, som talar quechua, sa att få Googles uppmärksamhet ger en viss nödvändig synlighet till språket på platser som Peru, där quechua-talare fortfarande saknas i många offentliga tjänster. Överlevnaden för många av dessa språk "kommer att bero på hur de används i digitala sammanhang", sa han.
En annan språkforskare, Roberto Zariquiey, sa att han är skeptisk till att Google skulle kunna skapa ett effektivt verktyg för språkförnyelse för Quechua, Aymara eller Guarani utan närmare deltagande från samhällsgrupper i regionen.
"Språk är djupt kopplade till liv, till kulturer, till etniska grupper och politiska organisationer", säger Zariquiey, en lingvist vid det påvliga katolska universitetet i Peru. "Detta bör beaktas."
—-
De nya språken som lagts till är:Assamese, Aymara, Bambara, Bhojpuri, Dhivehi, Dogri, Ewe, Guarani, Ilocano, Konkani, Krio, Lingala, Luganda, Maithili, Meiteilon (Manipuri), Mizo, Oromo, Quechua, Sanskrit, Sepedi, Sorani Kurdiska, Tigrinya, Tsonga och Twi.