Sociala nätverk som Facebook söker effektiv automatisk översättning för alla världens språk och artificiell intelligens kan ha svaret
Formgivare av verktyg för maskinöversättning förlitar sig fortfarande mest på ordböcker för att göra ett främmande språk begripligt. Men nu finns det ett nytt sätt:siffror.
Facebook-forskare säger att det är en lovande väg att återge ord till figurer och utnyttja matematiska likheter mellan språk – även om en universell kommunikatör a la Star Trek förblir en avlägsen dröm.
Kraftfull automatisk översättning är en stor prioritet för internetjättar. Att låta så många människor som möjligt över hela världen kommunicera är inte bara ett altruistiskt mål, men också bra affärer.
Facebook, Google och Microsoft samt ryska Yandex, Kinas Baidu och andra försöker ständigt förbättra sina översättningsverktyg.
Facebook har experter på artificiell intelligens på jobbet vid ett av sina forskningslabb i Paris.
Upp till 200 språk används för närvarande på Facebook, sa Antoine Bordes, Europeisk meddirektör för grundläggande AI-forskning för det sociala nätverket.
Automatisk översättning bygger för närvarande på att ha stora databaser med identiska texter på båda språken att arbeta utifrån. Men för många språkpar finns det helt enkelt inte tillräckligt med sådana parallella texter.
Det är därför forskare har letat efter en annan metod, som systemet utvecklat av Facebook som skapar en matematisk representation för ord.
Varje ord blir en "vektor" i ett utrymme på flera hundra dimensioner. Ord som har nära associationer i det talade språket befinner sig också nära varandra i detta vektorrum.
Från baskiska till Amazonas?
"Till exempel, om du tar orden "katt" och "hund", semantiskt, de är ord som beskriver en liknande sak, så de kommer att vara extremt nära varandra fysiskt" i vektorrymden, sa Guillaume Lample, en av systemets designers.
"Om du tar ord som Madrid, London, Paris, som är europeiska huvudstäder, det är samma idé."
Dessa språkkartor kan sedan länkas till varandra med hjälp av algoritmer - till en början ungefär, men blir så småningom mer raffinerad, tills hela fraser kan matchas utan alltför många fel.
Lample sa att resultaten redan är lovande.
För språkparet engelska-rumänska, Facebooks nuvarande maskinöversättningssystem är "lika eller kanske lite sämre" än ordet vektorsystem, sa Lample.
Men för det mer sällsynta språkparet engelska-urdu, där Facebooks traditionella system inte har många tvåspråkiga texter att referera till, ordet vektorsystem är redan överlägset, han sa.
Men skulle metoden tillåta översättning från, säga, Baskiska till språket för en Amazonas stam?
I teorin, ja, sa Lample, men i praktiken behövs en stor mängd skrivna texter för att kartlägga språket, något som saknas i Amazonas stamspråk.
"Om du bara har tiotusentals fraser, det kommer inte att fungera. Du behöver flera hundratusentals, " han sa.
"Helig gral"
Experter vid Frankrikes CNRS nationella vetenskapliga center sa att tillvägagångssättet Lample har tagit för Facebook kan ge användbara resultat, även om det inte resulterar i perfekta översättningar.
Thierry Poibeau från CNRS:s Lattice-laboratorium, som också forskar om maskinöversättning, kallade ordet vektorupplägg för "en konceptuell revolution".
Han sa att "översätta utan parallella data" - ordböcker eller versioner av samma dokument på båda språken - "är något av den heliga gralen" av maskinöversättning.
"Men frågan är vilken prestandanivå som kan förväntas" från ordet vektormetoden, sa Poibeau.
Metoden "kan ge en uppfattning om originaltexten" men förmågan till en bra översättning varje gång förblir obevisad.
Francois Yvon, en forskare vid CNRS:s datavetenskapslaboratorium för mekanik och ingenjörsvetenskap, sa att "länkningen av språk är mycket svårare" när de är långt ifrån varandra.
"Sättet att beteckna begrepp på kinesiska är helt annorlunda än franska, " han lade till.
Men även ofullkomliga översättningar kan vara användbara, sa Yvon, och kan visa sig vara tillräckligt för att spåra hatretorik, en stor prioritet för Facebook.
© 2019 AFP