Översikt över uppgifterna i IGLUE, som inkluderar grundad naturlig språkinferens, visuell frågesvar, grundad resonemang och tvärmodal hämtning. Varje uppgift är associerad med ett exempel på input och output (engelska översättningar längst ner). Kredit:Proceedings of The Thirty-nionth International Conference on Machine Learning (2022). DOI:10.48550/arXiv.2201.11732
Så många språk; och ändå tillåts engelska nästan total dominans när det kommer till AI-tekniken Machine Learning (ML). Om forskare till exempel tränar en dator i att förstå innehållet i en slumpmässig text, kommer utbildningsproverna vanligtvis att vara på engelska.
"Detta introducerar en betydande oavsiktlig kulturell snedvridning. Även efter omfattande träning kommer maskinen aldrig att ha utsatts för tjurtämning i Indien, för kinesisk kokning av grytor eller för andra fenomen som är bekanta för miljontals människor, men som bara råkar ljuga utanför den infödda engelsktalande horisonten", säger Ph.D. forskare Emanuele Bugliarello, Institutionen för datavetenskap (DIKU), Köpenhamns universitet.
I en verkligt interkulturell ansträngning har Bugliarello och kollegor från en rad länder skapat ett nytt verktyg som uppmuntrar ett mer mångsidigt tillvägagångssätt. IGLUE (Image-Grounded Language Understanding Evaluation), som de har kallat verktyget, är ett riktmärke som gör det möjligt att bedöma effektiviteten hos en ML-lösning på 20 språk (snarare än enbart engelska).
Deras vetenskapliga artikel som introducerar IGLUE har godkänts för publicering i den kommande Proceedings of The Thirty-nionth International Conference on Machine Learning , en av de bästa konferenserna på området.
Frivilliga gav kulturspecifika bilder
Hur kan ett nytt riktmärke göra skillnad?
"När ML-forskarteam skapar nya lösningar är de alltid mycket konkurrenskraftiga. Om en annan grupp har lyckats lösa en given ML-uppgift med 98 procents noggrannhet kommer man att försöka få 99 procent och så vidare. Det är detta som driver fältet framåt. Men nackdelen är att om du inte har ett ordentligt riktmärke för en given funktion kommer den inte att prioriteras. Det har varit fallet för multimodal ML, och IGLUE är vårt försök att förändra scenen, säger Bugliarello.
Att grunda utbildning på bilder är standard i ML. Men bilderna är vanligtvis "märkta", vilket betyder att bitar av text kommer att följa med varje bild, vilket underlättar inlärningsprocessen för maskinen. Medan etiketterna normalt är på engelska, täcker IGLUE 20 typologiskt olika språk, som spänner över 11 språkfamiljer, 9 skript och 3 geografiska makroområden.
En del av bilderna i IGLUE är kulturspecifika. Dessa bilder erhölls genom en e-postkampanj. Forskarna bad volontärer i geografiskt olika länder att tillhandahålla bilder och texter på sitt naturliga språk och helst om saker som var viktiga i det landet.
Överväldigad av positiva reaktioner
Den nuvarande bristen på multimodal ML har praktiska konsekvenser, förklarar Bugliarello:
"Låt oss säga att du har en födoämnesallergi och att du har en app som kan tala om för dig om de problematiska ingredienserna finns i en måltid. När du befinner dig på en restaurang i Kina inser du att menyn är på kinesiska men har bilder. din app är bra, den kan översätta bilden till ett recept – men bara om maskinen exponerades för kinesiska prover under träningen."
Med andra ord, icke-engelsktalande får en sämre version av ML-baserade lösningar:
"Prestandan för många av de bästa ML-lösningarna kommer att sjunka omedelbart, när de exponeras för data från icke-engelsktalande länder. Och särskilt missar ML-lösningarna koncept och idéer som inte formas i Europa eller Nordamerika. Detta är något som forskarsamhället inom ML måste ta itu med", säger Bugliarello.
Lyckligtvis har många kollegor sett ljuset, konstaterar Bugliarello:
"Detta började för några år sedan när vi skrev ett papper för EMNLP-konferensen (Empirical Methods in Natural Language Processing). Vi ville bara peka på en fråga, men blev snart överväldigade av intresse, och till vår stora förvåning var vårt bidrag valdes till bästa långa papper. Folk såg tydligt problemet och vi uppmuntrades att göra mer."
Kan hjälpa synskadade
Ibland känns den nuvarande framgången nästan som en börda, erkänner Bugliarello:
"Som ett offentligt universitet har vi begränsade resurser. Vi kan inte fullfölja alla aspekter av denna enorma uppgift. Ändå kan vi se att andra grupper ansluter sig. Vi kan också känna intresse från de stora teknikföretagen. De är starkt engagerade i ML och börjar inse hur engelsk bias kan vara ett problem. Självklart är de inte glada över att se prestandan för deras lösningar sjunka avsevärt när de tillämpas utanför engelskspråkiga sammanhang."
Trots den positiva utvecklingen låter Bugliarello sig inte ryckas med. På frågan hur nära vi är att uppnå opartisk maskininlärning svarar han:
"Åh, vi är väldigt långt borta."
Ändå handlar det inte bara om kulturell jämlikhet:
"Metodiken bakom IGLUE kan hitta flera tillämpningar. Vi hoppas till exempel kunna förbättra lösningar för synskadade. Det finns verktyg som hjälper synskadade att följa handlingen i en film eller annan typ av visuell kommunikation. Dessa verktyg är för närvarande långt ifrån perfekta , och jag skulle väldigt gärna vilja kunna förbättra dem. Det här ligger dock lite längre in i framtiden," säger Bugliarello + Utforska vidare