Ydych chi'n siarad Cymraeg? Kredit:Golden Sikorka/Shutterstock
Banbrytande smarta hemteknologier och röstassistenter gör det inte, i regel, talar walesiska – även om den walesiska regeringen nu siktar på att ändra på det genom sin handlingsplan för walesiska språkteknologi. Men är deras mål genomförbart, är det nödvändigt, och hur kan det göras?
AI-talverktyg (som Googles Pixelbuds) är starkt beroende av användningen av stora datamängder för att lära sig ett språk, dess uttal, grammatik och semantik. Förmågan eller kvaliteten på de resulterande verktygen begränsas huvudsakligen av hur mycket data som finns tillgänglig (och hur "bra" den är). Detta innebär att, i teorin åtminstone, verktyg för ett minoritetsspråk som walesiska kan inte bli lika kapabla som de för ett vanligt språk.
Språk med begränsade mängder bra utbildningsdata benämns "låga resurser"-språk. Jämfört med engelska, Walesiska resurser är sparsamma, men det finns flera tusen språk med färre högtalare, och troligen mycket sämre resurser, än walesiska.
Lyckligtvis görs det bra forskning om en maskininlärningsteknik som kallas "transfer learning". Detta gör att system kan lära sig att använda en uppsättning data och sedan tillämpa denna kunskap i en annan. I Kina används det för automatisk taligenkänning (ASR) för tibetanska, som har praktiskt taget inga tillgängliga data för träning. ASR-systemet lärde sig kinesiska – vilket språkligt sett skiljer sig mycket från tibetanska – och tränades sedan om eller finjusteras för att "förstå" tibetanska. Det finns faktiskt en hel del likheter mellan många språk – delade eller lånade ord och uttalsmönster – som hjälper den här typen av teknik.
Omskolning av AI på walesiska
Så det finns ingen anledning till varför AI-system inte kan produceras för att konversera på walesiska eller andra minoritetsspråk. Men finns det någon anledning till att det skulle göra det? All talteknik, smarta hem och röstinteraktionssystem som används idag är produkter av kommersiell forskning. För att gå rakt på sak, de finns för att antingen tjäna pengar på din data, att sälja fler varor och tjänster till dig, eller för att påverka ditt tänkande. Inget av denna AI existerar för allmänhetens bästa.
Att göra ett system som fungerar bra med walesiska kanske inte är lika lätt som att konstruera allt på engelska. Med nuvarande teknik, tal AI-experter kommer att behövas (och vi är dyra). Det kommer att finnas ett behov av walesiskt utbildnings- och testmaterial, och walesisktalande testare måste involveras. Farorna med att inte ha walisiska högtalare involverade i översättningsprocessen har påtagligt visats tidigare, när ett frånvarande e-postsvar hamnade på en vägskylt
Om det inte finns ett tillräckligt starkt ekonomiskt argument, förvänta dig inte att stora företag ska skynda sig att producera walesiska, Gaeliska eller Cornish talsystem. Inte ens teknikjätten Samsung har ännu lyckats producera en brittisk-engelsktalande version av sin Bixby-assistent (internationella engelsktalande måste prata med den med falska amerikanska accenter för att få det att fungera). Även den amerikansk-engelska versionen blev försenad på grund av brist på resurser.
Och så länge walesiska talare gärna använder sig av engelskspråkiga AI-system, det kanske inte finns ett ekonomiskt argument – om inte den walesiska regeringen beslutar sig för att betala för att få det att hända, vilket den hittills inte har gjort (handlingsplanen är ett "åtagande" i detta skede).
AI till undsättning
Tekniken går framåt och tekniker som överföringsinlärning blir mer kapabla för varje dag. Detta har gjort det möjligt för tidigare forskning om språkanpassning att fräschas upp och utvidgas till utveckling av flerspråkiga tekniker för djupinlärning. Under tiden, växande användning av andra typer av digital teknik av walesiska talare har förbättrat insamlingen av resurser på språket, liksom walesisk TV och radio. Dessa framsteg innebär att kostnaderna för att lokalisera system för walesiska (och andra minoritetsspråk) minskar.
Forskning om hjärnliknande inlärningsalgoritmer kan vara nyckeln här. Detta är teknik som kontinuerligt kan lära sig under användning, precis som människor lär sig tala ett nytt språk. Det är till skillnad från de flesta nuvarande AI-system som tränas i labbet, innan de släpps lös i naturen – med undantag för några få undantag, som Microsofts Tay, kända för sina spektakulära misslyckanden. Framtida system kommer gradvis att kunna förvärva färdigheter i ett andra språk bara genom att användarna gradvis introducerar mer och mer av det språket i sina dagliga interaktioner. Istället för att finansiera forskning om walesisk tal-AI, den walisiska regeringen kan mycket väl göra det bättre genom att stödja forskning om denna nya typ av adaptiv inlärningsteknik.
Eftersom alla nuvarande tal AI-system hanterar talet centralt (det görs inte i enheten, men i en fjärrserverfarm), dessa system kan samla in data från hundratals användare över hela världen (eller över hela Wales) för att snabbt lära sig. Så budskapet till walesiska talare idag kan vara att inte köpa den där engelskspråkiga Google Home eller Amazon Alexa om du vill att Google eller Amazon ska producera ett system som fungerar på walesiska. Men om du har en, när dess mjukvara utvecklas under de närmaste åren, försök prata walesiska till det så mycket som möjligt. Det kanske bara överraskar dig och Siaradwch â chi yn Gymraeg.
Den här artikeln är återpublicerad från The Conversation under en Creative Commons-licens. Läs originalartikeln.