• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Att skapa verktygen för att koppla isiXhosa och isiZulu till den digitala tidsåldern

    Programvaruverktyg kan ta flera språk till helt nya utrymmen. Kredit:Zubada/Shutterstock

    Vi lever i en värld där det talas cirka 7000 språk, och en där informations- och kommunikationsteknik blir allt mer överallt. Detta ställer ökade krav på fler, och mer avancerad, Human Language Technologies (HLTs).

    Dessa teknologier omfattar beräkningsmetoder, datorprogram och elektroniska enheter som är specialiserade för analys, producera eller modifiera texter och tal.

    Att engagera sig med ett språk som engelska blir enklare tack vare de många verktyg som hjälper dig, som stavningskontroller i webbläsare och autoslutförande för textmeddelanden. Detta beror främst på att engelska har en relativt enkel och väl undersökt grammatik, mer data som programvara kan lära sig av, och betydande finansiering för att utveckla verktyg. Situationen är något för mycket annorlunda för de flesta språk i världen.

    Detta börjar förändras. Vinstdrivna multinationella företag som Google, Facebook och Microsoft, till exempel, har investerat i utvecklingen av HLT även för afrikanska språk.

    Forskare och vetenskapsmän, Jag undersöker och skapar också dessa tekniker. Det har en direkt relevans för samhället:språk, och de identiteter och kulturer som är sammanflätade med dem, är en nationell resurs för vilket land som helst. I ett land som Sydafrika, Att lära sig olika språk kan främja sammanhållning och inkludering.

    Bara att lära sig ett språk, dock, räcker inte om det inte finns någon infrastruktur som stödjer det. Till exempel, vad är poängen med att söka på webben, säga, isiXhosa när sökmotorernas algoritmer ändå inte kan bearbeta orden ordentligt och därför inte returnerar de resultat du letar efter? Var finns stavningskontrollerna för att hjälpa dig att skriva e-postmeddelanden, skoluppsatser, eller nyhetsartiklar?

    Det är därför vi har lagt både teoretiska grunder och skapat proof-of-concept-verktyg för flera sydafrikanska språk. Detta inkluderar stavningskontroller för isiZulu och isiXhosa och generering av text på främst dessa språk från strukturerad inmatning.

    Använda språkets regler för att utveckla verktyg

    Verktygsutveckling för Nguni-gruppen av språk – och isiZulu och isiXhosa i synnerhet – var inte bara ett fall av kopiera-och-klistra verktyg från engelska. Jag var tvungen att utveckla nya algoritmer som kan hantera den ganska olika grammatiken. Jag har också samarbetat med lingvister för att ta reda på detaljerna för varje språk.

    Till exempel, till och med att automatiskt generera pluralsubstantivet i isiZulu från ett substantiv i singular krävde ett nytt tillvägagångssätt som kombinerade syntax – hur det skrivs – med semantik (betydelsen) av substantiven genom att använda dess karakteristiska substantivklasssystem. På engelska, bara syntaxbaserade regler kan göra jobbet.

    Regelbaserade tillvägagångssätt är också att föredra för morfologiska analysatorer, som delar upp varje ord i dess beståndsdelar, och för att skapa naturligt språk. Generering av naturligt språk innebär att ta strukturerad data, information eller kunskap, till exempel siffrorna i kolumnerna i ett kalkylblad, och skapa läsbar text från dem.

    Ett enkelt sätt att inse det är att använda mallar där programvaran får plats med de värden som ges av data eller den logiska teorin. Detta är inte möjligt för isiZulu, eftersom meningsbeståndsdelarna är kontextberoende.

    En grammatikmotor behövs för att generera även de mest grundläggande meningarna korrekt. Vi har arbetat fram kärnaspekterna av arbetsflödet i motorn. Detta utökas med fler detaljer om verben.

    Använder mycket text för att utveckla verktyg

    Det regelbaserade tillvägagångssättet är resurskrävande. Detta, i kombination med global hype kring "Big Data", har fört datadrivna tillvägagångssätt i förgrunden.

    Förhoppningen är att verktyg av bättre kvalitet nu kan utvecklas med mindre ansträngning och att det blir lättare att återanvända dessa verktyg för relaterade språk. Detta kan fungera, förutsatt att man har mycket text av god kvalitet, kallas en korpus.

    Sådana korpus utvecklas, och det nyligen etablerade South African Center for Digital Language Resources (SADiLaR) syftar till att slå samman beräkningsresurser. Vi undersökte effekterna av en korpus på kvaliteten hos en isiZulu stavningskontroll, som visade att att lära sig den statistikdrivna språkmodellen på gamla texter som Bibeln inte överförs väl till moderna texter som nyheter från tidningen Isolezwe, inte heller vice versa.

    Stavningskontrollen har ungefär 90 % noggrannhet i feldetektering av ett ord och den verkar bidra till intellektualiseringen av isiZulu.

    Dess algoritmer använder trigram och sannolikheter för att de förekommer i korpusen för att beräkna sannolikheten för att ett ord är rättstavat, snarare än ett ordboksbaserat tillvägagångssätt som är opraktiskt för agglutinerande språk. Algoritmerna återanvändes för isiXhosa helt enkelt genom att mata den med en liten isiXhosa-korpus:den uppnådde cirka 80 % noggrannhet redan även utan optimeringar.

    Datadrivna tillvägagångssätt eftersträvas också i verktyg för att hitta information online, dvs. att utveckla såväl sökmotorer som "Google för isiZulu". Algoritmer för datadriven maskinöversättning, å andra sidan, kan lätt vilseledas av träningsdata utanför domänen som den måste lära sig mönstren från.

    Relevans för Sydafrika

    Den här sortens naturliga språkgenerering kan vara otroligt användbar i Sydafrika. Landet har 11 officiella språk, med engelska som affärsspråk. Det har resulterat i att de övriga 10 har åsidosatts, och särskilt de som redan hade under resurser.

    Denna trend strider mot medborgarnas rättigheter och statens skyldigheter enligt konstitutionen. Dessa skyldigheter går längre än att bara främja språket. Ta, till exempel, rätten att ha tillgång till det offentliga hälsosystemet. En studie visade att endast 6 % av patient-läkarkonsultationerna hölls på patientens hemspråk. De övriga 94 % fick i princip inte den kvalitetsvård de förtjänade på grund av språkbarriärer.

    Den typ av forskning jag arbetar med med mitt team kan hjälpa. Det kan bidra till att bland andra, förverkliga tekniker som att automatiskt generera patientutskrivningsanteckningar på sitt eget språk, textbaserade väderprognoser, och språkinlärningsövningar online.

    Denna artikel publicerades ursprungligen på The Conversation. Läs originalartikeln.




    © Vetenskap https://sv.scienceaq.com