• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Bibeln hjälper forskare att perfekta översättningsalgoritmer

    Texter från 34 versioner av den engelskspråkiga bibeln användes för att förbättra datorbaserade stilöverföringssystem. Resultatet kan skapa olika versioner av skrivna passager för att passa specifika målgrupper. Kredit:Bibelfoto:Chris Downer. Sammansatt illustration:Keith Carlson.

    På jakt efter inspiration för att förbättra datorbaserade textöversättare, forskare vid Dartmouth College vände sig till Bibeln för vägledning. Resultatet är en algoritm tränad på olika versioner av de heliga texterna som kan omvandla skrivna verk till olika stilar för olika publiker.

    Internetverktyg för att översätta text mellan språk som engelska och spanska är allmänt tillgängliga. Att skapa stilöversättare – verktyg som håller texten på samma språk men omvandlar stilen – har varit mycket långsammare att växa fram. Till viss del, ansträngningarna att utveckla översättarna har hindrats av svårigheten att skaffa den enorma mängd data som krävs. Det var här forskargruppen vände sig till Bibeln.

    Förutom att vara en källa till andlig vägledning för många människor runt om i världen, det Dartmouth-ledda laget såg i Bibeln "en stor, tidigare outnyttjad datauppsättning av justerad parallell text." Förutom att ge oändlig inspiration, varje version av Bibeln innehåller mer än 31, 000 verser som forskarna använde för att producera över 1,5 miljoner unika parningar av käll- och målverser för träningsuppsättningar för maskininlärning.

    Enligt forskningen publicerad i tidskriften Royal Society Open Science , detta är inte den första parallella datamängden som skapats för stilöversättning. Men det är den första som använder Bibeln. Andra texter som har använts tidigare, allt från Shakespeare till Wikipedia-inlägg, tillhandahålla datamängder som antingen är mycket mindre eller inte lika väl lämpade för uppgiften att lära sig stilöversättning.

    "Den engelskspråkiga bibeln finns i många olika skrivna stilar, gör den till den perfekta källtexten att arbeta med för stilöversättning, sa Keith Carlson, en Ph.D. student vid Dartmouth och huvudförfattare till forskningsuppsatsen om studien.

    Som en extra fördel för forskargruppen, Bibeln är redan grundligt indexerad genom den konsekventa användningen av böcker, kapitel och versnummer. Den förutsägbara organisationen av texten i olika versioner eliminerar risken för anpassningsfel som kan orsakas av automatiska metoder för att matcha olika versioner av samma text.

    "Bibeln är en "gudomlig" datauppsättning att arbeta med för att studera denna uppgift, sa Daniel Rockmore, professor i datavetenskap vid Dartmouth och bidragande författare till studien. "Människor har utfört uppgiften att organisera bibeltexter i århundraden, så vi behövde inte lita på mindre tillförlitliga inriktningsalgoritmer."

    För att definiera "stil" för studien, forskarna refererar till meningslängd, användningen av passiva eller aktiva röster, och ordval som skulle kunna resultera i texter med varierande grad av enkelhet eller formalitet. Enligt studien:"Olika formuleringar kan förmedla olika nivåer av artighet eller förtrogenhet med läsaren, visa olika kulturell information om författaren, vara lättare att förstå för vissa populationer."

    Teamet använde 34 stilistiskt distinkta bibelversioner som sträckte sig i språklig komplexitet från "King James Version" till "Bibeln på grundläggande engelska." Texterna matades in i två algoritmer - ett statistiskt maskinöversättningssystem som kallas "Moses" och ett neuralt nätverksramverk som vanligtvis används vid maskinöversättning, "Seq2Seq."

    Medan olika versioner av Bibeln användes för att träna datorkoden, system skulle i slutändan kunna utvecklas som översätter stilen i vilken skriven text som helst för olika målgrupper. Som exempel, en stilöversättare kan ta ett engelskspråkigt urval från "Moby Dick" och översätta det till olika versioner som passar unga läsare, som inte har engelska som modersmål, eller någon av en mängd olika målgrupper.

    "Textförenkling är bara en specifik typ av stilöverföring. Mer allmänt, våra system syftar till att producera text med samma innebörd som originalet, men gör det med andra ord, sa Carlson.

    Dartmouth College har en lång historia av innovation inom datavetenskap. Termen "artificiell intelligens" myntades i Dartmouth under en konferens 1956 som skapade AI-forskningsdisciplinen. Andra framsteg inkluderar designen av BASIC – det första allmänna och tillgängliga programmeringsspråket – och Dartmouth Time-Sharing System som bidrog till dagens moderna operativsystem.


    © Vetenskap https://sv.scienceaq.com