Kredit:CC0 Public Domain
En ny metodik för att förbättra maskinöversättning har blivit tillgänglig denna månad genom universitetet i Amsterdam. Projektet DatAptor, finansierat av NWO/STW, utvecklar alltmer översättningsmaskiner genom att välja datamängder.
Metodiken används i applikationen Matchande data, erbjuds av TAUS, en viktig tankesmedja inom området maskinöversättning. Denna applikation tacklar en stor utmaning inom digital översättning:för en bra översättning är det nödvändigt att träna översättningsmaskinen med tillförlitliga källor och datauppsättningar som innehåller den relevanta typen av ord. Till exempel, att översätta en lagtext kräver ett helt annat ordförråd och en annan typ av översättning än t.ex. en tidningsrapport.
Framgångsrik implementering
Under 2013, DatAptor -projektet, under ledning av professor Khalil Sima'an vid UvA Institute for Logic, Språk och beräkning, fått medel från Teknikstiftelsen STW (numera:NWO Domain Applied and Engineering Sciences) för att hantera detta problem. Forskningsresultaten från DatAptor-projektet har nu framgångsrikt implementerats av tankesmedjan TAUS. De erbjuder den nya tekniken under namnet Matching Data.
På TAUS webblogg säger Sima'an:"Vår dröm var att göra själva webben till källan för alla dataurval. Men vi bestämde oss för att börja mer blygsamt och göra det mycket stora TAUS Data-förrådet till vårt jaktfält först. I DatAptor vi lärde oss att varje domän är en blandning av många underdomäner. Underdomänernas kombinatoriska egenskaper i ett mycket stort förråd innehåller en mängd nya, outnyttjade val. Därför, om användaren tillhandahåller en frågekorpus som representerar deras intressedomän, Matchningsdatametoden kommer sannolikt att hitta ett lämpligt urval i förvaret."