Google introducerar utökad röstöversättning i realtid

Kredit:Google

Google har tillkännagivit en ny transkriptionsfunktion i realtid för sin gratis Translate-app för Android-telefoner. En IOS-version är planerad för framtiden, säger företaget.

Funktionen kommer att tillåta användare att få omedelbara textöversättningar av pågående tal, föreläsningar eller monologer på något av åtta språk, inklusive engelska.

För närvarande, Översätt tillåter konverteringar av endast relativt korta talfragment.

De enda kraven är att bara ha en högtalare som pratar åt gången i ett tyst rum (andra röster eller ljud kommer att minska noggrannheten) och en internetanslutning, nödvändig för interaktion med Googles molnbaserade Tensor Processing Units.

Lanseringen börjar idag (18 mars) och bör vara tillgänglig för alla användare i slutet av veckan i Googles Play Butik.

I konversationsläge, appen tillåter användare att ha en konversation fram och tillbaka med någon som talar ett annat språk.

Förutom engelska, översättningar finns tillgängliga på franska, Tysk, hindi, Portugisiska, ryska, spanska och thailändska.

Appen fungerar även med uppspelning av förinspelat ljud. Men Google säger att direkt digital översättning från uppladdade ljudfiler ännu inte är tillgänglig.

Veckans tillkännagivande påminner om hur långt vi har kommit sedan de första dagarna av digitalt röstigenkänning. Bell Laboratories debuterade sitt futuristiska "Audrey" -system 1952 som kände igen de talade siffrorna 0-9. Ett stort steg togs ett decennium senare när IBM visade upp "Shoeboxen" på världsutställningen 1962 – den kunde känna igen hela 16 ord.

Under fem år på 1970-talet, röstigenkänning fick ett enormt uppsving från Amerikas militär. Försvarsdepartementet har underskrivit massiva forskningsprojekt om taligenkänning, inklusive Carnegie-Mellons initiativ "Harpy" Speech Understanding Research (SUR), som byggde upp ett igenkänningsordförråd på mer än 1, 011 ord. Det programmet introducerade särskilt konceptet med uttalsmönster och sannolikhet för första gången, avsevärt förbättra förmågan att känna igen distinkta talsätt.

1980-talet medförde allt större framsteg inom orddetektering, med forskare som tillämpar sannolikhetsteori på okända ljud. Teknikjätten IBMs program utökade erkännandet till 5, 000 ord. Men årtiondet kanske bäst kommer ihåg för introduktionen av världens första talande docka, "Julie, " som förstod tal. I en annonskampanj stod det:"Äntligen, dockan som förstår dig."

Dragon tog med röstigenkänning till massorna på 1990 -talet, med sin första i stort sett exakta men fortfarande buggiga konsumentprodukt prissatt till "bara" $9, 000. I slutet av decenniet, det kraftigt förbättrade programmet Dragon NaturallySpeaking, som för första gången inte krävde pauser mellan varje talat ord, var tillgänglig för konsumenter för cirka $700.

Idag har vi Siri och Alexa och andra gratis och billiga mobilappar som låter oss begära vägbeskrivningar, beställa mat, köpa hushållsartiklar och skriva ut talad text i e-postmeddelanden och ordbehandlingsdokument, som alla har utökat taligenkänning till punkter otänkbara för inte alltför många år sedan.

Med de senaste framstegen tillgängliga för miljontals användare med handhållna enheter, Harpya, Audrey, Julie skulle förmodligen bli mållös.

En människoliknande planerare som gör att robotar kan nå objekt i röriga miljöer

Stanfords ingenjörer skapar formförändrande, frigående mjuk robot

Elektronik