Kredit:CC0 Public Domain
Google Cloud Platform Blog publicerade ett tisdagsmeddelande, introducerar Cloud Text-to-Speech.
Dan Aharon, Produktchef, Cloud AI, sa, "Utvecklare har sagt till oss att de vill lägga till text-till-tal i sina egna applikationer, så idag tar vi denna teknik till Google Cloud Platform med Cloud Text-to-Speech."
Cloud Text-to-Speech handlar om text-till-tal-konvertering som drivs av maskininlärning.
Som ett API, sa webbplatsen för Cloud Text-to-Speech, du kan skapa interaktioner med användare, över applikationer och enheter. Cloud Text-to-Speech stöder applikationer eller enheter som kan skicka en REST- eller gRPC-begäran. Det inkluderar telefoner, datorer, surfplattor och IoT -enheter (t.ex. bilar, TV-apparater, högtalare).
Vilka verkliga applikationer skulle gälla? Användningsfall inkluderar automatisering av callcenter och interaktiva svar från IoT-enheter.
Han sa att Cloud Text-to-Speech redan hjälper kunder att leverera en bättre upplevelse till sina slutanvändare.
(Robert Hof av Kisel VINKEL sa att "Flera dussin alfa-användare har provat det sedan november.")
Bland kunderna finns Cisco och Dolphin ONE. Den senare integrerade Cloud Text-to-Speech i sina produkter; deras användare kan skapa "naturliga callcenterupplevelser".
Vad är Google Cloud Platform? Detta är en svit med molntjänster som körs på samma infrastruktur som Google använder internt för produkter som Google Sök och YouTube. Nu, sa Frederic Lardinois i TechCrunch , "Utvecklare kommer att få tillgång till samma DeepMind-utvecklade text-till-tal-motor som företaget självt för närvarande använder för sin assistent och för sin Google Maps-riktning."
Gå in i WaveNets neurala nätverksarkitektur – som direkt genererar en rå ljudvågform.
Aharon bloggade, "Cloud Text-to-Speech innehåller också ett urval av högtrohetsröster byggda med WaveNet, en generativ modell för råljud skapad av DeepMind. WaveNet syntetiserar mer naturligt klingande tal och, i genomsnitt, producerar talljud som människor föredrar framför andra text-till-tal-tekniker."
Cloud Text-to-Speech bär avancerad talteknik; Deep Minds forskning inom maskininlärningsmodeller för att generera tal som efterliknar mänskliga röster har lyckats. Talet låter naturligt, och dess team hävdade att det minskade klyftan med mänsklig prestation med över 50 %.
Lardinois pekade på vad som gör WaveNets bidrag till tal speciellt:
"Till skillnad från tidigare ansträngningar, WaveNet gör inte talsyntes baserat på en samling korta talfragment, som tenderar att skapa den typ av robotljudande röster som du säkert är bekant med. Istället, WaveNet modellerar råljud med hjälp av en maskininlärningsmodell för att skapa ett mycket mer naturligt klingande tal."
Lardinois gav också en kort historik om WaveNet och hur det hanterade den ytterst viktiga svarshastigheten.
"Google pratade först om WaveNet för ungefär ett år sedan. Sedan dess det flyttade dessa verktyg till en ny infrastruktur som ligger ovanpå företagets egna Tensor Processing Units. Detta gör att den kan generera dessa ljudvågformer 1, 000 gånger snabbare än tidigare, så att generera en sekund ljud tar nu bara 50 millisekunder."
Det låter utvecklare syntetisera naturligt klingande tal med 30 röster. Dessutom, den är tillgänglig på flera språk och varianter. Sajten sa att den stöder 32 röster på 12 språk och varianter.
(Den här författaren provade den på två språk. Den verkade utmärkt i båda försöken.)
Frederic Lardinois i TechCrunch påpekade att utvecklare kommer att kunna anpassa tonhöjden, talhastighet och volymförstärkning för MP3- eller WAV-filerna som tjänsten genererar.
Aharon i bloggen gav en länk för prisinformation och för dokumentation.
© 2018 Tech Xplore