En forskargrupp vid National Institute of Informatics (NII/Tokyo, Japan) inklusive Xin Wang, Shinji Takaki och Junichi Yamagishi har utvecklat en neural source-filter (NSF) modell för hög hastighet, högkvalitativ röstsyntes. Denna teknik, som kombinerar nya algoritmer för djupinlärning och en klassisk talproduktionsmodell med anor från 1960-talet, är kapabel att inte bara generera högkvalitativa röstvågformer som nära liknar den mänskliga rösten, men också att bedriva stabilt lärande via neurala nätverk.
Hittills, många talsyntessystem har antagit vocodermetoden, en metod för att syntetisera talvågformer som används i stor utsträckning i mobiltelefonnätverk och andra applikationer. Dock, kvaliteten på talvågformerna som syntetiseras med dessa metoder har förblivit sämre än den hos den mänskliga rösten. 2016, ett inflytelserikt utomeuropeiskt teknikföretag föreslog WaveNet-en talsyntesmetod baserad på djupinlärningsalgoritmer-och visade förmågan att syntetisera högkvalitativa talvågformer som liknar den mänskliga rösten. Dock, en nackdel med WaveNet är den extremt komplexa strukturen hos dess neurala nätverk, som kräver stora mängder röstdata för maskininlärning och kräver parameterjustering och olika andra mödosamma försök-och-fel-procedurer som ska upprepas många gånger innan exakta förutsägelser kan erhållas.
Översikt och resultat av forskningen
En av de mest kända vokoderna är källfiltret vocoder, som utvecklades på 1960-talet och är fortfarande i utbredd användning idag. NII-forskargruppen infunderade den konventionella källfilter-vokodermetoden med moderna neurala nätverksalgoritmer för att utveckla en ny teknik för att syntetisera högkvalitativa talvågformer som liknar den mänskliga rösten. Bland fördelarna med denna neural source-filter (NSF) metod är den enkla strukturen hos dess neurala nätverk, som endast kräver cirka en timmes röstdata för maskininlärning och kan uppnå korrekta förutsägbara resultat utan omfattande parameterinställning. Dessutom, storskaliga lyssningstester har visat att talvågformer som produceras av NSF-tekniker är jämförbara i kvalitet med de som genereras av WaveNet.
Eftersom den teoretiska grunden för NSF skiljer sig från de patenterade teknologier som används av inflytelserika utländska IKT-företag, antagandet av NSF-tekniker kommer sannolikt att stimulera till nya tekniska framsteg inom talsyntes. Av denna anledning, källkoden som implementerar NSF-metoden har gjorts tillgänglig för allmänheten utan kostnad, så att den kan användas i stor utsträckning.