Ljudprognoser uppnåddes med en förbättrad metod som utvecklats av ett internationellt team av forskare. Kreditera: IEEE/CAA Journal of Automatica Sinica
Forskare har visat en förbättrad metod för ljudanalysmaskiner för att bearbeta vår bullriga värld. Deras tillvägagångssätt beror på kombinationen av skalogram och spektrogram - de visuella representationerna av ljud - såväl som konvolutionella neurala nätverk (CNN), lärverktygen använder maskiner för att bättre analysera visuella bilder. I detta fall, de visuella bilderna används för att analysera ljud för att bättre identifiera och klassificera ljud.
Teamet publicerade sina resultat i tidskriften IEEE/CAA Journal of Automatica Sinica ( JAS ), en gemensam publikation av IEEE och Chinese Association of Automation.
"Maskiner har gjort stora framsteg i analysen av tal och musik, men allmän ljudanalys har släpat mycket efter — vanligtvis, mestadels isolerade ljud-"händelser" som pistolskott och liknande har varit målinriktade tidigare, sa Björn Schuller, en professor och ordförande för Embedded Intelligence for Health Care and Wellbeing vid University of Augsburg i Tyskland, som ledde forskningen. "Ljud från den verkliga världen är vanligtvis en mycket blandad blandning av olika ljudkällor - som var och en har olika tillstånd och egenskaper."
Schuller pekar på ljudet av en bil som ett exempel. Det är inte en enstaka ljudhändelse; ganska olika delar av bilens delar, dess däck interagerar med vägen, bilens märke och hastighet ger alla sina egna unika signaturer.
"På samma gång, det kan vara musik eller tal i bilen, "sa Schuller, som också är docent i maskininlärning vid Imperial College London, och en gästprofessor vid School of Computer Science and Technology vid Harbin Institute of Technology i Kina. "När datorer kan förstå alla delar av denna" akustiska scen ", de kommer att bli avsevärt bättre på att bryta ner den i varje del och tillskriva varje del enligt beskrivningen."
Spektrogram ger en visuell representation av ljudscener, men de har en fast tidsfrekvensupplösning, det är den tidpunkt då frekvenserna ändras. Skalogram, å andra sidan, erbjuder en mer detaljerad visuell representation av akustiska scener än spektrogram, till exempel, akustiska scener som musiken eller talet eller andra ljud i bilen kan nu representeras bättre.
"Det händer vanligtvis flera ljud i en scen så... det borde finnas flera frekvenser och de förändras med tiden, "sa Zhao Ren, en författare på tidningen och en Ph.D. kandidat vid universitetet i Augsburg som arbetar med Schuller. "Lyckligtvis, skalogram kan lösa detta problem exakt eftersom det innehåller flera skalor. "
"Skalogram kan användas för att hjälpa spektrogram att extrahera funktioner för akustisk scenklassificering, " sa Ren, och både spektrogram och skalogram måste kunna lära sig att fortsätta förbättra.
"Ytterligare, förtränade neurala nätverk bygger en bro mellan bild- och ljudbehandling."
De förtränade neurala nätverken som författarna använde är Convolutional Neural Networks (CNN). CNN inspireras av hur neuroner fungerar i djurs visuella cortex och de artificiella neurala nätverken kan användas för att framgångsrikt bearbeta visuella bilder. Sådana nätverk är avgörande för maskininlärning, och i detta fall, hjälper till att förbättra scalogrammen.
CNN får lite utbildning innan de appliceras på en scen, men de lär sig mest av exponering. Genom att lära sig ljud från en kombination av olika frekvenser och skalor, algoritmen kan bättre förutsäga källorna och, så småningom, förutsäga resultatet av ett ovanligt ljud, till exempel ett fel på bilmotorn.
"Det slutliga målet är att höra/lyssna på maskin på ett holistiskt sätt ... musik, och låter precis som en människa skulle göra, Schuller sa, noterar att detta skulle kombineras med det redan avancerade arbetet med talanalys för att ge en rikare och djupare förståelse, "för att sedan kunna få 'hela bilden' i ljudet."