Upphovsman:CC0 Public Domain
Ny forskning från University of Waterloo har hittat ett sätt att förbättra möjligheterna att förstå röstfrågor för hemunderhållningsplattformar.
Forskningen, i samarbete med University of Maryland och Comcast Applied AI Research Lab, använder artificiell intelligens (AI) -teknologi för att uppnå de mest naturliga talbaserade interaktionerna med TV-apparater hittills.
"I dag, vi har vant oss vid att prata med intelligenta agenter som gör vårt bud - från Siri på en mobiltelefon till Alexa hemma. Varför skulle vi inte kunna göra detsamma med tv? "Frågade Jimmy Lin, en professor vid University of Waterloo och David R. Cheriton ordförande i David R. Cheriton School of Computer Science.
"Comcasts Xfinity X1 syftar till att göra exakt det - plattformen kommer med en" röstfjärrkontroll "som accepterar talade frågor. Din önskan är dess kommando - ber din TV att byta kanal, fråga det om gratis barnfilmer, och även om väderprognosen. "
För att hantera det komplexa problemet med att förstå röstfrågor, forskarna hade idén att dra nytta av den senaste AI -tekniken - en teknik som kallas hierarkiska återkommande neurala nätverk - för att bättre modellkontext och förbättra systemets noggrannhet.
I januari 2018, forskarnas nya neurala nätverksmodell användes i produktionen för att svara på frågor från riktiga live -användare. Till skillnad från det tidigare systemet, som var förvirrad av ungefär åtta procent av frågorna, den nya modellen hanterar de flesta av de mycket komplicerade frågorna på lämpligt sätt, förbättrar användarupplevelsen kraftigt.
"Om en tittare ber om" Chicago Fire, 'som avser både en dramaserie och ett fotbollslag, systemet kan tyda vad du verkligen vill, "sade Lin." Det som är speciellt med detta tillvägagångssätt är att vi utnyttjar kontext - som tidigare visade program och favoritkanaler - för att anpassa resultat, och därmed öka noggrannheten. "
Forskarna har påbörjat arbetet med att utveckla en ännu rikare modell. Intuitionen är att genom att analysera frågor från flera perspektiv, systemet kan bättre förstå vad tittaren säger.
Pappret, Multi-Task Learning med neuronella nätverk för röstfrågeförståelse för underhållningsplattform, presenterades vid den 24:e ACM SIGKDD International Conference on Knowledge Discovery &Data Mining som nyligen hölls i Storbritannien. Forskningen utfördes av Jinfeng Rao, en doktorsexamen examen från University of Maryland, hans rådgivare Lin, och mentor Ferhan Ture, en forskare på Comcast Applied AI Research Lab.