Den nya AI-utvärderingsmetoden tittar på själva indata för att ta reda på om AI:ns "noggrannhet" kan litas på. Kredit:Kyoto University / JB Brown
När AI:s roll i samhället fortsätter att expandera, J B Brown från Graduate School of Medicine rapporterar om en ny utvärderingsmetod för den typ av AI som förutsäger ja/positiva/santa eller nej/negativa/falska svar.
Browns papper, publiceras i Molekylär informatik , dekonstruerar användningen av AI och analyserar arten av statistiken som används för att rapportera ett AI -programs förmåga. Den nya tekniken genererar också en sannolikhet för prestationsnivån givet utvärderingsdata, svara på frågor som:Vad är sannolikheten för att uppnå en noggrannhet större än 90 %?
Rapporter om nya AI-applikationer dyker upp i nyheterna nästan dagligen, inklusive i samhället och vetenskapen, finansiera, läkemedel, medicin, och säkerhet.
"Medan rapporterad statistik verkar imponerande, forskarlag och de som utvärderar resultaten stöter på två problem, " förklarar Brown. "Först, att förstå om AI uppnådde sina resultat av en slump, och för det andra, att tolka tillämpbarhet från den rapporterade prestationsstatistiken."
Till exempel, om ett AI-program är byggt för att förutsäga om någon kommer att vinna på lotteriet eller inte, det kan alltid förutsäga en förlust. Programmet kan uppnå "99% noggrannhet", men tolkning är nyckeln för att bestämma riktigheten av slutsatsen att programmet är korrekt.
Men här ligger problemet:i typisk AI-utveckling, utvärderingen kan bara lita på om det finns lika många positiva och negativa resultat. Om data är partisk mot något av värdena, det nuvarande systemet för utvärdering kommer att överdriva systemets förmåga.
Så för att ta itu med detta problem, Brown utvecklade en ny teknik som utvärderar prestanda endast baserat på själva indata.
"Det nya med den här tekniken är att den inte beror på någon typ av AI-teknik, som djupinlärning, Brown beskriver. "Det kan hjälpa till att utveckla nya utvärderingsmått genom att titta på hur ett mått samspelar med balansen i förutsagda data. Vi kan sedan se om de resulterande mätvärdena kan vara partiska."
Brown hoppas att denna analys inte bara kommer att öka medvetenheten om hur vi tänker om AI i framtiden, men också att det bidrar till utvecklingen av mer robusta AI-plattformar.
Förutom noggrannhetsmåttet, Brown testade sex andra mätvärden i både teoretiska och tillämpade scenarier, fann att ingen enskild måttenhet var universellt överlägsen. Han säger att nyckeln till att bygga användbara AI-plattformar är att ha en multimetrisk syn på utvärdering.
"AI kan hjälpa oss att förstå många fenomen i världen, men för att den ska ge oss riktning, vi måste veta hur man ställer de rätta frågorna. Vi måste vara försiktiga så att vi inte överdrivet fokuserar på ett enda nummer som ett mått på en AI:s tillförlitlighet."
Browns program är fritt tillgängligt för allmänheten, forskare, och utvecklare.