Rice Universitys statistiker Genevera Allen kommer att diskutera forskning för att förbättra noggrannheten och reproducerbarheten av vetenskapliga upptäckter gjorda av maskininlärning i både en pressbriefing och allmän session vid AAAS årsmöte 2019. Kredit:Tommy LaVergne/Rice University
Rice Universitys statistiker Genevera Allen säger att forskare måste fortsätta att ifrågasätta noggrannheten och reproducerbarheten av vetenskapliga upptäckter gjorda av maskininlärningstekniker tills forskare utvecklar nya beräkningssystem som kan kritisera sig själva.
Allen, docent i statistik, datavetenskap och el- och datateknik vid Rice och för pediatrik-neurologi vid Baylor College of Medicine, kommer att ta upp ämnet i både en pressträff och en allmän session idag vid 2019 års årsmöte för American Association for the Advancement of Science (AAAS).
"Frågan är, "Kan vi verkligen lita på de upptäckter som för närvarande görs med hjälp av maskininlärningstekniker som tillämpas på stora datamängder?" sa Allen. "Svaret i många situationer är förmodligen, "Inte utan att kontrollera, ' men arbetet pågår med nästa generations maskininlärningssystem som kommer att bedöma osäkerheten och reproducerbarheten av deras förutsägelser."
Maskininlärning (ML) är en gren av statistik och datavetenskap som sysslar med att bygga beräkningssystem som lär sig av data snarare än att följa explicita instruktioner. Allen sa att mycket uppmärksamhet inom ML-området har fokuserat på att utveckla prediktiva modeller som gör att ML kan göra förutsägelser om framtida data baserat på dess förståelse av data som den har studerat.
"Många av dessa tekniker är utformade för att alltid göra en förutsägelse, " sa hon. "De kommer aldrig tillbaka med 'Jag vet inte, ' eller 'Jag upptäckte ingenting, "för att de inte är gjorda för det."
Hon sa att obekräftade datadrivna upptäckter från nyligen publicerade ML-studier av cancerdata är ett bra exempel.
"Inom precisionsmedicin, det är viktigt att hitta grupper av patienter som har genomiskt liknande profiler så att du kan utveckla läkemedelsterapier som är inriktade på det specifika genomet för deras sjukdom, "Allen sa. "Människor har tillämpat maskininlärning på genomisk data från kliniska kohorter för att hitta grupper, eller kluster, av patienter med liknande genomiska profiler.
"Men det finns fall där upptäckter inte är reproducerbara; klustren som upptäckts i en studie är helt annorlunda än klustren som finns i en annan, " sa hon. "Varför? Eftersom de flesta maskininlärningstekniker idag alltid säger, "Jag hittade en grupp." Ibland, det skulle vara mycket mer användbart om de sa, "Jag tror att några av dessa verkligen är grupperade, men jag är osäker på dessa andra.'"
Allen kommer att diskutera osäkerhet och reproducerbarhet för ML-tekniker för datadrivna upptäckter vid en pressträff kl 10 idag, och hon kommer att diskutera fallstudier och forskning som syftar till att ta itu med osäkerhet och reproducerbarhet klockan 15:30. allmän session, "Machine Learning and Statistics:Applications in Genomics and Computer Vision." Båda sessionerna är på Marriott Wardman Park Hotel.