Kan vi lita på vetenskapliga upptäckter som gjorts med hjälp av maskininlärning?

Rice Universitys statistiker Genevera Allen kommer att diskutera forskning för att förbättra noggrannheten och reproducerbarheten av vetenskapliga upptäckter gjorda av maskininlärning i både en pressbriefing och allmän session vid AAAS årsmöte 2019. Kredit:Tommy LaVergne/Rice University

Rice Universitys statistiker Genevera Allen säger att forskare måste fortsätta att ifrågasätta noggrannheten och reproducerbarheten av vetenskapliga upptäckter gjorda av maskininlärningstekniker tills forskare utvecklar nya beräkningssystem som kan kritisera sig själva.

Allen, docent i statistik, datavetenskap och el- och datateknik vid Rice och för pediatrik-neurologi vid Baylor College of Medicine, kommer att ta upp ämnet i både en pressträff och en allmän session idag vid 2019 års årsmöte för American Association for the Advancement of Science (AAAS).

"Frågan är, "Kan vi verkligen lita på de upptäckter som för närvarande görs med hjälp av maskininlärningstekniker som tillämpas på stora datamängder?" sa Allen. "Svaret i många situationer är förmodligen, "Inte utan att kontrollera, ' men arbetet pågår med nästa generations maskininlärningssystem som kommer att bedöma osäkerheten och reproducerbarheten av deras förutsägelser."

Maskininlärning (ML) är en gren av statistik och datavetenskap som sysslar med att bygga beräkningssystem som lär sig av data snarare än att följa explicita instruktioner. Allen sa att mycket uppmärksamhet inom ML-området har fokuserat på att utveckla prediktiva modeller som gör att ML kan göra förutsägelser om framtida data baserat på dess förståelse av data som den har studerat.

"Många av dessa tekniker är utformade för att alltid göra en förutsägelse, " sa hon. "De kommer aldrig tillbaka med 'Jag vet inte, ' eller 'Jag upptäckte ingenting, "för att de inte är gjorda för det."

Hon sa att obekräftade datadrivna upptäckter från nyligen publicerade ML-studier av cancerdata är ett bra exempel.

"Inom precisionsmedicin, det är viktigt att hitta grupper av patienter som har genomiskt liknande profiler så att du kan utveckla läkemedelsterapier som är inriktade på det specifika genomet för deras sjukdom, "Allen sa. "Människor har tillämpat maskininlärning på genomisk data från kliniska kohorter för att hitta grupper, eller kluster, av patienter med liknande genomiska profiler.

"Men det finns fall där upptäckter inte är reproducerbara; klustren som upptäckts i en studie är helt annorlunda än klustren som finns i en annan, " sa hon. "Varför? Eftersom de flesta maskininlärningstekniker idag alltid säger, "Jag hittade en grupp." Ibland, det skulle vara mycket mer användbart om de sa, "Jag tror att några av dessa verkligen är grupperade, men jag är osäker på dessa andra.'"

Allen kommer att diskutera osäkerhet och reproducerbarhet för ML-tekniker för datadrivna upptäckter vid en pressträff kl 10 idag, och hon kommer att diskutera fallstudier och forskning som syftar till att ta itu med osäkerhet och reproducerbarhet klockan 15:30. allmän session, "Machine Learning and Statistics:Applications in Genomics and Computer Vision." Båda sessionerna är på Marriott Wardman Park Hotel.

Hur långt ska organisationer kunna gå för att försvara sig mot cyberattacker?

Amazons exit kan skrämma bort teknikföretag från New York

Elektronik

Forskare validerar optimal kompositsstruktur som skapats med additiv tillverkning

SoftBank siktar på att samla in 23 miljarder dollar vid börsnotering av den japanska mobilenheten

Kongressen spränger Boeings felsteg, FAA missar om MAX, kräver reformer

Vetenskap

Internationell akademisk tomteundersökning visar att barn slutar tro på jultomten vid åtta års ålder

Sociologen ser miljöstödet glida under demokratiska presidenter

Kinas 737 drag visar växande globala flyginflytande:analytiker