Översikt över MMACE. Ingången är en molekyl som ska förutsägas. Kemiskt utrymme utökas och klustras. Kontrafakta väljs från kluster för att hitta en kortfattad förklaring av basmolekylförutsägelse. Kredit:Kemisk vetenskap (2022). DOI:10.1039/D1SC05259D
Forskare förlitar sig alltmer på modeller som tränats med maskininlärning för att ge lösningar på komplexa problem. Men hur vet vi att lösningarna är pålitliga när de komplexa algoritmer som modellerna använder inte är lätta att förhöra eller kan förklara sina beslut för människor?
Det förtroendet är särskilt avgörande vid läkemedelsupptäckt, till exempel, där maskininlärning används för att sortera igenom miljontals potentiellt giftiga föreningar för att avgöra vilka som kan vara säkra kandidater för farmaceutiska läkemedel.
"Det har inträffat några högprofilerade olyckor inom datavetenskap där en modell kunde förutsäga saker ganska bra, men förutsägelserna var inte baserade på något vettigt", säger Andrew White docent i kemiteknik vid University of Rochester i en intervju med Chemistry World.
White och hans labb har utvecklat en ny "kontrafaktisk" metod, beskriven i Chemical Science , som kan användas med vilken molekylär strukturbaserad maskininlärningsmodell som helst för att bättre förstå hur modellen kom fram till en slutsats.
Kontrafakta kan berätta för forskare "den minsta förändringen av funktionerna som skulle förändra förutsägelsen", säger huvudförfattaren Geemi Wellawatte, en Ph.D. student i Whites labb. "Med andra ord, en kontrafaktisk är ett exempel som ligger så nära originalet, men med ett annat resultat."
Kontrafakta kan hjälpa forskare att snabbt fastställa varför en modell gjorde en förutsägelse och om den är giltig.
Uppsatsen identifierar tre exempel på hur den nya metoden, kallad MMACE (Molecular Model Agonistic Counterfactual Explanations), kan användas för att förklara varför:
Labbet var tvungen att övervinna några stora utmaningar i att utveckla MMACE. De behövde en metod som kunde anpassas för det breda utbudet av maskininlärningsmetoder som används inom kemi. Dessutom var det utmanande att söka efter den mest liknande molekylen för ett givet scenario på grund av det stora antalet möjliga kandidatmolekyler.
Från vänster:Doktoranden Geemi Wellawatte, Andrew White, docent i kemiteknik, och Aditi Seshadri ’22 i Wegmans Hall. Whites labb har utvecklat ett sätt att verifiera förutsägelserna av maskininlärningsmodeller som används i läkemedelsupptäckt genom att använda kontrafakta. Kredit:University of Rochester/J. Adam Fenster
Medförfattaren Aditi Seshadri i Whites labb hjälpte till att lösa det problemet genom att föreslå gruppen att anpassa STONED-algoritmen (supersnabb traversal, optimering, nyhet, utforskning och upptäckt) som utvecklats vid University of Toronto. STONED genererar effektivt liknande molekyler, bränslet för kontrafaktisk generering. Seshadri är en forskare på grundutbildningen i Whites labb och kunde hjälpa till med projektet via ett Rochester sommarforskningsprogram kallat "Discover."
White säger att hans team fortsätter att förbättra MMACE, genom att till exempel prova andra databaser i deras sökning efter de flesta liknande molekyler, och förfina definitionen av molekylär likhet. + Utforska vidare