Upphovsman:CC0 Public Domain
För att tillverka läkemedel, kemister måste hitta rätt kombinationer av kemikalier för att göra de nödvändiga kemiska strukturerna. Det här är mer komplicerat än det låter, eftersom typiska kemiska reaktioner använder flera olika komponenter, och varje kemikalie som är involverad i en reaktion lägger till ytterligare en dimension till beräkningarna.
I en idealvärld, kemister skulle vilja förutsäga vilken kombination av kemikalier som skulle ge det högsta produktutbytet och undvika oavsiktliga biprodukter eller andra förluster, men att förutsäga resultatet av dessa flerdimensionella reaktioner har visat sig vara utmanande.
En grupp forskare under ledning av Abigail Doyle, A. Barton Hepburn professor i kemi vid Princeton University, och Dr Spencer Dreher från Merck Research Laboratories, har hittat ett sätt att exakt förutsäga reaktionsutbyten samtidigt som man varierar upp till fyra reaktionskomponenter, med hjälp av en applikation av artificiell intelligens som kallas maskininlärning. De har gjort sin metod till mjukvara som de har gjort tillgängliga för andra kemister. De publicerade sin forskning den 15 februari i tidskriften Vetenskap .
"Programvaran som vi utvecklat kan fungera för alla reaktioner, vilket underlag som helst, "sade Doyle." Tanken var att låta någon tillämpa detta verktyg och förhoppningsvis bygga vidare på det med andra reaktioner. "
Stora resurser och tid går åt till att göra syntetiska molekyler, ofta i stort sett ad hoc -sätt, Hon sa. Med denna nya programvara, kemister kan identifiera högavkastande kombinationer av kemikalier och substrat billigare och effektivare.
"Vi hoppas att detta kommer att vara ett värdefullt verktyg för att påskynda syntesen av nya läkemedel, "sade Derek Ahneman, som avslutade sin kemi Ph.D. i Doyles laboratorium 2017 och arbetar nu för IBM.
"Många av dessa maskininlärningsalgoritmer har funnits ganska länge, "sa Jesús Estrada, en doktorand i Doyles laboratorium som bidrog till forskningen och uppsatsen. "Dock, inom gemenskapen för syntetisk organisk kemi, Vi har verkligen inte utnyttjat de spännande möjligheter som maskininlärning erbjuder. "
"Som kemister, vi har traditionellt avvikit från mångdimensionell analys, "sa Doyle." Vi tittar bara på en variabel i taget, eller en enda uppsättning villkor för en rad olika substrat. "
När Ahneman berättade för Doyle att han ville använda maskininlärning för att hantera det flerdimensionella problemet, uppmuntrade hon honom. "Jag försöker alltid - särskilt för mina mest begåvade studenter - att ge dem fria tyglar under det sista året av sin doktorsexamen, "sa hon." Detta är det projekt han föreslog mig. "
Doyle och Ahneman bestämde sig för att modellera reaktionsutbytet medan de modifierade fyra olika reaktionskomponenter, en exponentiellt svårare strävan än att ändra en variabel åt gången.
"I början, vi visste att det skulle finnas många utmaningar att övervinna, "Sa Ahneman." Vi var inte säkra på att det ens var möjligt. "
Historiskt sett ett hinder för att utveckla flerdimensionella modeller har samlat in tillräckligt med data om reaktionsutbyten för att bygga en effektiv "träningsuppsättning, "sa han. Men nyligen, Merck har uppfunnit robotsystem som kan köra tusentals reaktioner i antal dagar.
En annan utmaning har varit att beräkna kvantitativa deskriptorer för varje kemikalie, att använda som ingångar för modellen. Dessa beskrivare har vanligtvis beräknats en efter en, vilket skulle ha varit opraktiskt för det stora antalet kemiska kombinationer de ville använda.
De övervann denna begränsning genom att skriva kod som använde ett befintligt program, Spartansk, för att beräkna och sedan extrahera deskriptorer för varje kemikalie som används i modellen.
När de väl hade sina kvantitativa beskrivningar, de försökte flera statistiska metoder. Först, de använder linjär regression, branschstandarden, men fann att det misslyckades att exakt förutsäga reaktionsutbytet. De undersökte sedan flera vanliga modeller för maskininlärning och fann att en som kallas "slumpmässig skog" levererade häpnadsväckande exakta avkastningsprognoser.
En slumpmässig skogsmodell fungerar genom att slumpmässigt välja små prover från träningsdatauppsättningen och använda provet för att bygga ett beslutsträd. Varje enskilt beslutsträd förutsäger sedan avkastningen för en given reaktion, och sedan medelvärdesvisas resultatet över träden för att generera en total avkastningsprognos.
Ett annat genombrott kom när forskarna upptäckte att med slumpmässiga skogar, "reaktionsutbyten kan förutsägas exakt med hjälp av resultaten av" bara "hundratals reaktioner (i stället för tusentals), ett antal som kemister utan robotar kan utföra själva, "Sa Ahneman.
De fann vidare att slumpmässiga skogsmodeller kan förutsäga avkastning för kemiska föreningar som inte ingår i träningsuppsättningen.
"Teknikerna som används är helt toppmoderna, "sa Chloé-Agathe Azencott, en maskininlärningsforskare vid Centre for Computational Biology vid Paris Science and Letters University, som inte var inblandad i forskningen. "Korrelationsdiagrammen i tidningen är tillräckligt bra för att jag tror att vi kan tänka oss att förlita oss på dessa förutsägelser i framtiden, vilket kommer att begränsa behovet av kostsamma laboratorieexperiment. "
"Dessa resultat är spännande, eftersom de föreslår att denna metod kan användas för att förutsäga utbytet för reaktioner där utgångsmaterialet aldrig har gjorts, vilket skulle hjälpa till att minimera förbrukningen av kemikalier som är tidskrävande att göra, "Sa Ahneman." Sammantaget den här metoden lovar (1) att förutsäga utbytet för reaktioner med hjälp av ännu ej tillverkade utgångsmaterial och (2) förutsäga de optimala förhållandena för en reaktion med ett känt utgångsmaterial och en produkt. "
Efter att Ahneman avslutade sin examen, Estrada fortsatte forskningen. Målet var att skapa programvara som inte bara var tillgänglig för datorexperter som Ahneman och Estrada utan det bredare syntetiska kemiska samhället, sa Doyle.
Hon förklarade hur programvaran fungerar:"Du ritar ut strukturerna - utgångsmaterialet, catalysts, bases—and the software will figure out shared descriptors between all of them. That's your input. The outcome is the yields of the reactions. The machine learning matches all those descriptors to the yields, with the goal that you can put in any structure and it will tell you the outcome of the reaction.
"The idea is to help people navigate the multi-dimensional space where you can't intuit the outcomes, " said Doyle.