Maskininlärningssätt kan underlätta utformningen av industriella processer för läkemedelstillverkning

Ett nytt datorsystem förutsäger produkterna av kemiska reaktioner. ”Visionen är att du kommer att kunna gå fram till ett system och säga, "Jag vill göra den här molekylen." Programvaran kommer att tala om för dig vägen du ska göra den från, och maskinen kommer att klara det, ” säger professor Klays Jensen. Kredit:MIT News

När organiska kemister identifierar en användbar kemisk förening – ett nytt läkemedel, till exempel – det är upp till kemiingenjörer att avgöra hur man masstillverkar det.

Det kan finnas 100 olika reaktionssekvenser som ger samma slutprodukt. Men vissa av dem använder billigare reagenser och lägre temperaturer än andra, och kanske viktigast av allt, vissa är mycket lättare att köra kontinuerligt, med tekniker som ibland fyller på reagenser i olika reaktionskammare.

Historiskt sett, att bestämma det mest effektiva och kostnadseffektiva sättet att producera en given molekyl har varit lika mycket konst som vetenskap. Men MIT-forskare försöker sätta denna process på en säkrare empirisk grund, med ett datorsystem som har tränats på tusentals exempel på experimentella reaktioner och som lär sig att förutsäga vilka reaktionens viktigaste produkter kommer att bli.

Forskarnas arbete visas i American Chemical Societys tidskrift ACS Central Science . Som alla maskininlärningssystem, deras presenterar sina resultat i termer av sannolikheter. I tester, systemet kunde förutsäga en reaktions huvudprodukt 72 procent av tiden; 87 procent av tiden, den rankade huvudprodukten bland sina tre mest sannolika resultat.

"Det är helt klart mycket förstått om reaktioner idag, säger Klavs Jensen, Warren K. Lewis professor i kemiteknik vid MIT och en av fyra seniorförfattare på tidningen, "men det är en högt utvecklad, förvärvat färdighet att titta på en molekyl och bestämma hur du ska syntetisera den från utgångsmaterial."

Med det nya verket, Jensen säger, "visionen är att du kommer att kunna gå fram till ett system och säga, 'Jag vill göra denna molekyl.' Programvaran kommer att berätta vilken rutt du ska ta dig från, och maskinen kommer att klara det."

Med 72 procents chans att identifiera en reaktions huvudprodukt, systemet är ännu inte redo att förankra den typ av helt automatiserad kemisk syntes som Jensen föreställer sig. Men det kan hjälpa kemiingenjörer snabbare att konvergera till den bästa reaktionssekvensen - och möjligen föreslå sekvenser som de annars kanske inte hade undersökt.

Jensen får sällskap på tidningen av första författaren Connor Coley, en doktorand i kemiteknik; William Green, Hoyt C. Hottel professor i kemiteknik, WHO, med Jensen, medråder Coley; Regina Barzilay, Delta Electronics professor i elektroteknik och datavetenskap; och Tommi Jaakkola, Thomas Siebel professor i elektroteknik och datavetenskap.

Agerar lokalt

En enda organisk molekyl kan bestå av dussintals och till och med hundratals atomer. Men en reaktion mellan två sådana molekyler kan involvera bara två eller tre atomer, som bryter sina befintliga kemiska bindningar och bildar nya. Tusentals reaktioner mellan hundratals olika reagens kommer ofta att koka ner till en enda, delad reaktion mellan samma par "reaktionsplatser".

En stor organisk molekyl, dock, kan ha flera reaktionsställen, och när den möter en annan stor organisk molekyl, endast en av de flera möjliga reaktionerna mellan dem kommer faktiskt att äga rum. Det är detta som gör automatisk reaktionsförutsägelse så knepig.

Förr, kemister har byggt datormodeller som karakteriserar reaktioner när det gäller interaktioner vid reaktionsställen. Men de kräver ofta uppräkning av undantag, som måste undersökas självständigt och kodas för hand. Modellen kan förklara, till exempel, att om molekyl A har reaktionsställe X, och molekyl B har reaktionsställe Y, då kommer X och Y att reagera för att bilda grupp Z - om inte molekyl A också har reaktionsställen P, Q, R, S, T, U, eller V.

Det är inte ovanligt att en enskild modell kräver mer än ett dussin uppräknade undantag. Och att upptäcka dessa undantag i den vetenskapliga litteraturen och lägga till dem i modellerna är en mödosam uppgift, vilket har begränsat modellernas användbarhet.

Ett av huvudmålen med MIT-forskarnas nya system är att kringgå denna mödosamma process. Coley och hans medförfattare började med 15, 000 empiriskt observerade reaktioner rapporterade i amerikanska patentansökningar. Dock, eftersom maskininlärningssystemet var tvungen att lära sig vilka reaktioner som inte skulle inträffa, såväl som de som skulle, exempel på lyckade reaktioner var inte tillräckligt.

Negativa exempel

Så för varje par molekyler i en av de listade reaktionerna, Coley genererade också ett batteri med ytterligare möjliga produkter, baserat på molekylernas reaktionsställen. Han matade sedan beskrivningar av reaktioner, tillsammans med hans artificiellt utökade listor över möjliga produkter, till ett artificiellt intelligenssystem som kallas ett neuralt nätverk, som hade till uppgift att rangordna de möjliga produkterna efter sannolikhet.

Från denna utbildning, nätverket lärde sig i huvudsak en hierarki av reaktioner – vilka interaktioner på vilka reaktionsplatser tenderar att ha företräde framför vilka andra – utan den mödosamma mänskliga kommentaren.

Andra egenskaper hos en molekyl kan påverka dess reaktivitet. Atomerna vid ett givet reaktionsställe kan, till exempel, har olika avgiftsfördelningar, beroende på vilka andra atomer som finns runt dem. Och den fysiska formen på en molekyl kan göra en reaktionsplats svåråtkomlig. Så MIT-forskarnas modell inkluderar också numeriska mått på båda dessa funktioner.

Enligt Richard Robinson, en kemisk teknologiforskare vid läkemedelsföretaget Novartis, MIT-forskarnas system "erbjuder ett annat tillvägagångssätt för maskininlärning inom området riktad syntes, som i framtiden skulle kunna omvandla praxis med experimentell design till riktade molekyler. "

"För närvarande är vi mycket beroende av vår egen retrosyntetiska träning, som är anpassat till våra egna personliga erfarenheter och utökat med reaktionsdatabassökmotorer, " Robinson säger. "Detta tjänar oss väl men ofta fortfarande resulterar i en betydande felfrekvens. Även mycket erfarna kemister blir ofta förvånade. Om du skulle lägga ihop alla kumulativa syntesmisslyckanden som industri, detta skulle sannolikt relatera till en betydande tids- och kostnadsinvestering. Tänk om vi kunde förbättra vår framgång?"

MIT-forskarna, Robinson säger, "har på ett skickligt sätt visat ett nytt tillvägagångssätt för att uppnå högre prediktiv reaktionsprestanda jämfört med konventionella metoder. Genom att utöka den rapporterade litteraturen med negativa reaktionsexempel, datamängden har mer värde."

Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.

Ny fotoakustisk teknik detekterar gaser på delar per kvadrillion nivå

Från insekt till drog – fästingsaliv kan vara nyckeln till att behandla hjärtsjukdomar

Kemi

Att sätta smält historia på kartan

Dipstick-teknik kan revolutionera sjukdomsdiagnostik

Kemister föreslår ett nytt tillvägagångssätt för syntesen av ABCD-ringsystemet av alpkinidin

Vetenskap

Quantum cloud computing med självkontroll

Den globala resursförbrukningen toppar 100 miljarder ton för första gången

USA:s energianvändning nådde 30-åriga låga under pandemiska avstängningar