Det webbaserade verktyget är enkelt, och modellen är utbildad från början till slut, helt datadriven och utan att underlätta förfrågningar i en databas eller ytterligare extern information. Kredit:IBM
I mer än 200 år har syntesen av organiska molekyler är fortfarande en av de viktigaste uppgifterna inom organisk kemi. Chemists arbete har vetenskapliga och kommersiella konsekvenser som sträcker sig från produktionen av aspirin till det av Nylon. Än, lite har gjorts för att dramatiskt förändra åldersgamla metoder och tillåta en ny era av produktivitet baserad på banbrytande artificiell intelligens (AI) vetenskap och teknik.
Utmaningen för organiska kemister inom områden som kemi, materialvetenskap, olja och gas, och biovetenskap är att det finns hundratusentals reaktioner och, medan det är hanterbart att komma ihåg några dussin inom ett smalt specialistområde, det är omöjligt att vara en expert generalist.
För att ta itu med detta frågade vi oss själva, kan vi använda djupinlärning och artificiell intelligens för att förutsäga reaktioner av organiska föreningar?
Först, eftersom vi studerade ingenjörs- och materialvetenskap, men inte organisk kemi, vi var tvungna att slå böckerna. Det dröjde inte länge innan vi började se organisk kemi överallt - morgon, middag och natt. Atomer dök upp istället för bokstäver, molekyler materialiserade från ord och, sedan, något otroligt hände:en idé föddes.
Vi insåg att datauppsättningar för organisk kemi och språk har mycket gemensamt:de är båda beroende av grammatik, på långdistansberoenden, och en liten partikel eller ett ord som "inte" kan ändra hela meningen med en mening precis som stereokemin kan förvandla Thalidomide till antingen en medicin eller ett dödligt gift.
Som icke-infödda engelsktalande är vi båda bekanta med översättningsverktyg online, som gjorde underverk för att göra engelska till franska, och tyska till engelska, så varför inte försöka använda dem för att förvandla slumpmässiga kemikalier till funktionella föreningar?
På NIPS 2017-konferensen presenterar vi våra resultat:en webbaserad app som tar tanken på att relatera organisk kemi till ett språk och tillämpar toppmoderna neurala maskinöversättningsmetoder för att gå från att designa material till att generera produkter med hjälp av sekvens- to-sequence (seq2seq) modeller.
Kemi 101
Tillbaka i gymnasiet, vi var tvungna att för hand rita hexagoner och femkanter och alla de olika linjerna som representerar bindningar av organiska molekyler. Nu har vi tagit fram ett system som tar exakt samma representation och kan förutsäga hur molekyler kommer att reagera inom ett klick.
Det övergripande verktyget är enkelt, och modellen är utbildad från början till slut, helt datadriven och utan att underlätta förfrågningar i en databas eller ytterligare extern information. Med detta tillvägagångssätt, vi överträffar nuvarande lösningar med hjälp av egna tränings- och testuppsättningar genom att uppnå en topp-1-noggrannhet på 80,3 procent och sätta en första poäng på 65,4 procent på en bullrig enskild produktreaktionsdata som extraherats från amerikanska patent.
Med leenden, denna molekyl översätts till BrCCOC1OCCCC1. Kredit:IBM
Hemligheten bakom vårt verktyg är det som kallas ett förenklat system för systeminmatning med molekylär input eller SMILES. SMILES representerar en molekyl som en karaktärssekvens. Till exempel, bilden till höger, blir BrCCOC1OCCCC1.
Vi utbildade vår modell med hjälp av en öppet tillgänglig kemisk reaktionsdataset, som motsvarar 1 miljon patentreaktioner.
I framtiden, vi strävar efter att förbättra modellen och förbättra vår noggrannhet genom att utöka vår dataset. För närvarande är våra data hämtade från information som är allmänt tillgänglig i amerikanska patent som publicerats online, men det finns ingen anledning till att verktyget inte kan utbildas i data från andra källor, såsom kemi läroböcker och vetenskapliga publikationer.
Vi planerar också att göra detta verktyg offentligt tillgängligt gratis i molnet i början av 2018.
Registrera dig på www.zurich.ibm.com/foundintranslation för att få en avisering när webbverktyget är klart.