I BigSMILES, polymera fragment representeras av en lista med upprepade enheter omgivna av krulliga parenteser. De kemiska strukturerna för de upprepande enheterna kodas med normal SMILES-syntax, men med ytterligare bindningsdeskriptorer som specificerar hur olika repeterande enheter är sammankopplade för att bilda polymerer. Denna enkla utformning av syntax skulle möjliggöra kodning av makromolekyler över ett brett spektrum av kemier. Kredit:Tzyy-Shyang Lin
Att ha en kompakt, ändå robust, strukturellt baserad identifiering eller representationssystem för molekylära strukturer är en nyckelfaktor för effektiv delning och spridning av resultat inom forskarsamhället. Sådana system lägger också de väsentliga grunderna för maskininlärning och annan datadriven forskning. Även om betydande framsteg har gjorts för små molekyler, polymergemenskapen har kämpat för att komma fram till ett effektivt representationssystem.
För små molekyler, grundförutsättningen är att varje distinkt kemisk art motsvarar en väldefinierad kemisk struktur. Detta gäller inte för polymerer. Polymerer är i sig stokastiska molekyler som ofta är ensembler med en fördelning av kemiska strukturer. Denna svårighet begränsar tillämpbarheten av alla deterministiska representationer som utvecklats för små molekyler. I en tidning publicerad 12 september in ACS Central Science , forskare vid MIT, Duke University, och Northwestern University rapporterar ett nytt representationssystem som kan hantera den stokastiska naturen hos polymerer, kallas BigSMILES.
"BigSMILES adresserar en betydande utmaning i den digitala representationen av polymerer, " förklarar Connor Coley Ph.D. '19, medförfattare till tidningen. "Polymerer är nästan alltid ensembler av flera kemiska strukturer, genereras genom stokastiska processer, så vi kan inte använda samma strategier för att skriva ner deras strukturer som för små molekyler."
Medförfattare är Coley; docent i kemiteknik Bradley D. Olsen vid MIT; Warren K. Lewis professor i kemiteknik Klavs F. Jensen vid MIT; biträdande professor i kemi Julia A. Kalow vid Northwestern University; docent i kemi Jeremiah A. Johnson vid MIT; William T. Miller professor i kemi Stephen L. Craig vid Duke University; doktorand Eliot Woods vid Northwestern University; doktorand Zi Wang vid Duke University; doktorand Wencong Wang vid MIT; doktorand Haley K. Beech vid MIT; gästforskare Hidenobu Mochigase vid MIT; och doktorand Tzyy-Shyang Lin vid MIT.
Det finns flera linjenotationer för att kommunicera molekylstruktur, med förenklat molekylärt ingångssystem (SMILES) som är det mest populära. SMILES anses allmänt vara den mest läsbara varianten, med det överlägset bredaste mjukvarustödet. I praktiken, SMILES tillhandahåller en enkel uppsättning representationer som är lämpliga som etiketter för kemiska data och som en minneskompakt identifierare för datautbyte mellan forskare. Som ett textbaserat system, SMILES är också en naturlig passform för många textbaserade maskininlärningsalgoritmer. Dessa egenskaper har gjort SMILES till ett perfekt verktyg för att översätta kemikunskap till en maskinvänlig form, och det har framgångsrikt använts för förutsägelse av små molekyler och datorstödd syntesplanering.
Polymerer, dock, har motstått beskrivning av detta och andra strukturella språk. Detta beror på att de flesta strukturella språk som SMILES har designats för att beskriva molekyler eller kemiska fragment som är väldefinierade atomistiska grafer. Eftersom polymerer är stokastiska molekyler, de har inte unika SMILES-representationer. Denna brist på en enhetlig namn- eller identifieringskonvention för polymermaterial är ett av de största hindren som bromsar utvecklingen av polymerinformatikområdet. Samtidigt som banbrytande ansträngningar för polymerinformatik, såsom Polymer Genome Project, har visat användbarheten av SMILES-tillägg inom polymerinformatik, den snabba utvecklingen av ny kemi och den snabba utvecklingen av materialinformatik och datadriven forskning gör behovet av en universellt tillämplig namnkonvention för polymerer viktigt.
"Maskininlärning ger en enorm möjlighet att påskynda kemisk utveckling och upptäckt, säger Lin He, tillförordnad biträdande divisionsdirektör för National Science Foundation (NSF) Division of Chemistry. "Detta utökade verktyg för att märka strukturer, speciellt framtagen för att ta itu med de unika utmaningarna i polymerer, förbättrar avsevärt sökbarheten för kemiska strukturella data, och tar oss ett steg närmare att utnyttja datarevolutionen."
Forskarna har skapat en ny strukturellt baserad konstruktion som ett tillägg till den mycket framgångsrika SMILES-representationen som kan behandla den slumpmässiga naturen hos polymermaterial. Eftersom polymerer är molekyler med hög molmassa, denna konstruktion heter BigSMILES. I BigSMILES, polymera fragment representeras av en lista med upprepade enheter omgivna av krulliga parenteser. De kemiska strukturerna för de upprepande enheterna kodas med normal SMILES-syntax, men med ytterligare bindningsdeskriptorer som specificerar hur olika repeterande enheter är sammankopplade för att bilda polymerer. Denna enkla design av syntax skulle möjliggöra kodning av makromolekyler över ett brett spektrum av olika kemier, inklusive homopolymer, slumpmässiga sampolymerer och blocksampolymerer, och en mängd olika molekylära anslutningar, allt från linjära polymerer till ringpolymerer till även grenade polymerer. Som i SMILES, BigSMILES representationer är kompakta, fristående textsträngar.
"Standardisering av den digitala representationen av polymera strukturer med BigSMILES kommer att uppmuntra delning och aggregering av polymerdata, förbättra modellkvaliteten över tid och förstärka fördelarna med dess användning, " säger Jason Clark, materialen som leder i Open Innovation for Renewable Chemicals and Materials på Braskem, som inte var förknippad med forskningen. "BigSMILES är ett betydande bidrag till området genom att det adresserar behovet av ett flexibelt system för att representera komplexa polymerstrukturer digitalt."
Clark tillägger, "Utmaningarna som plastindustrin står inför i samband med den cirkulära ekonomin börjar med källan till råvaror och fortsätter hela vägen genom hanteringen av uttjänta produkter. För att hantera dessa utmaningar krävs innovativ design av polymerbaserade material, som traditionellt har lidit av långa utvecklingscykler. Framsteg inom artificiell intelligens och maskininlärning har visat lovande att påskynda utvecklingscykeln för applikationer som använder metallegeringar och små organiska molekyler, motiverar plastindustrin att söka ett parallellt tillvägagångssätt." BigSMILES digitala representationer underlättar utvärderingen av struktur-prestandarelationer genom tillämpning av datavetenskapliga metoder, han säger, i slutändan accelererar konvergensen till polymerstrukturerna eller kompositionerna som kommer att bidra till att möjliggöra den cirkulära ekonomin.
"En mängd komplicerade polymerstrukturer kan konstrueras genom sammansättningen av tre nya grundläggande operatorer och ursprungliga SMILES-symboler, säger Olsen, "Hela områden av kemi, materialvetenskap, och teknik, inklusive polymervetenskap, biomaterial, materialkemi, och mycket av biokemi, är baserade på makromolekyler som har stokastiska strukturer. Detta kan i princip ses som ett nytt språk för hur man skriver strukturen hos stora molekyler."
"En av de saker jag är exalterad över är hur datainmatningen så småningom kan kopplas direkt till de syntetiska metoderna som används för att göra en viss polymer, säger Craig, "På grund av det, det finns en möjlighet att faktiskt fånga och bearbeta mer information om molekylerna än vad som vanligtvis är tillgängligt från standardkarakteriseringar. Om detta kan göras, det kommer att möjliggöra alla möjliga upptäckter."
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.