SMART-klusterkartan baserad på träningsresultat av 2, 054 HSQC-spektra över 83, 000 iterationer, med infällda rutor som representerar olika sammansatta klasser som diskuteras i texten. Kredit:University of California - San Diego
Ett tvärvetenskapligt team av forskare vid University of California San Diego har utvecklat en metod för att identifiera naturprodukters molekylära strukturer som är betydligt snabbare och mer exakt än befintliga metoder. Metoden fungerar som ansiktsigenkänning för molekylära strukturer:Den använder en bit spektral data som är unik för varje molekyl och kör den sedan genom ett djupt lärande neuralt nätverk för att placera den okända molekylen i ett kluster av molekyler med liknande strukturer.
Det nya systemet heter "SMART, "som står för Small Molecule Accurate Recognition Technology, och har potential att påskynda identifieringsprocessen av molekylär struktur tio gånger. Denna utveckling kan representera ett paradigmskifte i den kemiska analysen, läkemedels- och läkemedelsupptäcktsfält eftersom 70 procent av alla Food and Drug Administration (FDA)-godkända läkemedel är baserade på naturliga produkter som jordmikroorganismer, landväxter och, alltmer, marina livsformer som alger.
"Strukturen av en molekyl är den möjliggörande informationen, sade Bill Gerwick, professor i oceanografi och farmaceutiska vetenskaper vid UC San Diegos Scripps Institution of Oceanography. "Du måste ha strukturen för alla FDA-godkännanden. Om du vill ha immateriella rättigheter, du måste patentera den strukturen. Om du vill göra analoger av den molekylen, du behöver veta vad startmolekylen är. Det är en viktig del av information."
Chen Zhang, en nanoteknik Ph.D. student vid UC San Diego som samarbetar med Gerwick och den första författaren till tidningen publicerad i Naturvetenskapliga rapporter , sa att bestämning av en molekyls struktur kan vara en flaskhals i forskningsprocessen för naturliga produkter, ta experter månader och till och med år för att exakt fastställa den korrekta och kompletta strukturen. Även om varje molekyl och dess identifieringstidslinje är olika, SMART-metoden ger forskare en tidig ledtråd om vilken familj en ny molekyl faller under, drastiskt minskar tiden det tar att karakterisera en ny naturprodukt.
"Sättet vi kunde påskynda processen är genom att i huvudsak använda mjukvara för ansiktsigenkänning för att titta på den viktigaste informationen vi får om molekylerna, " sa Gerwick. Den viktigaste informationen som laget använder kallas en heteronukleär singular kvantkoherens kärnmagnetisk resonans, eller HSQC NMR, spektrum. Den producerar en topologisk karta över fläckar som avslöjar vilka protoner i molekylen som är fästa direkt till vilka kolatomer, ett arrangemang som är unikt för varje molekyl.
Zhang och Gerwick slog sig ihop med Gary Cottrell, en professor i datavetenskap och teknik vid UC San Diego Jacobs School of Engineering, att utveckla ett djupinlärningssystem tränat med tusentals HSQC-spektra hämtade från tidigare forskning. Detta konvolutionella neurala nätverk tar en 2-D-bild av HSQC NMR-spektrumet för en okänd molekyl och kartlägger det i ett 10-dimensionellt utrymme som är samlat nära liknande molekyler, vilket gör det lättare för forskare att belysa en okänd molekyls struktur.
"Chen tog detta tillvägagångssätt för att få NMR-spektra på över 4, 000 föreningar från litteraturen genom att bokstavligen klippa ut bilderna från PDF-filerna i tidningarna, " sa Cottrell. "Det var en fantastisk insats! Ändå, detta är normalt inte tillräckligt med data för att träna ett djupt nätverk, men vi använde en teknik som kallas ett siamesiskt nätverk, där du tränar på bildpar. Detta förstärker din träningsuppsättning med ungefär kvadraten på antalet föreningar i en familj, och det är det som gjorde det här projektet genomförbart."
Detta samarbete är första gången Gerwick har handlett en ingenjörsstudent, och utbytet av idéer visade sig fruktbart.
"Det har varit en underbar interaktion. UC San Diego har något riktigt magiskt över sig, och det är djupet av samarbete som sker mellan avdelningar – det är fenomenalt, " sa Gerwick. "När du försöker och eftertänksamt ta från en annan disciplin något som kanske till och med är vanligt i den disciplinen och tillämpa det på ett nytt och unikt sätt i vår disciplin, det är en möjlighet att verkligen ha den här typen av paradigmskiftande sak. Och jag tror att denna teknik, med viss framgång, kan vara ett verkligt paradigmskifte i hur vi gör alla typer av kemi och kemisk analys."