Författarna kombinerade proprietära (GSK) och publicerade (CCDC) datauppsättningar för att bättre träna maskininlärningsmodeller (ML) för läkemedelsupptäckt. Kredit:Alex Moldavan.
Polymorfer är molekyler som har olika molekylära packningsarrangemang trots identiska kemiska kompositioner. I en färsk tidning, forskare vid GlaxoSmithKline (GSK) och Cambridge Crystallographic Data Center (CCDC) kombinerade sina egna (GSK) och publicerade (CCDC) datamängder för att bättre träna maskininlärningsmodeller (ML) för att förutsäga stabila polymorfer som ska användas i nya läkemedelskandidater.
Vilka är de viktigaste skillnaderna mellan CCDC- och GSK-datauppsättningarna?
CCDC kurerar och underhåller Cambridge Structural Database (CSD). Under det senaste århundradet, forskare över hela världen har bidragit med publicerade, experimentella kristallstrukturer till CSD, som nu har över 1,1 miljoner strukturer. Tidningens författare använde en läkemedelssubset från CSD kombinerat med strukturer från GSK. GSK -strukturerna samlades in i olika stadier av den farmaceutiska rörledningen och är inte begränsade till marknadsförda produkter. Medförfattare Dr Jason Cole, senior forskare i CCDC:s forsknings- och utvecklingsteam, förklarade varför strukturer som samlats in i olika stadier av läkemedelsupptäcktens pipeline är så viktiga.
"I ett tidigt stadium av läkemedelsupptäckten, en kristallstruktur kan hjälpa till att rationalisera konformationseffekter, till exempel, eller karakterisera kemin hos en ny kemisk enhet där andra tekniker har lett till tvetydighet, " sa Cole. "Senare i processen, när en ny kemisk enhet studeras som en kandidatmolekyl, Kristallstrukturer är kritiska eftersom de informerar om formval och kan senare hjälpa till att övervinna formulerings- och tabletteringsproblem."
Denna information kan hjälpa forskare att prioritera sina ansträngningar – vilket sparar tid och potentiellt liv på vägen.
"Genom att förstå en rad kristallstrukturer, forskare kan också bedöma risken för att en given form är långtidsinstabil, "Sa Cole. "En fullständig karaktärisering av det strukturella landskapet leder till förtroende för att ta en form framåt."
Hur drar ML-modeller inom läkemedelsvetenskap nytta av flera datamängder?
Industriella datamängder speglar mer än bara vetenskap; de speglar kulturella val inom en given organisation.
"Du hittar bara samkristaller om du letar efter samkristaller, " sa Cole, som ett exempel. "De flesta företag föredrar att formulera en gratis, eller obunden, läkemedel. Man kan anta att typerna av strukturer i en industriell uppsättning återspeglar medvetna beslut att söka efter former av givna typer, medan färre gränser sätts för de forskare som bidrar till CSD."
ML -modeller drar nytta av två viktiga saker:datavolym och dataspecificitet. Det är därför det är så bra att koppla volymen och mångfalden av data i CSD med egna datauppsättningar.
"Stora mängder data leder till säkrare förutsägelser, ", sade Cole. "Data som är mest direkt relevant för problemet leder till mer exakta förutsägelser. I prognoserna som använder CCDC-programvara, vi väljer en delmängd av de mest relevanta posterna som är tillräckligt stor för att ge förtroende. GSK-setet kommer att ha mycket relevanta föreningar för andra föreningar i sin kommersiella portfölj. Så modellbyggande programvara kan använda dessa."
Industriella forskare som arbetar med mycket relevant data kan stöta på problem när de inte har tillräckligt för att skapa säkra modeller.
"Tänk på att CSD-mjukvara vanligtvis väljer cirka två tusen strukturer från de 1,1 miljonerna i CSD, ", sa Cole. "Den industriella uppsättningen är liten i jämförelse, men du kan välja, säga, 40 eller 50 mycket relevanta strukturer. Du skulle ha otillräckliga data för att bygga en bra modell bara med det, men de tillsatta föreningarna från CSD kompletterar datauppsättningen. I huvudsak, genom att inkludera GSK- och CSD-uppsättningarna får vi det bästa av två världar:alla mycket relevanta industriella strukturer och en uppsättning ganska relevanta CSD-strukturer tillsammans för att bygga en högkvalitativ modell."
Varför utgör polymorfer en risk för läkemedelsindustrin?
De olika förpackningsarrangemangen innebär att en polymorf kan vara mer lämpad för terapeutisk leverans, medan en annan form av samma förening kanske inte. Forskare använder databaser med kristallstrukturer för att göra kunskapsbaserade förutsägelser om huruvida ett potentiellt nytt läkemedel består av en vara, stabil form som tillverkare kan göra, Lagra, och leverera på ett terapeutiskt sätt. Författarna vid GSK och CCDC genomförde en robust analys av kristallstrukturer med små molekyler som innehåller röntgendiffraktionsresultat från GSK och dess arvföretag under de senaste 40 åren. De kombinerade sedan dessa resultat med en läkemedelsundergrupp av strukturer från CCDC:s CSD, som innehåller över 1,1 miljoner småmolekylära organiska och metallorganiska kristallstrukturer från forskare över hela världen.