Purdue-forskare har skapat ett nytt system, kallas citron, för snabb brytning av biomolekylära interaktionsdata att använda med maskininlärningsmetoder för design av läkemedel. Kredit:Bild tillhandahålls
En av utmaningarna med att använda maskininlärning för läkemedelsutveckling är att skapa en process för datorn att extrahera nödvändig information från en pool av datapunkter. Läkemedelsforskare måste hämta biologiska data och träna programvaran för att förstå hur en typisk människokropp kommer att interagera med de kombinationer som går samman för att bilda en medicin.
Purdue University:s läkemedelsupptäcktsforskare har skapat ett nytt ramverk för gruvdata för att träna maskininlärningsmodeller. Ramverket, kallas citron, hjälper läkemedelsforskare att bättre utvinna proteindatabasen (PDB) – en omfattande resurs med mer än 140, 000 biomolekylära strukturer och med nya som släpps varje vecka. Verket publiceras i den 15 oktober upplagan av Bioinformatik .
"PDB är ett viktigt verktyg för läkemedelsupptäckargemenskapen, " sa Gaurav Chopra, en biträdande professor i analytisk och fysikalisk kemi vid Purdue's College of Science som arbetar med andra forskare vid Purdue Institute for Drug Discovery och ledde laget som skapade Lemon. "Problemet är att det kan ta enormt lång tid att sortera igenom all ackumulerad data. Maskininlärning kan hjälpa, men du behöver fortfarande ett starkt ramverk från vilket datorn snabbt kan analysera data för att hjälpa till att skapa säkra och effektiva läkemedel."
Lemon-mjukvaruplattformen är ett snabbt C++11-bibliotek med Python-bindningar som bryter PDB inom några minuter. Att ladda alla traditionella mmCIF-filer i PDB tar cirka 290 minuter, men Lemon gör detta på cirka sex minuter när du använder ett enkelt arbetsflöde på en 8-kärnig maskin. Citron låter användaren skriva anpassade funktioner, inkludera det som en del av deras mjukvarupaket, och utveckla anpassade funktioner på ett standardsätt för att generera unika benchmarking-datauppsättningar för hela forskarsamhället.
"Experimentella strukturer som deponerats i det preliminära budgetförslaget har resulterat i flera framsteg för strukturella och beräkningsbiologiska vetenskaps- och utbildningssamhällen som hjälper till att främja läkemedelsutveckling och andra områden, sa Jonathan Fine, en Ph.D. student i kemi som arbetat med Chopra för att utveckla plattformen. "Vi skapade Lemon som en one-stop-shop för att snabbt bryta hela databanken och dra ut den användbara biologiska informationen som är nyckeln för att utveckla läkemedel."
Citron fick sitt namn eftersom det ursprungligen designades för att skapa benchmarking-set för mjukvara för läkemedelsdesign och identifiera citronerna, biomolekylära interaktioner som inte kan modelleras väl, i det preliminära budgetförslaget.
Mjukvaruutvecklingsarbetet är det senaste projektet som involverar hälsoinnovationer från Chopra och hans team. Lemon är gratis tillgänglig på GitHub på lemon" target="_blank"> github.com/chopralab/lemon . Detaljerad dokumentation finns på chopralab.github.io/lemon/latest/index.html .