"Drogupptäckt är en mycket lång process. I varje steg, du kanske upptäcker att din drog inte är tillräckligt bra och du behöver söka en annan kandidat, " förklarar A*STARs Xiao-Li Li. Hans team vann "bästa uppsats" vid 2016 års internationella konferens om bioinformatik för en ny metod för att korrigera ett inneboende problem med metoder för maskininlärning.
Datorsimulering, eller "in silico" läkemedelsupptäcktstekniker, kan förbättra noggrannheten och minska utdragen, enormt dyr väg för att få ut ett läkemedel på marknaden – i genomsnitt mer än 12 år och 1,8 miljarder USD.
Många datorsimuleringar kräver dock först "träning" i datauppsättningar av kända droger och deras mål. Dessa data kan innehålla ytterligare information om 3D-struktur, kemisk sammansättning, och andra molekylära egenskaper. Utifrån trender från denna databas med kända data, simuleringen kan sedan förutsäga interaktioner mellan okända molekyler – vilket leder till nya läkemedel och nya målproteiner.
Dock, av alla droger och mål i databasen, endast vissa kombinationer kommer att interagera. Potentiella parningar uppvägs vida av icke-interagerande par som kallas "mellanklassobalans". Ytterligare obalans finns i form av olika och ojämlika subtyper av interaktion, kallad "obalans inom klassen".
"Alla beräkningsmodeller som är designade för att optimera noggrannheten kommer att vara partiska och kommer att tendera att klassificera okända par i majoritets- eller icke-interaktionsklass, " säger Li. "Majoritetsklasser är bättre representerade i data än minoritetsinteraktionsklasser – detta snedvrider dessa modeller och ger fel. Dataobalans är en utmanande fråga."
Lis team vid A*STAR Institute for Infocomm Research, försökte övervinna detta genom att utveckla en "obalansmedveten" algoritm som mer exakt förutspådde interaktioner mellan läkemedel och mål baserad på en databas med 12, 600 kända interaktioner och cirka 18 miljoner kända icke-interagerande par. Algoritmen utformades för att bättre känna igen underrepresenterade interaktionsgrupper och förbättra data inom dem.
Genom att förbättra datormodellens förmåga att fokusera på de mest användbara data (interaktionerna), teamet skapade ett system som överträffade befintliga modelleringstekniker, förutsäga nya, okända läkemedel-mål-interaktioner med hög noggrannhet.
Framtiden för maskininlärning beror på artificiell intelligens och avancerad inlärning som "djupinlärning". Ändå, som Li tillägger:"data är nyckeln. För att ytterligare förbättra vår prediktiva förmåga, det första vi kan göra är att samla in mer relevant data om droger och mål."