I en nyligen Kemiska recensioner artikel, Spanska forskare har publicerat den första uttömmande översynen av de senaste metoderna bakom kemiska sökmotorer, namngiven enhetsigenkänning och textgruvsystem.
Det snabbt växande området för big data-applikationer inom biomedicinsk forskning, tillsammans med användningen av maskininlärning och artificiell intelligens för textdatautvinning, har resulterat i lovande verktyg. Författarna skriver, "Denna recension är organiserad för att fungera som en praktisk guide till forskare som går in på detta område men också för att hjälpa dem att föreställa sig nästa steg i detta framväxande datavetenskapsområde."
"Genom lanseringen av Gold Standard -datauppsättningar och organisering av flera benchmark -evenemang för utmaningar i samhället, enheten för biologisk textbrytning har spelat en avgörande roll i utvecklingen och utvärderingen av nuvarande kemiska textgruvsystem, som framhävs i denna artikel, "förklarar Martin Krallinger, enhetschef och medförste författare till recensionen.
En enorm mängd ostrukturerad data
En ansenlig bråkdel av biomedicinskt relevant data är endast tillgänglig i form av ostrukturerad data. Denna typ av data inkluderar snabbt växande vetenskaplig litteratur, patent på medicinsk kemi, elektroniska journaler och kliniska prövningsdokument. Faktiskt, varje år, över 20, 000 nya föreningar publiceras i medicinska och biologiska kemitidskrifter.
Att kunna omvandla ostrukturerade biomedicinska forskningsdata till strukturerade databaser som kan bearbetas mer effektivt av maskiner eller förfrågas av människor är avgörande för en rad olika heterogena applikationer. Dessa inkluderar identifiering av nya läkemedelsmål och kemiska sonder för att validera/kassera dessa nya potentiella mål, omplanering av godkända läkemedel, identifiering av negativa läkemedelshändelser eller hämtning av systembiologi i samband med kemisk sjukdom eller kemiska gennätverk.
Som en terapeutisk strategi för att behandla medicinska behov, kemiska föreningar utgör en nyckeltyp av kritisk relevans för biomedicinsk forskning. "Konstruktionen av stora kemiska kunskapsbaser, integrera kemisk information med biologiska och kliniska data, är avgörande för att identifiera och validera nya terapeutiska mål för otillfredsställda medicinska behov samt för att påskynda läkemedelsupptäcktsprocessen, "säger Julen Oyarzabal, chef för Translational Sciences vid CIMA och medledare för denna rapport.