Kredit:CC0 Public Domain
Big Data har blivit allestädes närvarande de senaste åren, och särskilt i discipliner med heterogena och komplexa datamönster. Detta gäller särskilt för kemi. På vissa sätt, kemiska föreningar kan jämföras med synonymer inom lingvistik eftersom en viss förening kan representeras på olika sätt. För att ytterligare komplicera saker, några av dem har inte ens en specifik struktur och existerar bara som en sammanslagning av former som förvandlas till varandra. Det är därför det är viktigt för forskare att veta om de har att göra med olika föreningar eller med olika representationer av samma.
Ibland, databaser har också fel som beror på användarens ouppmärksamhet. Särskild programvara behövs för att upptäcka och korrigera sådana fel. När det gäller organisk kemi, reaktioner är notoriskt svåra att analysera. Det är därför reaktionsdata inom kemoinformatik är mycket mindre utvecklad än information om enskilda molekyler.
Laboratory of Chemoinformatics and Molecular Modeling (Kazan Federal University) har arbetat med detta problem sedan 2013. Forskare där har lärt sig att förutsäga reaktionskarakteristika, hitta optimala reaktionsförhållanden, och upptäcka och korrigera datafel. Som ett resultat, en unik databas med reaktionsegenskaper har uppstått. För närvarande, den inkluderar 3,5 miljoner poster. KFU är den enda ryska medlemmen i Reaxys R&D Collaboration, ett kollektiv som arbetar med kemiska databaser.
I detta nya projekt, med titeln CGRverktyg, KFU-forskare löste en rad problem för att bättre hantera reaktionsinformation. Programvarubiblioteket är betydligt rikare på funktionalitet än alla befintliga verktyg. CGRtools stöder molekyler och reaktion som objekt. CGRtools behandlar kemiska objekt på samma sätt som vanliga Python-datatyper som heltal, strängar, etc. Varje kemiskt objekt är hashbart på grund av kanonisering av atomnumrering. Objekten stöder transparent klassarv, som utökar befintliga metoder och attribut utan att bryta upp befintliga.
Viktigt, biblioteket är gratis tillgängligt på https://github.com/cimmkzn/CGRtools.