De fem centrala teserna i detta perspektiv. Kredit:Nature Chemistry (2022). DOI:10.1038/s41557-022-00910-7
En av de mest utmanande aspekterna av modern kemi är att hantera data. Till exempel, när de syntetiserar en ny förening, kommer forskare att gå igenom flera försök med trial-and-error för att hitta de rätta förhållandena för reaktionen, vilket i processen genererar enorma mängder rådata. Sådan data är av otroligt värde, eftersom maskininlärningsalgoritmer, precis som människor, kan lära sig mycket av misslyckade och delvis framgångsrika experiment.
Nuvarande praxis är dock att endast publicera de mest framgångsrika experimenten, eftersom ingen människa på ett meningsfullt sätt kan bearbeta det enorma antalet misslyckade. Men AI har förändrat detta; det är precis vad dessa maskininlärningsmetoder kan göra, förutsatt att uppgifterna lagras i ett format som kan hanteras på maskinen så att alla kan använda dem.
"Under lång tid behövde vi komprimera information på grund av det begränsade antalet sidor i tryckta tidskriftsartiklar", säger professor Berend Smit, som leder Laboratory of Molecular Simulation vid EPFL Valais Wallis. "Nuförtiden har många tidskrifter inte ens tryckta upplagor längre, men kemister kämpar fortfarande med reproducerbarhetsproblem eftersom tidskriftsartiklar saknar avgörande detaljer. Forskare "slösar" tid och resurser på att replikera "misslyckade" experiment av författare och kämpar för att bygga ovanpå publicerade resultat eftersom rådata sällan publiceras."
Men volymen är inte det enda problemet här; datamångfald är en annan:forskargrupper använder olika verktyg som programvaran Electronic Lab Notebook, som lagrar data i proprietära format som ibland är inkompatibla med varandra. Denna brist på standardisering gör det nästan omöjligt för grupper att dela data.
Nu har Smit, tillsammans med Luc Patiny och Kevin Jablonka på EPFL, publicerat ett perspektiv i Nature Chemistry presenterar en öppen plattform för hela kemiarbetsflödet:från starten av ett projekt till dess publicering.
Forskarna föreställer sig att plattformen "sömlöst" integrerar tre avgörande steg:datainsamling, databearbetning och datapublicering – allt med minimal kostnad för forskarna. Den vägledande principen är att data ska vara FAIR:lätt att hitta, tillgänglig, interoperabel och återanvändbar. "I ögonblicket för datainsamling kommer data automatiskt att konverteras till ett standard FAIR-format, vilket gör det möjligt att automatiskt publicera alla 'misslyckade' och delvis lyckade experiment tillsammans med det mest framgångsrika experimentet", säger Smit.
Men författarna går ett steg längre och föreslår att data också ska vara maskinella. "Vi ser fler och fler datavetenskapliga studier inom kemi", säger Jablonka. "De senaste resultaten inom maskininlärning försöker faktiskt ta itu med några av de problem som kemister tror är olösliga. Till exempel har vår grupp gjort enorma framsteg när det gäller att förutsäga optimala reaktionsförhållanden med hjälp av maskininlärningsmodeller. Men dessa modeller skulle vara mycket mer värdefulla om de kunde också lära sig reaktionsförhållanden som misslyckas, men annars förblir de partiska eftersom endast de framgångsrika tillstånden publiceras."
Slutligen föreslår författarna fem konkreta steg som fältet måste ta för att skapa en FAIR datahanteringsplan:
"Vi tror att det inte finns något behov av att uppfinna nya filformat eller teknologier", säger Patiny. "I princip finns all teknik där, och vi måste ta till oss befintliga tekniker och göra dem interoperabla."
Författarna påpekar också att bara att lagra data i en elektronisk labb-anteckningsbok – den nuvarande trenden – inte nödvändigtvis betyder att människor och maskiner kan återanvända datan. Snarare måste data vara strukturerade och publicerade i ett standardiserat format, och de måste också innehålla tillräckligt med sammanhang för att möjliggöra datadrivna åtgärder.
"Vårt perspektiv erbjuder en vision av vad vi tror är nyckelkomponenterna för att överbrygga gapet mellan data och maskininlärning för kärnproblem inom kemi", säger Smit. "Vi tillhandahåller också en öppen vetenskaplig lösning där EPFL kan ta ledningen." + Utforska vidare