Under det senaste decenniet har generativa modeller för djupinlärning använts framgångsrikt för utformningen av nya läkemedelsmolekyler, organiska syntesvägar och funktionella molekyler skräddarsydda för elektroniska/optoelektroniska enheter. Detta möjliggörs till stor del av tillgängligheten av SMILES-representation för molekyler – en inverterbar och oföränderlig representation väl lämpad för naturliga språkbehandlingsmodeller som återkommande neurala nätverk, transformatorer, etc.
Att designa kristallina oorganiska fasta ämnen med önskade egenskaper förblir dock en formidabel utmaning. Detta beror främst på avsaknaden av en "SMILES-ekvivalent" kristallrepresentation för att överbrygga periodiska solid state-material och toppmoderna arkitekturer för djupinlärning.
Tidigare metoder för omvänd kristalldesign förlitade sig mest på 3D-voxelnät eller absoluta rumsliga koordinater för att representera strukturer. Men dessa tillvägagångssätt saknar i sig rotationsinvarians. Det finns också försök att använda kristallgrafer, som är oföränderliga men inte inverterbara på grund av frånvaron av explicit periodicitet eller sammansättningsinformation. För att möta denna utmaning föreslog vi en ny kristallrepresentation som heter SLICES. Studien är publicerad i tidskriften Nature Communications .
Den viktigaste motivationen bakom utvecklingen av SLICES är att skapa en kristallrepresentation som är inverterbar och invariant, analog med SMILES-representationen som används allmänt för molekylär invers design (Figur 1). Inverterbarhet innebär att representationen entydigt kan omvandlas tillbaka till den ursprungliga kristallstrukturen. Detta är väsentligt för att generativa modeller ska utföra omvänd design, där modellerna skapar nya kristallstrukturer som avkodas från representationen.
Invarians indikerar att representationen förblir oförändrad under translationer, rotationer och permutationer av kristallstrukturen. Att tillfredsställa invarianser tillåter representationen att enbart fokusera på att koda den väsentliga topologiska och sammansättningsinformationen i ett system snarare än ytliga egenskaper som förändras under transformationer. Detta minskar redundans och förbättrar inlärningseffektiviteten.
Genom att tillfredsställa inverterbarhet och invarianser möjliggör SLICES effektiv utforskning av det stora utrymmet för kemiska föreningar för kristallina material med hjälp av djupa generativa modeller.
Konceptuellt kodar SLICES topologin och sammansättningen av kristallstrukturer till strängar, ungefär som hur SMILES omvandlar molekylära grafer till linjenotationer. Mer specifikt utnyttjar SLICES det matematiska konceptet "märkta kvotdiagram" för att representera periodiska kristallstrukturer. Atomerna och bindningarna inom en enhetscell mappas till noder och kanter på kvotgrafen. Ytterligare etiketter tilldelas kanter som indikerar de periodiska skiftvektorer som krävs för att koppla ihop ekvivalenta atomer i närliggande enhetsceller.
Ett exempel är kristallstrukturen hos diamant (Figur 1), som innehåller två kolatomer bundna tillsammans i den primitiva enhetscellen. SLICES-strängen kodar explicit atomsymbolerna "C" och kantetiketten "001" som betecknar den periodiska bindningen som utbreder sig längs [001]-riktningen. Genom att analysera SLICES-strängen kan både sammansättningen och anslutningen av diamantstrukturen erhållas.
Särskilt kodar SLICES endast information om topologi och sammansättning. Attribut som atomkoordinater och gitterparametrar är inte explicit inbäddade. Detta gör SLICES oföränderliga för translationer, rotationer och atomindexpermutationer genom design.
Rekonstruera kristallstrukturer från SLICES
Även om kodning av kristaller i SLICES är relativt okomplicerad, ligger utmaningen i att säkerställa inverterbarhet – förmågan att exakt återuppbygga kristallstrukturer från SLICES-strängarna. För att uppnå inverterbarhet utvecklade vi en rekonstruktionspipeline (Figur 2) för SLICES som innehåller tre nyckelsteg:
Rekonstruktionsprestandan jämfördes med en databas som innehåller mer än 40 000 experimentellt kända material med upp till 20 atomer per enhetscell. Rekonstruktionspipelinen för SLICES kunde rekonstruera 94,95 % av de ursprungliga strukturerna, vilket avsevärt överträffade tidigare metoder. Denna inverterbarhet av SLICES möjliggör generering av nya strukturer från inlärda representationer, vilket är nyckeln till omvänd materialdesign.
Tillämpning i omvänd design av funktionella material
Som en demonstration använde vi SLICES i den omvända designen av direkta halvledare med smalt bandgap för optoelektroniska enheter som använder återkommande neurala nätverk (RNN). Arbetsflödet består av (Figur 3):
Genom detta arbetsflöde som kombinerar SLICES, RNN och beräkningar med hög genomströmning upptäcktes 14 nya halvledare med direkta bandgap i det optimala området (Figur 4). Detta visar löftet om SLICES som en möjliggörare för accelererad upptäckt av funktionella material med hjälp av generativ AI.
Riktad generering av nya material med specificerad bildningsenergi
Dessutom använder vi en villkorad återkommande neural nätverksarkitektur (cRNN), som illustreras i figur 5, för att generera SLICES-strängar som motsvarar kristaller med en önskad formationsenergi specificerad av användaren. Fördelningen av formationsenergier för de genererade strukturerna skiftar närmare det specificerade målvärdet i förhållande till datauppsättningsfördelningen. SLICES-baserade cRNN överträffar avsevärt tidigare toppmoderna modeller. Detta tillvägagångssätt markerar ett betydande framsteg i förmågan att designa och upptäcka nya material på ett kontrollerat och exakt sätt.
Som den första strängbaserade inverterbara och invarianta kristallrepresentationen, öppnar SLICES många spännande möjligheter i den omvända designen av kristallina fasta ämnen, precis som SMILES har gjort för molekyler under det senaste decenniet. Bara under de senaste åren har vi sett enorma framsteg inom generativa modeller, allt från bilder, videor, tal till proteiner och molekyler. Vi föreställer oss att solida material är nästa gräns, tack vare denna nya kapacitet för dataeffektiv, kemiintegrerad utforskning som bemyndigats av representationer som SLICES.
Den här historien är en del av Science X Dialog, där forskare kan rapportera resultat från sina publicerade forskningsartiklar. Besök den här sidan för information om ScienceX Dialog och hur du deltar.
Mer information: Hang Xiao et al, En inverterbar, oföränderlig kristallrepresentation för invers design av solid state-material med hjälp av generativ djupinlärning, Nature Communications (2023). DOI:10.1038/s41467-023-42870-7
Journalinformation: Nature Communications
Hang Xiao är knuten till School of Interdisciplinary Studies, Lingnan University; han tog sin doktorsexamen från Columbia University. Yan Chen är knuten till Laboratory for Multiscale Mechanics and Medical Science, SV LAB, School of Aerospace, Xi’an Jiaotong University, där han också tog sin doktorsexamen.