Den transistorfria beräknings-i-minne-arkitekturen tillåter tre beräkningsuppgifter som är viktiga för AI-applikationer:sökning, lagring och neurala nätverksoperationer. Kredit:Nano Letters (2022). DOI:10.1021/acs.nanolett.2c03169
Artificiell intelligens utgör en stor utmaning för konventionell datorarkitektur. I standardmodeller sker minneslagring och beräkning i olika delar av maskinen, och data måste flyttas från dess lagringsområde till en CPU eller GPU för bearbetning.
Problemet med denna design är att rörelse tar tid. För mycket tid. Du kan ha den mest kraftfulla processorenheten på marknaden, men dess prestanda kommer att vara begränsad eftersom den inte väntar på data, ett problem som kallas "minnesväggen" eller "flaskhalsen".
När datoranvändning överträffar minnesöverföring är latens oundviklig. Dessa förseningar blir allvarliga problem när man hanterar de enorma mängder data som är nödvändiga för maskininlärning och AI-tillämpningar.
Allt eftersom AI-mjukvaran fortsätter att utvecklas i sofistikerad form och framväxten av det sensortunga Internet of Things producerar allt större datamängder, har forskare nollställt hårdvarans omdesign för att leverera nödvändiga förbättringar i hastighet, smidighet och energianvändning.
Ett team av forskare från University of Pennsylvania School of Engineering and Applied Science har i samarbete med forskare från Sandia National Laboratories och Brookhaven National Laboratory introducerat en datorarkitektur som är idealisk för AI.
Leds av Deep Jariwala, biträdande professor vid institutionen för el- och systemteknik (ESE), Troy Olsson, docent i ESE, och Xiwen Liu, en Ph.D. kandidat i Jarawalas Device Research and Engineering Laboratory, förlitade sig forskargruppen på en metod som kallas compute-in-memory (CIM).
I CIM-arkitekturer sker bearbetning och lagring på samma plats, vilket eliminerar överföringstid samt minimerar energiförbrukningen. Teamets nya CIM-design, föremål för en nyligen genomförd studie publicerad i Nano Letters , är känd för att vara helt transistorfri. Den här designen är unikt anpassad till det sätt som Big Data-applikationer har förändrat datorns natur.
"Även när de används i en compute-in-memory-arkitektur, äventyrar transistorer åtkomsttiden för data", säger Jariwala. "De kräver mycket ledningar i den övergripande kretsen av ett chip och använder därmed tid, utrymme och energi utöver vad vi skulle vilja ha för AI-tillämpningar. Det fina med vår transistorfria design är att den är enkel, liten och snabb och det kräver väldigt lite energi."
Framgången är inte bara på kretsnivådesignen. Denna nya datorarkitektur bygger på teamets tidigare arbete inom materialvetenskap med fokus på en halvledare känd som skandiumlegerad aluminiumnitrid (AlScN). AlScN möjliggör ferroelektrisk omkoppling, vars fysik är snabbare och mer energieffektiv än alternativa icke-flyktiga minneselement.
"En av detta materials nyckelegenskaper är att det kan deponeras vid temperaturer som är tillräckligt låga för att vara kompatibelt med kiselgjuterier", säger Olsson. "De flesta ferroelektriska material kräver mycket högre temperaturer. AlScN:s speciella egenskaper gör att våra demonstrerade minnesenheter kan läggas ovanpå kiselskiktet i en vertikal heterointegrerad stack. Tänk på skillnaden mellan en parkeringsplats med flera våningar med kapacitet för hundra bilar och en hundra enskilda parkeringsplatser utspridda över en enda tomt. Vilket är mer effektivt när det gäller utrymme? Detsamma är fallet för information och enheter i ett mycket miniatyriserat chip som vårt. Denna effektivitet är lika viktig för applikationer som kräver resursbegränsningar, t.ex. som mobila eller bärbara enheter, som det är för applikationer som är extremt energikrävande, som datacenter."
År 2021 etablerade teamet AlScN:s livskraft som ett kraftpaket för datorer i minnet. Dess kapacitet för miniatyrisering, låg kostnad, resurseffektivitet, enkel tillverkning och kommersiell genomförbarhet visade allvarliga framsteg i forskningens och industrins ögon.
I den senaste studien som debuterade med den transistorfria designen, observerade teamet att deras CIM-ferrodiod kanske kan prestera upp till 100 gånger snabbare än en konventionell datorarkitektur.
Annan forskning inom området har framgångsrikt använt compute-in-memory arkitekturer för att förbättra prestanda för AI-applikationer. Dessa lösningar har dock varit begränsade och inte kunnat övervinna den motstridiga avvägningen mellan prestanda och flexibilitet. Datorarkitektur med memristor-tvärstängsmatriser, en design som efterliknar den mänskliga hjärnans struktur för att stödja prestanda på hög nivå i neurala nätverksoperationer, har också visat beundransvärda hastigheter.
Ändå är neurala nätverksoperationer, som använder lager av algoritmer för att tolka data och känna igen mönster, bara en av flera nyckelkategorier av datauppgifter som är nödvändiga för funktionell AI. Designen är inte tillräckligt anpassningsbar för att erbjuda adekvat prestanda på andra AI-dataoperationer.
Penn-teamets ferrodioddesign erbjuder banbrytande flexibilitet som andra beräknings-i-minne-arkitekturer inte gör. Den uppnår överlägsen noggrannhet och presterar lika bra i inte en utan tre viktiga dataoperationer som utgör grunden för effektiva AI-applikationer. Den stöder lagring på chip, eller kapaciteten att hålla de enorma mängder data som krävs för djupinlärning, parallell sökning, en funktion som möjliggör noggrann datafiltrering och analys och matrismultiplikationsacceleration, kärnprocessen för neurala nätverksdatorer.
"Låt oss säga", säger Jariwala, "att du har en AI-applikation som kräver ett stort minne för lagring samt förmågan att göra mönsterigenkänning och sökning. Tänk självkörande bilar eller autonoma robotar, som måste svara snabbt och exakt till dynamiska, oförutsägbara miljöer. Med konventionella arkitekturer skulle du behöva ett annat område av chippet för varje funktion och du skulle snabbt bränna igenom tillgängligheten och utrymmet. Vår ferrodioddesign gör att du kan göra allt på ett ställe genom att helt enkelt ändra sättet du lägger på spänningar för att programmera den."
Vinsten för ett CIM-chip som kan anpassa sig till flera dataoperationer är tydligt:När teamet körde en simulering av en maskininlärningsuppgift genom sitt chip, utfördes den med en jämförbar grad av noggrannhet som AI-baserad programvara som körs på en konventionell CPU.
"Denna forskning är mycket betydelsefull eftersom den bevisar att vi kan lita på minnesteknik för att utveckla chips som integrerar flera AI-dataapplikationer på ett sätt som verkligen utmanar konventionell datorteknik", säger Liu, första författaren till studien.
Teamets designstrategi är en som tar hänsyn till att AI varken är hårdvara eller mjukvara, utan ett viktigt samarbete mellan de två.
"Det är viktigt att inse att all AI-beräkning som för närvarande görs är mjukvaruaktiverad på en kiselhårdvaruarkitektur som designades för decennier sedan", säger Jariwala. "Det är därför artificiell intelligens som ett område har dominerats av dator- och mjukvaruingenjörer. Grundläggande omdesign av hårdvara för AI kommer att bli nästa stora spelförändrare inom halvledare och mikroelektronik. Den riktning vi går i nu är hårdvara och mjukvara samdesign."
"Vi designar hårdvara som gör att mjukvaran fungerar bättre", tillägger Liu, "och med den här nya arkitekturen ser vi till att tekniken inte bara är snabb utan också exakt." + Utforska vidare