Ett chip som omfattar flera PCM-enheter. De elektriska sonderna som kommer i kontakt med den används för att skicka signaler till individuella enheter för att utföra multiplikationen i minnet. Kredit:IBM
Denna vecka, vid International Electron Devices Meeting (IEDM) och Conference on Neural Information Processing Systems (NeurIPS), IBM-forskare kommer att visa upp ny hårdvara som kommer att ta AI längre än tidigare:ända till kanten. Våra nya metoder för digitala och analoga AI-chips ökar hastigheten och minskar energibehovet för djupinlärning, utan att offra precisionen. På den digitala sidan, vi sätter scenen för en ny branschstandard inom AI-träning med ett tillvägagångssätt som uppnår full noggrannhet med åttabitars precision, accelererar träningstiden med två till fyra gånger jämfört med dagens system. På den analoga sidan, vi rapporterar åttabitars precision – den högsta hittills – för ett analogt chip, ungefär en fördubbling av noggrannheten jämfört med tidigare analoga chips samtidigt som den förbrukar 33 gånger mindre energi än en digital arkitektur med liknande precision. Dessa prestationer förebådar en ny era av datorhårdvara utformad för att frigöra AIs fulla potential.
In i eran efter GPU
Innovationer inom mjukvara och AI-hårdvara har till stor del gett en 2,5 gånger per år förbättring av datorprestanda för AI sedan 2009, när GPU:er först antogs för att påskynda djupinlärning. Men vi når gränserna för vad GPU:er och mjukvara kan göra. För att lösa våra svåraste problem, hårdvaran behöver skalas upp. Den kommande generationen AI-applikationer kommer att behöva snabbare svarstider, större AI-arbetsbelastningar, och multimodala data från många strömmar. För att frigöra den fulla potentialen hos AI, vi designar om hårdvara med AI i åtanke:från acceleratorer till specialbyggd hårdvara för AI-arbetsbelastningar, som våra nya chips, och så småningom kvantberäkning för AI. Att skala AI med nya hårdvarulösningar är en del av en bredare satsning på IBM Research för att gå från smal AI, används ofta för att lösa specifika, väldefinierade uppgifter, till bred AI, som sträcker sig över discipliner för att hjälpa människor att lösa våra mest angelägna problem.
Digitala AI-acceleratorer med reducerad precision
IBM Research lanserade metoden med reducerad precision för utbildning och slutledning av AI-modeller med ett landmärke som beskriver en ny dataflödesmetod för konventionella CMOS-tekniker för att förnya hårdvaruplattformar genom att dramatiskt minska bitprecisionen i data och beräkningar. Modeller tränade med 16-bitars precision visades, för första gången, att inte uppvisa någon förlust av noggrannhet i jämförelse med modeller tränade med 32-bitars precision. Under de följande åren, metoden med reducerad precision antogs snabbt som industristandard, med 16-bitars träning och åttabitars slutledning som nu är vanligt, och sporrade en explosion av nystartade företag och riskkapital för reducerade precisionsbaserade digitala AI-chips.
Nästa branschstandard för AI-utbildning
Nästa stora landmärke inom träning med reducerad precision kommer att presenteras på NeurIPS i en artikel med titeln "Training Deep Neural Networks with eight-bit Floating Point Numbers" (författare:Naigang Wang, Jungwook Choi, Daniel Brand, Chia-Yu Chen, Kailash Gopalakrishnan). I det här pappret, ett antal nya idéer har föreslagits för att övervinna tidigare utmaningar (och ortodoxier) förknippade med att minska träningsprecisionen under 16 bitar. Genom att använda dessa nyligen föreslagna metoder, vi har visat, för första gången, förmågan att träna djupinlärningsmodeller med åttabitars precision samtidigt som modellens noggrannhet bevaras i alla större AI-datauppsättningskategorier:bild, Tal, och text. Teknikerna påskyndar träningstiden för djupa neurala nätverk (DNN) med två till fyra gånger jämfört med dagens 16-bitarssystem. Även om det tidigare ansågs omöjligt att ytterligare minska precisionen för träning, vi förväntar oss att denna åttabitars utbildningsplattform kommer att bli en allmänt antagen industristandard under de kommande åren.
Att minska bitprecisionen är en strategi som förväntas bidra till mer effektiva storskaliga maskininlärningsplattformar, och dessa resultat markerar ett betydande steg framåt i att skala AI. Genom att kombinera detta tillvägagångssätt med en anpassad dataflödesarkitektur, en arkitektur med en enda chip kan användas för att effektivt utföra utbildning och slutledning över en rad arbetsbelastningar och nätverk, stora som små. Detta tillvägagångssätt kan också ta emot "minibatcher" av data, krävs för kritiska breda AI-egenskaper utan att kompromissa med prestanda. Att realisera alla dessa funktioner med åttabitars precision för träning öppnar också riket av energieffektiv bred AI vid kanten.
Analoga chips för beräkning i minnet
Tack vare dess låga effektbehov, hög energieffektivitet, och hög tillförlitlighet, analog teknik är en naturlig passform för AI vid kanten. Analoga acceleratorer kommer att underblåsa en färdplan för AI-hårdvaruacceleration bortom gränserna för konventionella digitala metoder. Dock, medan digital AI-hårdvara är i en kapplöpning om att minska precisionen, analog har hittills begränsats av sin relativt låga inneboende precision, påverkar modellens noggrannhet. Vi utvecklade en ny teknik för att kompensera för detta, uppnå den högsta precisionen hittills för ett analogt chip. Vår tidning på IEDM, "8-bitars Precision In-Memory Multiplication with Projected Phase-Change Memory" (författare:Iason Giannopoulos, Abu Sebastian, Manuel Le Gallo, V. P. Jonnalagadda, M. Sousa, M. N. Boon, Evangelos Eleftheriou), visar att denna teknik uppnådde åttabitars precision i en skalär multiplikationsoperation, ungefär fördubbling av noggrannheten hos tidigare analoga chips, och förbrukade 33 gånger mindre energi än en digital arkitektur med liknande precision.
Nyckeln till att minska energiförbrukningen är att ändra datorarkitekturen. Med dagens datorhårdvara, data måste flyttas från minnet till processorer för att användas i beräkningar, vilket tar mycket tid och energi. Ett alternativ är in-memory computing, i vilka minnesenheter månsken som processorer, effektivt gör dubbel plikt av både lagring och beräkning. Detta undviker behovet av att överföra data mellan minne och processor, sparar tid och minskar energibehovet med 90 procent eller mer.
Fasförändringsminne
Vår enhet använder fasförändringsminne (PCM) för beräkning i minnet. PCM registrerar synaptiska vikter i dess fysiska tillstånd längs en gradient mellan amorf och kristallin. Materialets konduktans förändras tillsammans med dess fysiska tillstånd och kan modifieras med hjälp av elektriska pulser. Det är så PCM kan utföra beräkningar. Eftersom tillståndet kan vara var som helst längs kontinuumet mellan noll och ett, det anses vara ett analogt värde, i motsats till ett digitalt värde, som är antingen en nolla eller en etta, inget däremellan.
Vi har förbättrat precisionen och stabiliteten hos de PCM-lagrade vikterna med ett nytt tillvägagångssätt, kallas projicerad PCM (Proj-PCM), där vi infogar ett icke-isolerande projektionssegment parallellt med fasförändringssegmentet. Under skrivprocessen, projektionssegmentet har minimal inverkan på enhetens funktion. Dock, under läsning, konduktansvärden för programmerade tillstånd bestäms mestadels av projektionssegmentet, som är anmärkningsvärt immun mot konduktansvariationer. Detta gör att Proj-PCM-enheter kan uppnå mycket högre precision än tidigare PCM-enheter.
Den förbättrade precisionen som uppnåtts av vårt forskarteam indikerar att in-memory computing kanske kan uppnå högpresterande djupinlärning i miljöer med låg effekt, som IoT och edge-applikationer. Precis som med våra digitala acceleratorer, våra analoga chips är designade för att skala för AI-träning och slutledning över visuella, Tal, och textdatauppsättningar och sträcker sig till framväxande bred AI. Vi kommer att demonstrera ett tidigare publicerat PCM-chip hela veckan på NeurIPS, använder den för att klassificera handskrivna siffror i realtid via molnet.
Den här historien återpubliceras med tillstånd av IBM Research. Läs originalberättelsen här.