ROBE Array kan låta små företag få tillgång till populär form av AI

Rice Universitys datavetare Anshumali Shrivastava (höger) och Aditya Desai skapade ROBE Array, en banbrytande teknik med lågt minne för rekommendationsmodeller för djupinlärning, en populär form av artificiell intelligens som lär sig att ge förslag som användare kommer att tycka är relevanta. Kredit:Jeff Fitlow/Rice University

En banbrytande teknik med lågt minne från Rice Universitys datavetare kan sätta en av de mest resurskrävande formerna av artificiell intelligens – rekommendationsmodeller för djupinlärning (DLRM) – inom räckhåll för små företag.

DLRM-rekommendationssystem är en populär form av AI som lär sig att komma med förslag som användare tycker är relevanta. Men med toppmoderna träningsmodeller som kräver mer än hundra terabyte minne och bearbetning i superdatorskala, har de bara varit tillgängliga för en kort lista över teknikjättar med djupa fickor.

Rice "slumpmässiga offset block inbäddning array," eller ROBE Array, kan ändra det. Det är ett algoritmiskt tillvägagångssätt för att skära ned storleken på DLRM-minnesstrukturer som kallas inbäddningstabeller, och det kommer att presenteras denna vecka på konferensen om maskininlärning och system (MLSys 2022) i Santa Clara, Kalifornien, där den fick enastående utmärkelser i papper.

"Med bara 100 megabyte minne och en enda GPU visade vi att vi kunde matcha träningstiderna och dubbla slutledningseffektiviteten hos toppmoderna DLRM-träningsmetoder som kräver 100 gigabyte minne och flera processorer", säger Anshumali Shrivastava , en docent i datavetenskap vid Rice som presenterar forskningen vid MLSys 2022 med ROBE Arrays medskapare Aditya Desai, en Rice-student i Shrivastavas forskargrupp, och Li Chou, en före detta postdoktor vid Rice som nu befinner sig i West Texas A&M University.

"ROBE Array sätter en ny baslinje för DLRM-komprimering," sa Shrivastava. "Och det ger DLRM inom räckhåll för genomsnittliga användare som inte har tillgång till den avancerade hårdvaran eller den tekniska expertis man behöver för att träna modeller som är hundratals terabyte stora."

DLRM-system är maskininlärningsalgoritmer som lär sig av data. Till exempel skulle ett rekommendationssystem som föreslår produkter för shoppare tränas med data från tidigare transaktioner, inklusive de söktermer som användarna angett, vilka produkter de erbjöds och vilka, om några, de köpte. Ett sätt att förbättra rekommendationernas noggrannhet är att sortera träningsdata i fler kategorier. Till exempel, istället för att placera alla schampon i en enda kategori, kan ett företag skapa kategorier för schampon för män, kvinnor och barn.

För träning är dessa kategoriska representationer organiserade i minnesstrukturer som kallas inbäddningstabeller, och Desai sa att storleken på dessa tabeller "har exploderat" på grund av ökad kategorisering.

"Inbäddningstabeller står nu för mer än 99,9% av det totala minnesavtrycket för DLRM-modeller," sa Desai. "Detta leder till en mängd problem. Till exempel kan de inte tränas på ett rent parallellt sätt eftersom modellen måste delas i bitar och fördelas över flera träningsnoder och GPU:er. Och efter att de är utbildade och i produktion , att leta upp information i inbäddade tabeller står för ungefär 80 % av tiden som krävs för att returnera ett förslag till en användare."

Shrivastava sa att ROBE Array undanröjer behovet av att lagra inbäddningstabeller genom att använda en dataindexeringsmetod som kallas hashing för att skapa "en enda matris av inlärda parametrar som är en komprimerad representation av inbäddningstabellen." Åtkomst till inbäddningsinformation från arrayen kan sedan utföras "med GPU-vänlig universell hashing", sa han.

Shrivastava, Desai och Chou testade ROBE Array med det eftertraktade DLRM MLPerf-riktmärket, som mäter hur snabbt ett system kan träna modeller till ett målkvalitetsmått. Med hjälp av ett antal benchmark-datauppsättningar fann de att ROBE Array kunde matcha eller slå tidigare publicerade DLRM-tekniker när det gäller träningsnoggrannhet även efter att ha komprimerat modellen med tre storleksordningar.

"Våra resultat visar tydligt att de flesta riktmärken för djupinlärning helt kan omkullkastas av grundläggande algoritmer," sa Shrivastava. "Med tanke på den globala chipbristen är detta välkomna nyheter för AIs framtid."

ROBE Array är inte Shrivastavas första stora plask på MLSys. På MLSys 2020 avtäckte hans grupp SLIDE, en "sublinjär djupinlärningsmotor" som kördes på råvaruprocessorer och kunde överträffa GPU-baserade tränare. De följde upp på MLSys 2021 och visade att acceleratorer för vektorisering och minnesoptimering kunde öka SLIDEs prestanda, vilket gör att den kan träna djupa neurala nät upp till 15 gånger snabbare än topp GPU-system. + Utforska vidare

CPU-algoritm tränar djupa neurala nät upp till 15 gånger snabbare än topp-GPU-tränare

Skriv ut, återvinn, upprepa:Forskare demonstrerar en biologiskt nedbrytbar tryckt krets

Utvecklar körsimuleringar som ser mer verklighetstrogna ut

Elektronik

USA anklagar nordkoreaner för regeringen i WannaCry, Sony hackar

Vägtest visar att adaptiv farthållare kan bidra till trafikstockningsproblem

Fake news, det första tillägget och misslyckande på idémarknaden

Vetenskap

Nya effektiva fartyg räcker inte för att stävja sjöfartens miljöskador

Ett lätt vändbart hydrogel-preventivmedel för män

NASA:s ettåriga uppdrag undersöker hur rymden påverkar astronauternas funktionella prestanda