Har AI-system verkligen ett eget hemligt språk?

Kredit:Giannis Daras / DALL-E

En ny generation av modeller med artificiell intelligens (AI) kan producera "kreativa" bilder på begäran baserat på en textuppmaning. Sådana som Imagen, MidJourney och DALL-E 2 börjar förändra sättet att skapa kreativt innehåll med konsekvenser för upphovsrätt och immateriella rättigheter.

Även om resultatet av dessa modeller ofta är slående, är det svårt att veta exakt hur de ger sina resultat. Förra veckan gjorde forskare i USA det spännande påståendet att DALL-E 2-modellen kan ha uppfunnit sitt eget hemliga språk för att prata om föremål.

Genom att uppmana DALL-E 2 att skapa bilder som innehåller texttexter och sedan mata in de resulterande (snabbar) bildtexterna tillbaka till systemet, drog forskarna slutsatsen att DALL-E 2 tror att Vicootes betyder "grönsaker", medan Wa ch zod rea hänvisar till "havsdjur att en val kan äta".

Dessa påståenden är fascinerande, och om de stämmer, kan de ha viktiga konsekvenser för säkerhet och tolkning av den här typen av stora AI-modeller. Så vad exakt är på gång?

Har DALL-E 2 ett hemligt språk?

DALL-E 2 har förmodligen inget "hemligt språk". Det kan vara mer korrekt att säga att den har sin egen vokabulär – men även då kan vi inte veta säkert.

Först och främst är det i det här skedet mycket svårt att verifiera några påståenden om DALL-E 2 och andra stora AI-modeller, eftersom endast en handfull forskare och kreativa utövare har tillgång till dem. Alla bilder som delas offentligt (på Twitter till exempel) bör tas med en ganska stor nypa salt, eftersom de har "plockats" av en människa bland många utgående bilder som genererats av AI.

Även de med tillgång kan bara använda dessa modeller på begränsade sätt. Till exempel kan DALL-E 2-användare generera eller modifiera bilder, men kan (ännu) inte interagera med AI-systemet djupare, till exempel genom att modifiera bakom-kulisserna-koden. Det betyder att "förklarliga AI"-metoder för att förstå hur dessa system fungerar inte kan tillämpas, och att systematiskt undersöka deras beteende är en utmaning.

Vad händer då?

En möjlighet är att fraserna är relaterade till ord från icke-engelska språk. Till exempel liknar Apoploe, som verkar skapa bilder av fåglar, det latinska Apodidae, som är det binomala namnet på en familj av fågelarter.

Detta verkar vara en rimlig förklaring. DALL-E 2 tränades till exempel på ett mycket brett utbud av data som skrapats från internet, som inkluderade många icke-engelska ord.

Liknande saker har hänt tidigare:stora AI-modeller med naturligt språk har av en slump lärt sig att skriva datorkod utan avsiktlig träning.

Handlar allt om tokens?

En punkt som stöder denna teori är det faktum att AI-språkmodeller inte läser text som du och jag gör. Istället delar de upp inmatad text i "tokens" innan de bearbetar den.

Olika "tokenization"-metoder har olika resultat. Att behandla varje ord som en token verkar vara ett intuitivt tillvägagångssätt, men orsakar problem när identiska tokens har olika betydelser (som hur "match" betyder olika saker när du spelar tennis och när du startar en eld).

Å andra sidan, att behandla varje karaktär som en token ger ett mindre antal möjliga tokens, men var och en förmedlar mycket mindre meningsfull information.

DALL-E 2 (och andra modeller) använder en däremellan metod som kallas byte-pair encoding (BPE). Att inspektera BPE-representationerna för några av de floskelord tyder på att detta kan vara en viktig faktor för att förstå det "hemliga språket".

Inte hela bilden

Det "hemliga språket" skulle också bara kunna vara ett exempel på principen "skräp in, skräp ut". DALL-E 2 kan inte säga "Jag vet inte vad du pratar om", så det kommer alltid att generera någon form av bild från den givna inmatningstexten.

Hur som helst, inget av dessa alternativ är fullständiga förklaringar av vad som händer. Till exempel tycks det som om att ta bort enskilda tecken från skrattord korrumperar de genererade bilderna på mycket specifika sätt. Och det verkar som om enskilda skrattord inte nödvändigtvis kombineras för att producera sammanhängande sammansatta bilder (som de skulle göra om det verkligen fanns ett hemligt "språk" under täcket).

Varför detta är viktigt

Utöver intellektuell nyfikenhet kanske du undrar om något av detta verkligen är viktigt.

Svaret är ja. DALL-E:s "hemliga språk" är ett exempel på en "motstridig attack" mot ett maskininlärningssystem:ett sätt att bryta systemets avsedda beteende genom att avsiktligt välja ingångar som AI inte hanterar bra.

En anledning till att motstridiga attacker är oroande är att de utmanar vårt förtroende för modellen. Om AI:n tolkar skrattord på oavsiktliga sätt, kan den också tolka meningsfulla ord på oavsiktliga sätt.

Motstridiga attacker väcker också säkerhetsproblem. DALL-E 2 filtrerar inmatad text för att förhindra användare från att generera skadligt eller kränkande innehåll, men ett "hemligt språk" med skrattord kan tillåta användare att kringgå dessa filter.

Ny forskning har upptäckt motstridiga "triggerfraser" för vissa AI-språkmodeller - korta nonsensfraser som "zoning tapping fiennes" som på ett tillförlitligt sätt kan trigga modellerna att spy ut rasistiskt, skadligt eller partiskt innehåll. Denna forskning är en del av det pågående arbetet med att förstå och kontrollera hur komplexa system för djupinlärning lär sig av data.

Slutligen, fenomen som DALL-E 2:s "hemliga språk" väcker tolkningsproblem. Vi vill att de här modellerna ska bete sig som människan förväntar sig, men att se strukturerad produktion som svar på skratt förvirrar våra förväntningar.

Sätta ett ljus på befintliga problem

Du kanske minns skrället 2017 över några Facebook-chatbotar som "uppfann sitt eget språk". Den nuvarande situationen är likartad genom att resultaten är oroande – men inte i bemärkelsen "Skynet kommer att ta över världen".

Istället belyser DALL-E 2:s "hemliga språk" befintliga farhågor om robustheten, säkerheten och tolkningsbarheten hos system för djupinlärning.

Tills dessa system är mer allmänt tillgängliga – och i synnerhet tills användare från en bredare uppsättning icke-engelsk kulturbakgrund kan använda dem – kommer vi inte att kunna riktigt veta vad som händer.

Men under tiden, om du vill prova att generera några av dina egna AI-bilder kan du kolla in en fritt tillgänglig mindre modell, DALL-E mini. Var bara försiktig med vilka ord du använder för att uppmana modellen (engelska eller floskel – ditt samtal).

Hur kommer vattenkraft att stärka en värld av förnybar energi?

FÖLLER:Går Elon Musks överens om att köpa Twitter?

Elektronik

Läderplånböcker, lösa byten utgör fara för nya Apple-kort

Varför är tv-apparater så billiga nu? Väl, din smarta TV tittar på dig och tjänar extra pengar, för

Alibaba slår ännu ett Singles Day-rekord men tillväxten avtar

Vetenskap

Supercomputing dynamiska jordbävningsbrottsmodeller

Experiment på YouTube avslöjar potential att inokulera miljontals användare mot felaktig information

En rekordlång polymer DNA-negativ