OpenAIs GPT-2-algoritm är bra för att sticka falska nyheter

Kredit:CC0 Public Domain

Falsk. Farlig. Skrämmande. För bra. När rubriker simmar med domar som de då misstänker du, korrekt, att du är i den artificiella intelligensens land, där någon har kommit på ännu en AI-modell.

Så, detta är , GPT-2, en algoritm och, oavsett om det gör en orolig eller förundras, "Det utmärker sig i en uppgift som kallas språkmodellering, " sa Gränsen , "som testar ett programs förmåga att förutsäga nästa ord i en given mening."

Beroende på hur man ser på det, du kan skylla på, eller gratulera, ett team på Kalifornien-baserade OpenAI som skapade GPT-2. Deras språkmodelleringsprogram har skrivit en övertygande uppsats om ett ämne som de inte höll med om.

Hur de gjorde det:De matade den med textuppmaningar. Den kunde slutföra påhittade meningar och stycken. Deras modell tränades för att förutsäga nästa ord i Internettext, sa OpenAI-blogginlägget.

David Luan, VP of engineering vid California lab, berättade vad som hände Gränsen . Teamet bestämde sig för att be dem "för att argumentera för en punkt som de trodde var kontraintuitiv. I det här fallet:varför återvinning är dåligt för världen." Resultatet:En läraren tilltalande, välmotiverad uppsats, "något du kunde ha lämnat in till US SAT och få ett bra betyg på, sa Luan.

Däri ligger anledningen till att vissa människor som oroar sig över Armageddon med robotar kanske inte sover så bra på natten. Ge det en falsk rubrik, sa James Vincent in Gränsen , och det kommer att gå iväg för att skriva resten av artikeln.

"Vi började testa det, och upptäckte snabbt att det är möjligt att skapa skadligt innehåll ganska enkelt, sa Jack Clark, policy director på OpenAI, i MIT Technology Review . Falska citat? Inga problem. Falsk statistik? Gjort.

Vincent tillade, det fanns en annan anledning till att GPT-2 fick rampljuset. Det märktes också för sin flexibilitet. Att skriva falska uppsatser var inte den enda förmågan; det kan också göra några andra uppgifter:"översätta text från ett språk till ett annat, sammanfattar långa artiklar, och svara på triviafrågor, sa Vincent.

Allt som allt, OpenAI-bloggen som lades ut på torsdagen sammanfattade vad de har gjort. Notera deras sista ord, utan uppgiftsspecifik utbildning:

"Vi har tränat en storskalig oövervakad språkmodell som genererar sammanhängande textstycken, uppnår toppmodern prestanda på många riktmärken för språkmodellering, och utför rudimentär läsförståelse, maskinöversättning, fråga svarar, och sammanfattning - allt utan uppgiftsspecifik utbildning."

Detta är "nollskottssektorn" inom AI-forskning.

"Vår modell är inte utbildad på någon av de data som är specifik för någon av dessa uppgifter och utvärderas endast på dem som ett sluttest; detta är känt som "nollskott"-inställningen. GPT-2 överträffar modeller som tränats på domänspecifika datauppsättningar (t.ex. Wikipedia, Nyheter, böcker) när de utvärderas på samma datamängder." Programmet känner igen mönster i data som det matas; Knight skrev att "i motsats till de flesta språkalgoritmer, OpenAI-programmet kräver inte märkt eller kurerad text."

Teamet sa att deras system satte rekord för prestanda på så kallade Winograd-scheman, en tuff läsförståelseuppgift; uppnår nästan mänskliga prestationer på barnbokstestet, ytterligare en kontroll av läsförståelsen; och genererar sin egen text, inklusive mycket övertygande nyhetsartiklar och Amazon-recensioner, enligt Vox .

Bloomberg vände sig till Sam Bowman, en datavetare vid New York University som är specialiserad på naturlig språkbehandling. Bowman var inte en del av OpenAI-projektet, har precis informerat om det. ""Den kan göra saker som är kvalitativt mycket mer sofistikerade än något vi har sett tidigare."

I slutet, vad har vi här? Har de skapat ett genombrott eller ett monster?

Lägger till lite perspektiv, Kommer riddare in MIT Technology Review sa att sådan teknik kan ha fördelaktiga användningsområden, som att sammanfatta text eller förbättra chatbotarnas konversationsförmåga. Också, en expert på bearbetning av naturliga språk och chefsforskaren på Salesforce såg detta OpenAI-arbete som ett exempel på ett mer allmänt ändamålsenligt språkinlärningssystem. Richard Socher, experten, kommenterade risken för bedrägeri och desinformation. "Du behöver inte AI för att skapa falska nyheter, " sa han. "Folk kan lätt göra det :)"

Ändå, "OpenAI går försiktigt med avtäckningen av GPT-2, " skrev Vincent. "Till skillnad från de flesta betydande forskningsmilstolpar inom AI, labbet kommer inte att dela datamängden det använde för att träna algoritmen eller all kod den körs på (även om det har gett tillfällig åtkomst till algoritmen till ett antal mediapublikationer, Inklusive Gränsen )."

Teamet sa i sitt blogginlägg. "På grund av vår oro över skadliga tillämpningar av tekniken, vi släpper inte den utbildade modellen. Som ett experiment i ansvarsfullt avslöjande, vi släpper istället en mycket mindre modell för forskare att experimentera med, samt ett tekniskt papper."

Specifikt, de sa att de bara släppte en mycket mindre version av GPT-2 tillsammans med samplingskod. "Vi släpper inte datamängden, träningskod, eller GPT-2 modellvikter."

OpenAI föredrar att prata om faror innan de anländer. Jack Clark, policy director på OpenAI pratade om språkmodelleringsalgoritmer som GPT-2. "Vår hypotes är att det kan bli en bättre och säkrare värld om du pratar om [dessa faror] innan de anländer, " han sa.

GPT-2 tränades på ett dataset med miljontals webbsidor. Dave Lee, Nordamerikas teknologireporter, BBC, lade till den "oövervakade" naturen hos vad de skapade, så att den inte behövde omskolas för att flytta till ett annat ämne.

Lä, samtidigt som de erkänner att deras arbete var imponerande realistiskt när det fungerade bra, uppmärksammade brister också.

"AI:n genererar berättelsen ord för ord. Den resulterande texten är ofta sammanhängande, men sällan sanningsenliga – alla citat och tillskrivningar är påhittade. Meningarna är baserade på information som redan publicerats på nätet, men sammansättningen av den informationen är avsedd att vara unik. Ibland spottar systemet ur sig textstycken som inte är särskilt vettiga strukturellt, eller innehåller skrattretande felaktigheter."

Skrattande nu, men kommer AI:n att förbättras med tiden? Enligt Knight, Clark sa att det kanske inte dröjer länge förrän de falska historierna som producerats av AI var mer övertygande. "Det är väldigt tydligt att om den här tekniken mognar - och jag skulle ge den ett eller två år - kan den användas för desinformation eller propaganda, sa Clark, och "Vi försöker komma före detta."

Ändrade datamängder kan fortfarande ge statistisk integritet och bevara integriteten

Samsung kommer att lansera amerikanska butiker i smartphone push

Elektronik

Eversource ger upp på Northern Pass vattenkraftprojekt

Apple ber om ursäkt för användning av entreprenörer för att avlyssna Siri

Attacker på 4G LTE -nätverk kan skicka falska nödvarningar

Vetenskap

Snooze mobiler:Hur vibrationer i bilar gör förare sömniga

Novartis planerar spin-off av Alcon, 5 miljarder dollar återköp av aktier

Borrningen kommer att sluta på kontroversiella oljebrunn 150 mil från södra Florida efter att företaget funnit brunnen för torr