Dalí-planeten. Kredit:Dalí-museet
En besökare på Dalí-museet i St Petersburg, Florida trycker på en dörrklocka bredvid en mörk skärm i naturlig storlek. En mörklagd figur klädd i en snygg kostym och med pennmustasch lämnar sakta sitt staffli och kommer mot henne i ljuset.
Det är, självklart, Salvador Dali, som tittar på besökaren och berättar om sin konst och sitt museum. När besökaren ska gå, han dyker upp igen. Han frågar om hon vill ha en bild, piska sedan fram sin mobiltelefon och tar en selfie med henne.
Det fascinerande med det här mötet är att det faktiskt är Dalí själv. Hur är det möjligt att den store spanske surrealisten kan interagera med medlemmar av allmänheten år efter sin död, även använda en telefon som inte fanns när han levde? Välkommen till en värld av deepfakes, en oroande teknik med stor potential att lura – och även några oväntat positiva användningsområden.
Deepfakes är en kraftfull ny teknik för att skapa realistiskt men ändå falskt video- eller ljudinnehåll. Att blåsa liv i Dalí, museet använde djupinlärning för att göra det möjligt för en dator att sömlöst utbyta ansiktet på en levande skådespelare som klädde sig och betedde sig som Dalí med en digitalt genererad bild av konstnärens ansikte och uttryck.
Detta involverar en "träningsprocess" där avancerade maskininlärningsalgoritmer sållar igenom bilder på Dalí och skådespelaren för att lära sig att generera nya verkliga ansiktsbilder av båda männen. Den lär sig också att ta en befintlig bild av endera mannen och generera en bild av den andra som perfekt matchar ansiktsuttrycken och huvudhållningen hos den första.
Detta gör det möjligt att skapa Dalí-ansikten som matchar skådespelarens rörelser, som sedan automatiskt infogas i den nya videon – vilket skapar en illusion av Dalí själv. Det finns mer information här för den som är intresserad.
Möjligheten knackar på
Hittills, de flesta producenter av deepfakes har utnyttjat den mörka sidan av tekniken. Detta har sträckt sig från satir, som detta aprilskämt-klipp som visar Mark Zuckerberg som tillkännager att han tar bort Facebook; till ryktesskadande filmer av Hollywoodstjärnor som påstås spela huvudrollen i porrfilmer; till bedrägeri, som att efterlikna en verkställande direktörs röst för att begära överföring av en stor summa pengar.
Riskerna från deepfakes är obestridliga. Ändå illustrerar Dalí-exemplet att det är omöjligt att vara svartvit om denna teknik. I vår forskning, vi grupperar deepfakes i fem kategorier:röstbyte, text till tal, video ansiktsbyte, dockteater för hela kroppen och läppsynkronisering. I varje kategori, vi ser tydliga affärsmöjligheter. Vissa återstår att förverkliga medan andra redan förverkligas.
1. Ventriloquism 2.0
Röstbyte kan ändra en persons röst eller få den att imitera någon annans. Det kan manipuleras för att låta yngre eller äldre, man eller kvinna, och med olika dialekter eller accenter. Möjliga användningsområden inkluderar en ljudboksberättare som talar med olika karaktärers röster, eller att använda en känd person som berättare utan att de behöver besväret att läsa upp hela historien.
Det öppnar också fascinerande möjligheter för virtuella assistenter som Siri. Istället för att behöva spela in röstskådespelare med olika accenter och kön, ljudröstbyte gör det möjligt att göra detta med bara en röst – känner någon att en storsäljande app kommer?
2. Ge röster tillbaka
Det har varit möjligt i många år att få en dator att tala genom att skriva in text i en applikation. Nu finns deepfake-tekniken för att göra detta med en viss persons röst även där de inte tidigare har spelat in orden i fråga. Detta håller på att bli en livsförändrande teknologi för människor som har förlorat förmågan att tala begripligt, till exempel de som har haft stroke eller har en progressiv sjukdom som amyotrofisk lateralskleros—se klippet nedan.
Andra möjliga användningsområden för denna ljud-text-till-tal-teknik inkluderar att korrigera fel uttalade ord i en voiceover snarare än att behöva få personen att spela in det igen.
3. "Pratar du med mig?"
Som vi såg med Dalí-exemplet, video ansiktsbyte kan ersätta ansiktet på en person i en video med ansiktet på någon annan. Detta har stor potential i filmerna.
Till exempel, en professionell deepfake-konstnär har visat hur liknande tekniker som Dalí-museet kunde ha använts för att avåldra Robert De Niro i The Irishman, snarare än den dyra och tidskrävande CGI som hjälpte till att driva filmens totala produktionskostnad till 175 miljoner USD (135 miljoner pund). Klippet nedan visar hur deepfake-teknik kan uppnå liknande kvalitet. En annan möjlig användning av denna teknik är mer verklighetstrogna stuntdubblar.
4. Spela på
Videodockor för hela kroppen kan överföra rörelse från en persons kropp till en annans kropp. Möjliga användningsområden inkluderar mer uppslukande videospel där spelare kan sätta sig in i handlingen, med sina egna gång- och rörelseegenskaper; och filmer där icke-dansande skådespelare till synes kan dansa med hjälp av filmer från professionella dansare.
5. Undertexter RIP
Läppsynkronisering av ljud och video kan ändra munrörelser och talade ord i en video. Det kommer snart att vara möjligt att göra kostnadseffektiva, översättningar av filmer av hög kvalitet, TV-program och andra videor. En tränad algoritm skulle imitera den ursprungliga skådespelarens röst men på ett annat språk, med läpprörelsen i synk med de nya orden.
Så även om det är uppenbart att deepfakes kan och används skadligt, samma djupinlärningsteknologi öppnar också upp för många innovativa affärsapplikationer. Många kreativa och produktiva möjligheter blir uppenbara – och utan tvekan många andra som folk inte ens har sett än.
Den här artikeln är återpublicerad från The Conversation under en Creative Commons-licens. Läs originalartikeln.