Hur exakt kan du profileras online? Kredit:Andrew Krasovitckii/Shutterstock.com
Forskaren vars arbete står i centrum för Facebook-Cambridge Analyticas dataanalys och politiska reklamuppståndelse har avslöjat att hans metod fungerade ungefär som den som Netflix använder för att rekommendera filmer.
I ett mejl till mig, Cambridge University-forskaren Aleksandr Kogan förklarade hur hans statistiska modell behandlade Facebook-data för Cambridge Analytica. Den noggrannhet han hävdar tyder på att det fungerar ungefär lika bra som etablerade metoder för väljarinriktning baserade på demografi som ras, ålder och kön.
Om det bekräftas, Kogans redogörelse skulle betyda att den digitala modelleringen som Cambridge Analytica använde knappast var den virtuella kristallkula som ett fåtal har hävdat. Ändå visar siffrorna Kogan också vad som är – och inte är – faktiskt möjligt genom att kombinera personuppgifter med maskininlärning för politiska syften.
När det gäller en viktig allmän angelägenhet, fastän, Kogans siffror tyder på att information om användarnas personligheter eller "psykografi" bara var en blygsam del av hur modellen riktade sig till medborgare. Det var strängt taget inte en personlighetsmodell, utan snarare en som kokade ner demografin, sociala influenser, personlighet och allt annat till en stor korrelerad klump. Detta tillvägagångssätt för att suga upp-allt-korrelationen-och-kalla-det-personlighet verkar ha skapat ett värdefullt kampanjverktyg, även om produkten som såldes inte var riktigt som den fakturerades.
Löftet om personlighetsinriktning
I kölvattnet av avslöjanden att Trumps kampanjkonsult Cambridge Analytica använde data från 50 miljoner Facebook-användare för att rikta in sig på digital politisk reklam under det amerikanska presidentvalet 2016, Facebook har tappat miljarder i börsvärde, regeringar på båda sidor av Atlanten har inlett utredningar, och en begynnande social rörelse uppmanar användare att #RaderaFacebook.
Men en nyckelfråga har förblivit obesvarad:kunde Cambridge Analytica verkligen rikta kampanjbudskap till medborgare baserat på deras personlighetsegenskaper – eller till och med deras "inre demoner, " som en företagsvistelblåsare påstås?
Om någon skulle veta vad Cambridge Analytica gjorde med sin enorma mängd Facebook-data, det skulle vara Aleksandr Kogan och Joseph Chancellor. Det var deras startup Global Science Research som samlade in profilinformation från 270, 000 Facebook-användare och tiotals miljoner av deras vänner använder en personlighetstestapp som heter "thisisyourdigitallife".
En del av min egen forskning fokuserar på att förstå metoder för maskininlärning, och min kommande bok diskuterar hur digitala företag använder rekommendationsmodeller för att bygga publik. Jag hade en aning om hur Kogan och Chancellors modell fungerade.
Så jag mailade Kogan för att fråga. Kogan är fortfarande forskare vid Cambridge University; hans samarbetspartner kansler arbetar nu på Facebook. I en anmärkningsvärd uppvisning av akademisk artighet, svarade Kogan.
Hans svar kräver lite uppackning, och lite bakgrund.
Från Netflix-priset till "psykometri"
Tillbaka 2006, när det fortfarande var ett DVD-per-postföretag, Netflix erbjöd en belöning på 1 miljon dollar till alla som utvecklat ett bättre sätt att göra förutsägelser om användarnas filmrankningar än vad företaget redan hade. En överraskande toppkonkurrent var en oberoende mjukvaruutvecklare som använde pseudonymen Simon Funk, vars grundläggande tillvägagångssätt till slut införlivades i alla topplagens bidrag. Funk anpassade en teknik som kallas "singular value decomposition, "kondensera användarnas betyg av filmer till en rad faktorer eller komponenter - i huvudsak en uppsättning antagna kategorier, rangordnas efter betydelse. Som Funk förklarade i ett blogginlägg, "Så, till exempel, en kategori kan representera actionfilmer, med filmer med mycket action i toppen, och långsamma filmer längst ner, och motsvarande användare som gillar actionfilmer i toppen, och de som föredrar långsamma filmer i botten."
Faktorer är artificiella kategorier, som inte alltid liknar den typ av kategorier människor skulle komma med. Den viktigaste faktorn i Funks tidiga Netflix-modell definierades av användare som älskade filmer som "Pearl Harbor" och "The Wedding Planner" samtidigt som de hatade filmer som "Lost in Translation" eller "Eternal Sunshine of the Spotless Mind". Hans modell visade hur maskininlärning kan hitta samband mellan grupper av människor, och grupper av filmer, som människor själva aldrig skulle få syn på.
Funks allmänna tillvägagångssätt använde de 50 eller 100 viktigaste faktorerna för både användare och filmer för att göra en anständig gissning om hur varje användare skulle betygsätta varje film. Den här metoden, ofta kallad dimensionsreduktion eller matrisfaktorisering, var inte ny. Statsvetenskapliga forskare hade visat att liknande tekniker med hjälp av röstdata med namnupprop kunde förutsäga kongressledamöternas röster med 90 procents noggrannhet. Inom psykologin hade "Big Five"-modellen också använts för att förutsäga beteende genom att gruppera personlighetsfrågor som tenderade att besvaras på liknande sätt.
Fortfarande, Funks modell var ett stort framsteg:det gjorde att tekniken fungerade bra med enorma datamängder, även de med mycket saknad data – som Netflix dataset, där en typisk användare bara betygsatte några dussin filmer av tusentals i företagets bibliotek. Mer än ett decennium efter att Netflix-pristävlingen avslutades, SVD-baserade metoder, eller relaterade modeller för implicit data, är fortfarande det bästa verktyget för många webbplatser för att förutsäga vad användare kommer att läsa, Kolla på, eller köp.
Dessa modeller kan förutsäga andra saker, för.
Facebook vet om du är republikan
Under 2013, Cambridge University forskare Michal Kosinski, David Stillwell och Thore Graepel publicerade en artikel om Facebook-datas prediktiva kraft, använda information som samlats in genom ett personlighetstest online. Deras första analys var nästan identisk med den som användes på Netflix-priset, använder SVD för att kategorisera både användare och saker de "gillade" i de 100 bästa faktorerna.
Tidningen visade att en faktormodell gjord med enbart användarnas Facebook "gilla" var 95 procent korrekt när det gällde att skilja mellan svarta och vita svarande, 93 procent exakt när det gäller att skilja män från kvinnor, och 88 procent korrekt på att skilja personer som identifierats som homosexuella män från män som identifierats som hetero. Det kunde till och med korrekt skilja republikaner från demokrater 85 procent av tiden. Det var också användbart, fast inte lika exakt, för att förutsäga användarnas poäng på personlighetstestet "Big Five".
Det blev offentligt ramaskri som svar; inom några veckor hade Facebook gjort användarnas gilla-markeringar privata som standard.
Kogan och kansler, även Cambridge University forskare vid den tiden, började använda Facebook-data för valinriktning som en del av ett samarbete med Cambridge Analyticas moderbolag SCL. Kogan bjöd in Kosinski och Stillwell att gå med i hans projekt, men det gick inte. Kosinski misstänkte enligt uppgift att Kogan och förbundskanslern kan ha reverse-konstruerat Facebook "gilla"-modellen för Cambridge Analytica. Kogan förnekade detta, han sa att hans projekt "byggde alla våra modeller med hjälp av vår egen data, samlas in med vår egen programvara."
Vad gjorde Kogan och kanslern egentligen?
När jag följde utvecklingen i berättelsen, det blev tydligt att Kogan och Chancellor verkligen hade samlat in massor av sina egna data genom appen thisisyourdigitallife. De kunde verkligen ha byggt en prediktiv SVD-modell som den som presenterades i Kosinskis och Stillwells publicerade forskning.
Så jag mailade Kogan för att fråga om det var det han hade gjort. Något till min förvåning, skrev han tillbaka.
"Vi använde inte precis SVD, " han skrev, noterar att SVD kan kämpa när vissa användare har många fler "gillar" än andra. Istället, Kogan förklarade, "Tekniken var något vi faktiskt utvecklade själva ... Det är inte något som är offentligt." Utan att gå in på detaljer, Kogan beskrev deras metod som "en multi-step co-occurrence approach."
Dock, hans meddelande fortsatte med att bekräfta att hans tillvägagångssätt verkligen liknade SVD eller andra matrisfaktoriseringsmetoder, som i Netflix-pristävlingen, och Facebook-modellen Kosinki-Stillwell-Graepel. Dimensionalitetsreduktion av Facebook-data var kärnan i hans modell.
Hur exakt var det?
Kogan föreslog att den exakta modellen som används inte spelar så stor roll, dock – det som spelar roll är riktigheten i dess förutsägelser. Enligt Kogan, "korrelationen mellan förutspådda och faktiska poäng ... var runt [30 procent] för alla personlighetsdimensioner." Som jämförelse, en persons tidigare Big Five-poäng är cirka 70 till 80 procent korrekta när det gäller att förutsäga sina poäng när de gör om testet.
Kogans påståenden om riktighet kan inte verifieras oberoende, självklart. Och vem som helst som befinner sig mitt i en sådan högprofilerad skandal kan ha incitament att underskatta hans eller hennes bidrag. I sitt framträdande på CNN, Kogan förklarade för en alltmer vantro Anderson Cooper att, faktiskt, modellerna hade faktiskt inte fungerat särskilt bra.
Faktiskt, noggrannheten som Kogan hävdar verkar lite låg, men rimligt. Kosinski, Stillwell och Graepel rapporterade jämförbara eller något bättre resultat, liksom flera andra akademiska studier som använder digitala fotspår för att förutsäga personlighet (även om vissa av dessa studier hade mer data än bara Facebook-gilla-markeringar). Det är förvånande att Kogan och Chancellor skulle göra sig besväret med att designa sin egen proprietära modell om standardlösningar verkar vara lika exakta.
Viktigt, fastän, modellens noggrannhet på personlighetspoäng möjliggör jämförelser av Kogans resultat med annan forskning. Publicerade modeller med likvärdig noggrannhet i att förutsäga personlighet är alla mycket mer exakta när det gäller att gissa demografiska och politiska variabler.
Till exempel, den liknande Kosinski-Stillwell-Graepel SVD-modellen var 85 procent korrekt i att gissa partitillhörighet, även utan att använda någon annan profilinformation än gilla-markeringar. Kogans modell hade liknande eller bättre noggrannhet. Att lägga till ens en liten mängd information om vänner eller användares demografi skulle sannolikt öka denna noggrannhet över 90 procent. gissningar om kön, lopp, sexuell läggning och andra egenskaper skulle förmodligen också vara mer än 90 procent korrekta.
Kritiskt, dessa gissningar skulle vara särskilt bra för de mest aktiva Facebook-användarna – de personer som modellen främst användes för att rikta in sig på. Användare med mindre aktivitet att analysera finns sannolikt inte så mycket på Facebook i alla fall.
När psykografi är mestadels demografi
Att veta hur modellen är uppbyggd hjälper till att förklara Cambridge Analyticas uppenbarligen motsägelsefulla uttalanden om den roll – eller bristen på sådan – som personlighetsprofilering och psykografi spelade i dess modellering. De är alla tekniskt förenliga med vad Kogan beskriver.
En modell som Kogans skulle ge uppskattningar för varje variabel tillgänglig för vilken grupp av användare som helst. Det betyder att det automatiskt skulle uppskatta de fem stora personlighetspoängen för varje väljare. Men dessa personlighetspoäng är resultatet av modellen, inte ingången. Allt som modellen vet är att vissa Facebook gillar, och vissa användare, tenderar att grupperas ihop.
Med denna modell, Cambridge Analytica could say that it was identifying people with low openness to experience and high neuroticism. But the same model, with the exact same predictions for every user, could just as accurately claim to be identifying less educated older Republican men.
Kogan's information also helps clarify the confusion about whether Cambridge Analytica actually deleted its trove of Facebook data, when models built from the data seem to still be circulating, and even being developed further.
The whole point of a dimension reduction model is to mathematically represent the data in simpler form. It's as if Cambridge Analytica took a very high-resolution photograph, resized it to be smaller, and then deleted the original. The photo still exists – and as long as Cambridge Analytica's models exist, the data effectively does too.
Denna artikel publicerades ursprungligen på The Conversation. Läs originalartikeln.