Att ta itu med problem med fördomar i artificiell intelligens, datavetare från Princeton och Stanford University har föreslagit förbättringar av ImageNet, en databas med mer än 14 miljoner bilder. Forskarna utvecklade ett verktyg som gör det möjligt för användare att specificera och hämta bilduppsättningar av människor som är balanserade efter ålder, könsuttryck eller hudfärg. Animationen ovan är en begreppsmässig representation av verktyget. Upphovsman:Ryan Rizzuto
Att ta itu med problem med fördomar i artificiell intelligens, datavetare från Princeton och Stanford University har utvecklat metoder för att få rättvisare datamängder som innehåller bilder av människor. Forskarna föreslår förbättringar av ImageNet, en databas med mer än 14 miljoner bilder som har spelat en nyckelroll för att förbättra datorns syn under det senaste decenniet.
ImageNet, som inkluderar bilder av föremål och landskap samt människor, fungerar som en källa för utbildningsdata för forskare som skapar maskininlärningsalgoritmer som klassificerar bilder eller känner igen element i dem. ImageNets oöverträffade skala krävde automatisk bildinsamling och bildannotering med massor. Även om databasens personkategorier sällan har använts av forskarsamhället, ImageNet -teamet har arbetat med att ta itu med fördomar och andra farhågor om bilder med människor som är oavsiktliga konsekvenser av ImageNets konstruktion.
"Datorsyn fungerar nu riktigt bra, vilket innebär att den distribueras överallt i alla möjliga sammanhang, "sa medförfattaren Olga Russakovsky, en biträdande professor i datavetenskap vid Princeton. "Det betyder att det nu är dags att prata om vilken typ av inverkan det har på världen och tänka på denna typ av rättvisefrågor."
I ett nytt papper, ImageNet-teamet identifierade systematiskt icke-visuella koncept och stötande kategorier, såsom ras- och sexuella karakteriseringar, bland ImageNets personkategorier och föreslog att ta bort dem från databasen. Forskarna utformade också ett verktyg som gör det möjligt för användare att specificera och hämta bilduppsättningar av människor som är balanserade efter ålder, könsuttryck eller hudfärg - med målet att underlätta algoritmer som mer rättvist klassificerar människors ansikten och aktiviteter i bilder. Forskarna presenterade sitt arbete den 30 januari vid Association for Computing Machinery's Conference on Fairness, Ansvar och öppenhet i Barcelona, Spanien.
"Det finns ett stort behov av forskare och laboratorier med kärnteknisk expertis inom detta för att delta i den här typen av konversationer, "sa Russakovsky." Med tanke på den verklighet som vi behöver för att samla in data i stor skala, med tanke på verkligheten att det kommer att göras med crowdsourcing eftersom det är den mest effektiva och väletablerade pipeline, hur gör vi det på ett rättvisare sätt - som inte faller i den här typen av tidigare fallgropar? Kärnbudskapet i detta dokument handlar om konstruktiva lösningar. "
En grupp datavetare vid Princeton och Stanford lanserade ImageNet 2009 som en resurs för akademiska forskare och utbildare. Ledande insatsen var Princetons alumna och fakultetsmedlem Fei-Fei Li, nu professor i datavetenskap vid Stanford. För att uppmuntra forskare att bygga bättre datorsynalgoritmer med ImageNet, laget skapade också ImageNet Large Scale Visual Recognition Challenge. Utmaningen fokuserade till stor del på objektigenkänning med hjälp av 1, 000 bildkategorier, varav bara tre personer.
Några av rättviseproblemen i ImageNet härrör från pipelinen som används för att bygga databasen. Dess bildkategorier kom från WordNet, en äldre databas med engelska ord som används för forskning om naturligt språk. ImageNets skapare antog substantiven i WordNet - varav några, även om de är klart definierade verbala termer, översätt inte bra till ett visuellt ordförråd. Till exempel, termer som beskriver en persons religion eller geografiska ursprung kan hämta endast de mest distinkta bildsökresultaten, potentiellt leder till algoritmer som vidmakthåller stereotyper.
Ett nyligen genomfört konstprojekt med namnet ImageNet Roulette väckte ökad uppmärksamhet åt dessa problem. Projektet, släpptes i september 2019 som en del av en konstutställning om bildigenkänningssystem, använde bilder av människor från ImageNet för att träna en artificiell intelligensmodell som klassificerade människor i ord baserat på en inlämnad bild. Användare kan ladda upp en bild av sig själva och hämta en etikett baserad på denna modell. Många av klassificeringarna var stötande eller helt enkelt off-base.
Den centrala innovationen som gjorde det möjligt för ImageNets skapare att samla en så stor databas med märkta bilder var användningen av crowdsourcing - specifikt, Amazon Mechanical Turk (MTurk) plattform, genom vilka arbetare betalades för att verifiera kandidatbilder. Detta tillvägagångssätt, medan den är transformativ, var ofullkomlig, vilket leder till vissa fördomar och olämpliga kategoriseringar.
"När du ber människor att verifiera bilder genom att välja de rätta från en stor uppsättning kandidater, människor känner sig pressade att välja några bilder och dessa bilder tenderar att vara de med distinkta eller stereotypa egenskaper, "sa huvudförfattaren Kaiyu Yang, en doktorand i datavetenskap.
I studien, Yang och kollegor filtrerade först ut potentiellt stötande eller känsliga personkategorier från ImageNet. De definierade stötande kategorier som de som innehåller svordomar eller ras- eller könsförtal; känsliga kategorier ingår, till exempel, klassificeringen av människor baserat på sexuell läggning eller religion. För att kommentera kategorierna, de rekryterade 12 doktorander med olika bakgrund, instruera dem att ta fel när de märker en kategori som känslig om de är osäkra. Detta eliminerade 1, 593 kategorier - cirka 54% av de 2, 932 personkategorier i ImageNet.
Forskarna vände sig sedan till MTurk -arbetare för att betygsätta "tänkbarheten" för de återstående säkra kategorierna på en skala från en till fem. Att behålla kategorier med en bildbarhet på fyra eller högre resulterade i endast 158 kategorier som klassificerades som både säkra och tänkbara. Även denna mycket filtrerade uppsättning kategorier innehöll mer än 133, 000 bilder - en mängd exempel för utbildning av datorsynalgoritmer.
Inom dessa 158 kategorier, forskarna studerade den demografiska representationen av människor i bilderna för att bedöma nivån på partiskhet i ImageNet och utforma ett tillvägagångssätt för att skapa rättvisare datamängder. ImageNets innehåll kommer från bildsökmotorer som Flickr, och sökmotorer i allmänhet har visat sig ge resultat som överrepresenterar män, ljushåriga människor, och vuxna mellan 18 och 40 år.
"Människor har funnit att fördelningen av demografi i bildsökresultat är mycket partisk, och det är därför distributionen i ImageNet också är partisk, "sa Yang." I den här artikeln försökte vi förstå hur partisk den är, och också att föreslå en metod för att balansera fördelningen. "
Av de egenskaper som skyddas enligt amerikanska lagar mot diskriminering, forskarna betraktade de tre attribut som är tänkbara:hudfärg, könsuttryck och ålder. MTurk -anställda ombads att kommentera varje attribut för varje person i en bild. De klassificerade hudfärgen som ljus, medium eller mörk; och ålder som barn (under 18), vuxen 18–40, vuxen 40–65 eller vuxen över 65. Könsklassificeringar inkluderar man, kvinnlig och osäker - ett sätt att inkludera människor med olika könsuttryck, samt kommentera bilder där kön inte kunde uppfattas från visuella ledtrådar (till exempel många bilder av spädbarn eller dykare).
En analys av anteckningarna visade att liknande sökresultat, ImageNets innehåll återspeglar betydande partiskhet. Människor kommenterade som mörkhyade, honor, och vuxna över 40 var underrepresenterade i de flesta kategorierna.
Även om annotationsprocessen inkluderade kvalitetskontroller och krävde annotatorer för att nå konsensus, av oro för den potentiella skadan av felkommentarer, forskarna valde att inte släppa demografiska kommentarer för enskilda bilder. Istället, de utformade ett webbgränssnittsverktyg som tillåter användare att få en uppsättning bilder som är demografiskt balanserade på ett sätt som användaren anger. Till exempel, hela bildsamlingen i kategorin "programmerare" kan innehålla cirka 90% män och 10% kvinnor, medan i USA är cirka 20% av datorprogrammerarna kvinnor. En forskare kan använda det nya verktyget för att hämta en uppsättning programmerarbilder som representerar 80% män och 20% kvinnor - eller en jämn delning, beroende på forskarens syfte.
"Vi vill inte säga vad som är rätt sätt att balansera demografin, eftersom det inte är en väldigt enkel fråga, "sa Yang." Fördelningen kan vara annorlunda i olika delar av världen - fördelningen av hudfärger i USA är annorlunda än i länder i Asien, till exempel. Så vi lämnar den frågan till vår användare, och vi tillhandahåller bara ett verktyg för att hämta en balanserad delmängd av bilderna. "
Teamet ImageNet arbetar för närvarande med tekniska uppdateringar av sin hårdvara och databas, förutom att implementera filtreringen av personkategorierna och ombalanseringsverktyget som utvecklats i denna forskning. ImageNet släpps snart igen med dessa uppdateringar, och med en uppmaning till feedback från forskningsgemenskapen för datorsyn.