• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Hur man gör AI mindre partisk

    Kredit:CC0 Public Domain

    Med maskininlärningssystem som nu används för att bestämma allt från aktiekurser till medicinska diagnoser, det har aldrig varit viktigare att titta på hur de kommer fram till beslut.

    Ett nytt tillvägagångssätt från MIT visar att huvudboven inte bara är själva algoritmerna, men hur själva data samlas in.

    "Dataforskare är ofta snabba med att säga att sättet att göra dessa system mindre partiska är att helt enkelt designa bättre algoritmer, " säger huvudförfattaren Irene Chen, en doktorsexamen student som skrev uppsatsen tillsammans med MIT-professorn David Sontag och postdoktorand Fredrik D. Johansson. "Men algoritmer är bara så bra som den data de använder, och vår forskning visar att du ofta kan göra större skillnad med bättre data."

    Ser man på specifika exempel, forskare kunde både identifiera potentiella orsaker till skillnader i noggrannheter och kvantifiera varje faktors individuella inverkan på data. De visade sedan hur en förändring av sättet de samlade in data på kunde minska varje typ av bias samtidigt som samma nivå av prediktiv precision bibehölls.

    "Vi ser detta som en verktygslåda för att hjälpa maskininlärningsingenjörer att ta reda på vilka frågor de ska ställa till sina data för att diagnostisera varför deras system kan göra orättvisa förutsägelser, säger Sontag.

    Chen säger att en av de största missuppfattningarna är att mer data alltid är bättre. Att få fler deltagare hjälper inte nödvändigtvis, eftersom att dra från exakt samma befolkning ofta leder till att samma undergrupper är underrepresenterade. Även den populära bilddatabasen ImageNet, med sina många miljoner bilder, har visat sig vara partisk mot det norra halvklotet.

    Enligt Sontag, ofta är det viktigaste att gå ut och få mer data från de underrepresenterade grupperna. Till exempel, teamet tittade på ett inkomstförutsägelsesystem och fann att det var dubbelt så troligt att kvinnliga anställda felaktigt klassificeras som låginkomsttagare och manliga anställda som höginkomsttagare. De fann att om de hade ökat datasetet med en faktor 10, dessa misstag skulle hända 40 procent mindre ofta.

    I en annan datauppsättning, forskarna fann att ett systems förmåga att förutsäga dödlighet på intensivvårdsavdelningar (ICU) var mindre exakt för asiatiska patienter. Befintliga metoder för att minska diskriminering skulle i princip bara göra de icke-asiatiska förutsägelserna mindre korrekta, vilket är problematiskt när du pratar om inställningar som sjukvård som bokstavligen kan vara liv eller död.

    Chen säger att deras tillvägagångssätt gör det möjligt för dem att titta på en datamängd och avgöra hur många fler deltagare från olika populationer som behövs för att förbättra noggrannheten för gruppen med lägre noggrannhet och samtidigt behålla noggrannheten för gruppen med högre noggrannhet.

    "Vi kan rita kurvor för att se vad som skulle hända om vi lägger till 2, 000 fler människor mot 20, 000, och utifrån det ta reda på vilken storlek datasetet ska vara om vi vill ha det bästa av alla världar, " säger Chen. "Med ett mer nyanserat tillvägagångssätt som detta, sjukhus och andra institutioner skulle vara bättre rustade att göra kostnads-nyttoanalyser för att se om det skulle vara användbart att få mer data. "

    Du kan också försöka få ytterligare typer av data från dina befintliga deltagare. Dock, det kommer inte att förbättra saker heller om den extra informationen inte är relevant, som statistik över människors längd för en studie om IQ. Frågan blir då hur man identifierar när och för vem du ska samla in mer information.

    En metod är att identifiera kluster av patienter med stora skillnader i noggrannhet. För ICU -patienter, en klustringsmetoder på text som kallas ämnesmodellering visade att hjärt- och cancerpatienter båda hade stora rasskillnader i noggrannhet. Detta fynd kan tyda på att fler diagnostiska tester för hjärt- eller cancerpatienter skulle kunna minska rasskillnaderna i noggrannhet.

    Teamet kommer att presentera uppsatsen i december vid den årliga konferensen om Neural Information Processing Systems (NIPS) i Montreal.


    © Vetenskap https://sv.scienceaq.com