• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Upplösande anti-queer-bias i textförutsägelse

    Kredit:Pixabay/CC0 Public Domain

    Modern textförutsägelse är långt ifrån perfekt – ta till exempel när en sökfråga föreslår något helt annat än din avsikt. Men besväret slutar inte med felaktigheter. Textprediktion kan också vara extremt exklusiv eller partisk när det gäller att förutsäga resultat relaterade till marginaliserade samhällen.

    Ett team av forskare från USC Viterbi School of Engineering Information Sciences Institute och USC Annenberg School for Communication and Journalism, ledd av Katy Felkner, en USC Viterbi Ph.D. student i datavetenskap och mottagare av National Science Foundation Graduate Research Fellowship, har utvecklat ett system för att kvantifiera och fixa anti-queer-bias i den artificiella intelligensen bakom textprediktion.

    Projektet, som presenterades av Felkner vid Queer in AI-workshopen vid North American Chapter of the Association for Computational Linguistics (NAACL)-konferensen i juli, tittar på både att upptäcka och minska anti-queer-bias i en stor språkmodell, som används i allt från sökfält till språköversättningssystem.

    Den stora språkmodellen, eller LLM, är "hjärnan" bakom textförutsägelsen som dyker upp när vi skriver något i en sökfält - en artificiell intelligens som "kompletterar" meningar genom att förutsäga den mest sannolika strängen av ord som följer en given prompt .

    LLM måste dock först "tränas" genom att matas med miljontals exempel på förskrivet innehåll så att de kan lära sig hur meningar vanligtvis ser ut. Liksom ett energiskt litet barn, upprepar LLM vad den hör, och vad den hör kan vara heteronormativt eller till och med öppet diskriminerande.

    "De flesta LLM:er är utbildade på enorma mängder data som har genomsökts från internet," sa Felkner. "De kommer att plocka upp alla slags sociala fördomar som du kan föreställa dig finns där ute på webben."

    Få ord, stor effekt

    Projektet fann att en populär LLM kallad BERT visade betydande homofobisk fördom. Denna bias mäts genom Felkners riktmärke, som jämför sannolikheten att LLM förutsäger heteronormativa meningar jämfört med meningar som inkluderar en queer relation.

    "En heteronormativ produktion är något i stil med 'James höll hand med Mary', kontra 'James höll händer med Tom'", sa Felkner. "Båda är giltiga meningar, men problemet är att modellen i en mängd olika sammanhang föredrar den heteronormativa produktionen."

    Även om skillnaden bara är några få ord, är effekten långt ifrån liten.

    Förutspådda utdata som talar om queer-personer på stereotypa sätt kan framtvinga användarnas fördomar, och modellens brist på "erfarenhet" av queer-röster kan resultera i att den ser på queer-språk som obscent.

    "En ihållande fråga för queer människor är att många gånger, orden som vi använder för att beskriva oss själva, eller förtal som har återkrävts, fortfarande anses vara obscena eller alltför sexuella", säger Felkner, som också är examensrepresentant för Queers. i Engineering, Science and Technology (QuEST) kapitel i Out in STEM vid USC.

    "Om en modell rutinmässigt flaggar dessa ord, och dessa inlägg sedan tas bort från plattformarna eller forumen de är på, tystar du queergemenskapen."

    Community input

    För att ta itu med detta problem, gav Felkner BERT en finjustering genom att mata den med Tweets och nyhetsartiklar som innehåller HBT+-sökord. Detta innehåll som användes för att "träna" BERT kom från två separata databaser av Felkners egen skapelse, kallade QueerTwitter och QueerNews.

    Även om språkbehandling kräver extremt stora mängder data – QueerTwitter-databasen innehöll över 2,3 miljoner Tweets – passade hon på att peka ut hashtaggar som användes främst av queer- och transpersoner, som #TransRightsareHumanRights.

    I takt med att modellen exponerades för olika perspektiv och gemenskaper blev den mer bekant med queerspråk och frågeställningar. Som ett resultat var det mer sannolikt att det representerade dem i sina förutsägelser.

    Efter att ha tränats med de nya, mer inkluderande uppgifterna visade modellen betydligt mindre bias. Tweets från QueerTwitter visade sig vara den mest effektiva av de två databaserna, vilket minskade förekomsten av heteronormativa resultat till nästan hälften av alla förutsägelser.

    "Jag tror att QueerTwitters resultat är mer effektiva än QueerNews talar om vikten av direkt samhällsengagemang, och att queer- och transröster – och data från deras samhällen – kommer att vara det mest värdefulla för att utforma en teknik som inte skadar dem ", sa Felkner. "We were excited about this finding because it's empirical proof of that intuition people already hold:that these communities should have an input in how technology is designed."

    Going forward, the project will look to address bias that affects specific parts of the LGBT+ community, using more refined and targeted sets of data and more customized prompts for the model to work with—such as tackling harmful stereotypes around lesbians. Long term, Felkner hopes the project can be used to train other LLMs, help researchers test the fairness of their natural language processing, or even uncover completely new biases.

    "We're dealing with how to fight against the tide of biased data to get an understanding of what 'unfair' looks like and how to test for and correct it, which is a problem both in general and for subcultures that we don't even know about," said Jonathan May, USC Viterbi research associate professor of computer science, Felkner's advisor and study co-author. "There's a lot of great ways to extend the work that Katy is doing." + Utforska vidare

    Queer-ungdomar i Australien står inför oproportionerliga utmaningar




    © Vetenskap https://sv.scienceaq.com