• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Automatiserade system kan skriva om föråldrade meningar i Wikipedia-artiklar

    MIT-forskare har skapat ett automatiskt textgenererande system som lokaliserar och ersätter specifik information i relevanta Wikipedia-meningar, samtidigt som språket liknar hur människor skriver och redigerar. Kredit:Christine Daniloff, MIT

    Ett system skapat av MIT-forskare skulle kunna användas för att automatiskt uppdatera faktainkonsekvenser i Wikipedia-artiklar, minskar tid och ansträngning för mänskliga redaktörer som nu gör uppgiften manuellt.

    Wikipedia består av miljontals artiklar som är i ständigt behov av redigeringar för att återspegla ny information. Det kan innebära artikelutvidgningar, stora omskrivningar, eller fler rutinmässiga ändringar som uppdatering av nummer, datum, namn, och platser. För närvarande, människor över hela världen lägger sin tid frivilligt på att göra dessa redigeringar.

    I ett dokument som presenterades vid AAAI-konferensen om artificiell intelligens, forskarna beskriver ett textgenererande system som pekar ut och ersätter specifik information i relevanta Wikipedia-meningar, samtidigt som språket liknar hur människor skriver och redigerar.

    Tanken är att människor skulle skriva in en ostrukturerad mening i ett gränssnitt med uppdaterad information, utan att behöva oroa dig för stil eller grammatik. Systemet skulle sedan söka på Wikipedia, hitta rätt sida och föråldrad mening, och skriva om det på ett mänskligt sätt. I framtiden, forskarna säger, det finns potential att bygga ett helautomatiskt system som identifierar och använder den senaste informationen från hela webben för att producera omskrivna meningar i motsvarande Wikipedia-artiklar som återspeglar uppdaterad information.

    "Det finns så många uppdateringar som ständigt behövs för Wikipedia-artiklar. Det skulle vara fördelaktigt att automatiskt ändra exakta delar av artiklarna, med lite eller ingen mänsklig inblandning, " säger Darsh Shah, en Ph.D. student i datavetenskap och artificiell intelligens Laboratory (CSAIL) och en av huvudförfattarna. "Istället för att hundratals människor arbetar med att modifiera varje Wikipedia-artikel, då behöver du bara några, eftersom modellen hjälper eller gör det automatiskt. Det erbjuder dramatiska effektivitetsförbättringar."

    Det finns många andra botar som gör automatiska Wikipedia-redigeringar. Vanligtvis, de arbetar med att mildra vandalism eller släpper lite snävt definierad information i fördefinierade mallar, säger Shah. Forskarnas modell, han säger, löser ett svårare artificiell intelligensproblem:Med tanke på en ny ostrukturerad information, modellen ändrar automatiskt meningen på ett mänskligt sätt. "De andra [bot] uppgifterna är mer regelbaserade, medan detta är en uppgift som kräver resonemang över motsägelsefulla delar i två meningar och genererar ett sammanhängande stycke text, " han säger.

    Systemet kan också användas för andra textgenererande applikationer, säger co-lead författare och CSAIL doktorand Tal Schuster. I deras tidning, forskarna använde det också för att automatiskt syntetisera meningar i en populär faktauppsättning som hjälpte till att minska partiskhet, utan att manuellt samla in ytterligare data. "Den här vägen, prestandan förbättras för modeller för automatisk faktaverifiering som tränar på datamängden för, säga, upptäckt av falska nyheter, " säger Schuster.

    Shah och Schuster arbetade på tidningen med sin akademiska rådgivare Regina Barzilay, Delta Electronics professor i elektroteknik och datavetenskap och professor i CSAIL.

    Neutralitetsmaskering och sammansmältning

    Bakom systemet finns en hel del textgenererande uppfinningsrikedom för att identifiera motsägelsefull information mellan, och sedan smälta ihop, två separata meningar. Den tar som indata en "föråldrad" mening från en Wikipedia-artikel, plus en separat "anspråk"-mening som innehåller den uppdaterade och motstridiga informationen. Systemet måste automatiskt ta bort och behålla specifika ord i den föråldrade meningen, baserat på uppgifter i anspråket, att uppdatera fakta men behålla stil och grammatik. Det är en lätt uppgift för människor, men en ny sådan inom maskininlärning.

    Till exempel, säg att det finns en nödvändig uppdatering av den här meningen (i fetstil):"Fond A anser att 28 av deras 42 minoritetsintressen i operativt aktiva företag är av särskild betydelse för gruppen." Anspråksmeningen med uppdaterad information kan lyda:"Fond A anser 23 av 43 minoritetsintressen vara betydande." Systemet skulle lokalisera den relevanta Wikipedia-texten för "Fond A, " baserat på påståendet. Den tar sedan automatiskt bort de föråldrade siffrorna (28 och 42) och ersätter dem med de nya siffrorna (23 och 43), samtidigt som meningen är exakt densamma och grammatiskt korrekt. (I sitt arbete, forskarna körde systemet på en datauppsättning av specifika Wikipedia-meningar, inte på alla Wikipedia-sidor.)

    Systemet tränades på en populär datauppsättning som innehåller meningspar, där en mening är ett påstående och den andra är en relevant Wikipedia-sats. Varje par är märkt på ett av tre sätt:"överens, " vilket betyder att meningarna innehåller matchande faktainformation; "håller inte med, " vilket betyder att de innehåller motsägelsefull information; eller "neutral, " där det inte finns tillräckligt med information för någon av etiketterna. Systemet måste få alla oeniga par att komma överens, genom att ändra den föråldrade meningen så att den matchar påståendet. Det kräver att man använder två separata modeller för att producera den önskade effekten.

    Den första modellen är en faktakontrollerande klassificerare – förutbildad att märka varje meningspar som "håller med, " "instämmer inte alls, " eller "neutral" – som fokuserar på oeniga par. Körs tillsammans med klassificeraren är en anpassad "neutralitetsmaskerare"-modul som identifierar vilka ord i den föråldrade meningen som motsäger påståendet. Modulen tar bort det minimala antalet ord som krävs för att "maximera neutralitet" – vilket betyder att paret kan märkas som neutralt. Det är utgångspunkten:Även om meningarna inte överensstämmer, de innehåller inte längre uppenbart motsägelsefull information. Modulen skapar en binär "mask" över den föråldrade meningen, där en nolla placeras över ord som sannolikt behöver raderas, medan en 1 går över målvakterna.

    Efter maskering, ett nytt ramverk med två kodare och avkodare används för att generera den slutliga utdatameningen. Denna modell lär sig komprimerade representationer av påståendet och den föråldrade meningen. Att arbeta tillsammans, de två kodar-avkodarna smälter samman de olika orden från påståendet, genom att skjuta in dem på de platser som lämnats lediga av de raderade orden (de som täcks med nollor) i den föråldrade meningen.

    I ett test, modellen fick högre poäng än alla traditionella metoder, använder en teknik som kallas "SARI" som mäter hur väl maskiner raderar, Lägg till, och hålla ord jämfört med hur människor ändrar meningar. De använde en datauppsättning med manuellt redigerade Wikipedia-meningar, som modellen inte sett tidigare. Jämfört med flera traditionella textgenereringsmetoder, den nya modellen var mer exakt i att göra faktauppdateringar och dess produktion liknade mer mänskligt skrivande. I ett annat test, människor med crowdsourcing gav modellen poäng (på en skala från 1 till 5) baserat på hur väl dess utgående meningar innehöll faktauppdateringar och matchade mänsklig grammatik. Modellen uppnådde genomsnittliga poäng på 4 i faktauppdateringar och 3,85 i matchande grammatik.

    Ta bort partiskhet

    Studien visade också att systemet kan användas för att utöka datauppsättningar för att eliminera bias när man tränar detektorer av "falska nyheter, " en form av propaganda som innehåller desinformation skapad för att vilseleda läsare i syfte att generera webbplatsvisningar eller styra den allmänna opinionen. Vissa av dessa detektorer tränar på datauppsättningar av överens-inte instämmer meningspar för att "lära sig" att verifiera ett påstående genom att matcha det med givna bevis.

    I dessa par, påståendet kommer antingen att matcha viss information med en stödjande "bevis" mening från Wikipedia (håller med) eller så kommer den att modifieras av människor för att inkludera information som strider mot bevissatsen (håller inte med). Modellerna är tränade att flagga påståenden med motbevisande bevis som "falska, " som kan användas för att identifiera falska nyheter.

    Tyvärr, sådana datauppsättningar kommer för närvarande med oavsiktliga fördomar, Shah säger:"Under träningen, modeller använder något språk av mänskliga skrivna påståenden som "give-away"-fraser för att markera dem som falska, utan att förlita sig mycket på motsvarande bevissats. Detta minskar modellens noggrannhet när man utvärderar verkliga exempel, eftersom den inte utför faktakontroll."

    Forskarna använde samma raderings- och sammansmältningstekniker från deras Wikipedia-projekt för att balansera oense-instämmer-paren i datasetet och hjälpa till att mildra partiskheten. För vissa "håller inte med"-par, de använde den modifierade meningens falska information för att återskapa en falsk "bevis" som stöder mening. En del av give-away-fraserna finns då i både "håller med" och "inte håller med"-meningarna, vilket tvingar modeller att analysera fler funktioner. Med hjälp av deras utökade datauppsättning, forskarna minskade felfrekvensen för en populär falsknyhetsdetektor med 13 procent.

    "Om du har en bias i din datauppsättning, och du lurar din modell att bara titta på en mening i ett oeniga par för att göra förutsägelser, din modell kommer inte att överleva den verkliga världen, " säger Shah. "Vi får modeller att titta på båda meningarna i alla instämmer-inte instämmer par."

    Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.




    © Vetenskap https://sv.scienceaq.com