• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Vad händer när dataforskare går igenom tre århundraden av Robinson Crusoe?

    Läsning 1, Över 400 upplagor av "Robinson Crusoe" på en sommar är omöjligt. Så ett team av elever försökte träna datorer för att göra det åt dem. Kredit:Duke Research Blog

    Sedan Daniel Defoes skeppsbrottssaga "Robinson Crusoe" publicerades första gången för nästan 300 år sedan, tusentals upplagor och spinoff-versioner har publicerats, på hundratals språk.

    En forskargrupp ledd av Grant Glass, en Ph.D. student i engelska och jämförande litteratur vid University of North Carolina i Chapel Hill, ville veta hur historien förändrades när den gick igenom olika upplagor, imitationer och översättningar, och för att se vilka delar som bestod tidens tand.

    Att läsa igenom dem alla i en takt av en om dagen skulle ta år. Istället, forskarna tränar datorer för att göra det åt dem.

    Den här sommaren, Glass team i Data+ sommarforskningsprogrammet använde datoralgoritmer och maskininlärningstekniker för att sålla igenom 1, 482 fulltextversioner av Robinson Crusoe, sammanställd från onlinearkiv.

    "Många gånger tänker vi på en bok som huggen i sten, " sa Glas. "Men ett sådant här projekt visar dig att det är rörigt. Det är mycket skillnad i det."

    "När du hämtar en bok är det viktigt att veta vilket exemplar det är, eftersom det kan påverka hur du tänker om historien, " sa Glas.

    Bara att få texterna i en form som en dator kunde bearbeta bevisade halva striden, sa studentteammedlemmen Orgil Batzaya, en Duke double major i matematik och datavetenskap.

    Kredit:Duke Research Blog

    Böckerna har redan skannats och lagts ut på nätet, så eleverna använde programvara för att ladda ner skanningarna från internet, via en process som kallas "skrapning". Men att bearbeta de skannade sidorna av gamla tryckta böcker, varav några hade fläckar, fläckar eller sliten typ, och att konvertera dem till ett maskinläsbart format visade sig vara svårare än de trodde.

    Programvaran kämpade för att avkoda de konstiga stavningarna ("levererade, " "önskade, " "perswasions, " "shore" kontra "shoar"), olika typsnitt mellan utgåvorna, och andra egenheter.

    Specialtecken som är unika för typsnitt från 1700-talet, som den nyfikna f-formade versionen av bokstaven "s, " få till och med människor att läsa "diftance" och "poffible" med en mental lisp.

    Deras första försök kom upp med gobbledygook. "Den resulterande optiska teckenigenkänningen var helt oanvändbar, " sa teammedlemmen och Duke senior Gabriel Guedes.

    Vid en Data+ postersession i augusti, Guedes, Batzaya och historia och datavetenskap dubbelmajor Lucian Li presenterade sina första resultat:en samling färgglada scatterplots, Kartor, flödesdiagram och linjediagram.

    Kredit:Duke Research Blog

    Guedes pekade på kluster av prickar på en nätverksgraf. "Här, de röda utgåvorna är amerikanska, de blå utgåvorna är från Storbritannien, ", sa Guedes. "Nätverksgrafen känner igen likheten mellan alla dessa utgåvor och klumpar ihop dem."

    När de väl förvandlade de skannade sidorna till maskinläsbara texter, teamet matade in dem i en maskininlärningsalgoritm som mäter likheten mellan dokument.

    Algoritmen tar in bitar av texter – meningar, stycken, även hela romaner – och omvandlar dem till högdimensionella vektorer.

    Skapa denna numeriska representation av varje bok, Guedes sa, gjort det möjligt att utföra matematiska operationer på dem. De lade ihop vektorerna för varje bok för att hitta deras summa, beräknade medelvärdet, och tittade för att se vilken upplaga som låg närmast den "genomsnittliga" upplagan. Det visade sig vara en version av Robinson Crusoe publicerad i Glasgow 1875.

    De analyserade också vikten av specifika handlingspunkter för att bestämma en given upplagas närhet till den "genomsnittliga" utgåvan:hur är det med ögonblicket när Crusoe upptäcker ett fotspår i sanden och inser att han inte är ensam? Eller tiden då Crusoe och fredag, efter att ha lämnat ön, slåss mot hungriga vargar i Pyrenéerna?

    Kredit:Duke Research Blog

    Teamets resultat kan vara skrämmande för dem som inte är vana vid att se 300 år av publicering reduceras till ett stapeldiagram. Men genom att använda datorer för att jämföra tusentals böcker åt gången, "digitala humaniora"-forskare säger att det är möjligt att spåra storskaliga mönster och trender som människor som tittar på enskilda böcker inte kan.

    "Det här är verkligen något bara en dator kan göra, "Guedes sa, pekar på en time-lapse-karta som visar hur Crusoe-berättelsen spred sig över hela världen, byggd från data om plats och datum för publicering för 15, 000 upplagor.

    "Det är en form av "avlägsen läsning", " sa Guedes. "Du använder den här enorma mängden information för att dra slutsatser om publiceringshistorik, idéernas rörelse, och kunskap i allmänhet över tid."


    © Vetenskap https://sv.scienceaq.com