Bygga ett digitalt arkiv för ruttnande pappersdokument

Att konvertera åldrande pappersdokument till digitala arkiv kan vara en mödosam ansträngning. Kredit:Slave Societies Digital Archive, CC BY-ND

Pappersdokument är fortfarande ovärderliga rekord från det förflutna, även i en digital värld. Primära källor lagrade i lokala arkiv i hela Latinamerika, till exempel, beskriv ett månghundraårigt multietniskt samhälle som brottas med frågor om ras, klass och religion.

Dock, pappersarkiv är sårbara för översvämningar, fuktighet, insekter, och gnagare, bland andra hot. Politisk instabilitet kan skära av pengar som används för att underhålla arkiv och institutionell försummelse kan förvandla värdefulla dokument till mögligt skräp.

I nära samarbete med kollegor från hela världen, Jag bygger digitala arkiv och specialiserade verktyg som hjälper oss att lära av dessa register, som spårar livet för fria och förslavade människor av afrikansk härkomst i Amerika från 1500-talet till 1800-talet. Vår ansträngning, slavsamhällenas digitala arkiv, är ett av många humanistiska projekt som har samlat på sig betydande samlingar av digitala bilder av pappersdokument.

Målet är att säkerställa att denna information – inklusive en del från dokument som inte längre existerar fysiskt – är tillgänglig för framtida generationer.

Men att bevara historien genom att ta högupplösta fotografier av hundraåriga dokument är bara början. Tekniska framsteg hjälper forskare och arkivarier som jag att göra ett bättre jobb med att bevara dessa register och lära av dem, men gör det inte alltid lätt.

Ett arkiv på Kuba innehåller pappersskatter som är svåra att använda och studera – även personligen. Kredit:Slave Societies Digital Archive, CC BY-ND

Samla in dokument

Sedan 2003, Slave Societies Digital Archive har samlat in mer än 700, 000 digitaliserade bilder av historiska dokument som dokumenterar livet för miljontals afrikaner och människor med afrikansk härkomst i Nord- och Sydamerika.

Medlemmar av kärnteamet, från universitet i USA, Kanada, och Brasilien, resa till projektplatser i hela Latinamerika, där de utbildar lokala studenter och arkivarier för att digitalisera kyrkliga och statliga register från sina samhällen. Vi ger dessa samhällen kamerorna, datorer och annan hårdvara de behöver för att digitalt bevara dokument staplade i hörnen av 1700-talets kyrkkällare, eller på väg att kasseras av rymdpressade kommunala arkiv.

Vi lär dem också en avgörande färdighet för arkivering och hämtning:hur man skapar metadata, den beskrivande informationen för att hjälpa människor att hitta det som intresserar dem – som om ett dokument är ett vigselbevis eller en dopuppteckning, och vilket år och stad det är från. Bra metadata låter besökare på projektets webbplats, till exempel, sök efter alla dopuppteckningar från 1600-talets Colombia.

Från digitalisering till bevarande

Över tid, vi har blivit mycket bättre på att digitalisera dokument. På äldre bilder, det är inte ovanligt att se fotografens finger förirra sig in från sidan av ramen. Vissa av dessa äldre bilder lagras som relativt lågupplösta JPEG-filer, ett format som komprimerar bildfilens storlek genom att radera viss data när den sparas. De flesta av dessa filer är fortfarande helt läsbara även när en tittare zoomar in, men vissa är inte och kommer att behöva digitaliseras igen i framtiden.

Många engagerar sig, både lära ut och lära sig hur man fotograferar dokument på rätt sätt. Kredit:Slave Societies Digital Archive, CC BY-ND

Vårt nyare bevarande följer de rigorösa standarderna för British Library, som finansierar mycket av vårt arbete. Dessa bilder är tagna i mycket hög upplösning och lagras i flera filformat inklusive TIFF, som förblir arkivstandarden.

Att omvandla en samling digitaliserade bilder till ett äkta digitalt arkiv är en tidskrävande och detaljorienterad ansträngning. Tidigt i denna process, vi stötte på ett konstigt problem med fotografier tagna under våra första digitaliseringsinsatser. Modern programvara misstolkade ofta orienteringen av dessa bilder, ger oss sidor roterade 90 grader åt höger eller vänster eller till och med helt upp och ner. I de fall en hel volym roterades på samma felaktiga sätt, det kan fixas automatiskt, men andra med en rad fel måste korrigeras för hand för att forskare skulle kunna arbeta lättare med materialet.

Vi har också upptäckt att datafilnamn kan orsaka problem. Många kameror tilldelar bilder standardnamn – som DSCN9126.jpg – som inte är användbara för att ta reda på vad bilderna är. Vi måste byta namn på varje bild på ett standard sätt som anger hur den passar in i vår samling.

För närvarande har vi valt att helt enkelt numrera bilderna sekventiellt inom varje volym; ett annat rimligt alternativ skulle vara att prefixet vart och ett av dessa nummer med ett ID som hänvisar till volymen bilden kommer från.

Det här är inga stora hinder, men de och andra på liknande sätt tar lite tid att ta reda på och ta itu med ordentligt. Men denna ansträngning lönar sig när människor som hoppas kunna utforska samlingen har lättare att hitta och använda våra bilder.

Med omsorg, digital bevarande kan ge nytt liv åt sönderfallande dokument. Kredit:Slave Societies Digital Archive, CC BY-ND

Var ska man förvara dem?

När vi har tagit bilderna, vi måste spara dem någonstans.

För närvarande, samlingen Slave Societies Digital Archive är nära 20 terabyte – ungefär det utrymme som behövs för att lagra all text i Library of Congress.

Få institutioner har resurserna, personal eller expertis som behövs för att lagra humanistisk data i så stor skala. Datalagring är inte orimligt dyrt, men det är inte heller billigt – speciellt när data behöver nås regelbundet, till skillnad från att lagras i en statisk säkerhetskopia eller arkivkopia.

Under många år, Vanderbilt University Library var värd för data, men vi växte ur vad den organisationen hade råd med. Vi hade säkerhetskopierat många av våra viktigaste poster på Digital Preservation Network, ett konsortium av universitet som slog ihop resurser för att finansiera ett tillförlitligt digitalt lagringssystem för vetenskaplig produktion. But that organization shut down in late 2018 after consulting with each member organization to ensure that no data would be lost.

Our path has led to the cloud, computers in technology companies' massive server-warehouse buildings that we access remotely to store and retrieve information. Just nu, multiple copies of our entire dataset are stored on servers on opposite sides of North America. Som ett resultat, we're far less likely to lose our data than at any previous point in the project's history.

If you can read this, you’re very highly trained. Credit:The Conversation screenshot of Slave Societies Digital Archive file, CC BY-ND

Opening access

Storing these records in secure systems is another part of the equation, but we also need to make sure that they're accessible to the people who want to see them.

Our documents, typically written in archaic Spanish or Portuguese, are very hard to read. Even native speakers need special training to decipher what they say.

För några år, we've been producing manual transcriptions of some of our most noteworthy records, such as a volume of baptisms from late 16th-century Havana. But that takes 10 to 15 minutes per page—meaning that transcribing our entire collection would take more than 100, 000 timmar.

Other projects have used volunteers to do similar work, but that approach is less likely to be the solution for our archive because of the linguistic skills required to read our documents.

We are exploring automating the transcription process using handwriting recognition technology. Those systems need more work, particularly when dealing with centuries-old handwriting styles, but some researchers are already making progress.

We are also looking at ways to identify the people and places mentioned in our records, making them searchable and connecting them to other similar datasets.

As we and other researchers connect our work, the stories contained in these old documents will come to life and bring new insight to modern scholars.

Den här artikeln är återpublicerad från The Conversation under en Creative Commons-licens. Läs originalartikeln.

Att till fullo utnyttja potentialen hos superdatorer

Hoppande tysk bilproduktion varar år av omvandling

Elektronik

Hur Apples appbutik förändrade vår värld

Ford anklagas för förräderi i Frankrike på grund av stängning av fabriker

Forskare säger att rymdvarelser kan hacka vår planet

Vetenskap

SN2015bh - slutet på en stjärna eller en bedragare supernova?

Ta bort terrorinnehåll inom en timme, Det säger EU till webbföretag

Fånga cancer:Flytande biopsi kan förbättra cancerdiagnos och behandling