Nytt fredagsinlägg på bloggen om ett av mina favoritämnen – digitalisering av text och arkiv. Som vanligt vill jag börja med att säga att det här inlägget inte är facit på hur man alltid ska göra med den här typen av material, utan här får du ta del av hur vi arbetar med digitalisering av text och arkivmaterial från våra museers samlingar.
Hur vi började resan
2016 hade vi i stort sett ingen egen erfarenhet av att digitalisera textmaterial. Men vi hade sedan länge haft en önskan om att tillgängliggöra Hallwylska museets katalogverk digitalt. Det ursprungliga katalogverket som beskriver Hallwylska museets samlingar var en del av Wilhelmina von Hallwyls projekt att skapa ett museum i det Hallwylska huset. Katalogverket, som blev klart 1955, 25 år efter Wilhelmina von Hallwyls död, är idag ett tidsdokument över ett museiskapande vid förra sekelskiftet. Katalogverket är också fortfarande en källa till kunskap om samlingarna och används fortfarande i det dagliga arbetet på museet.
Katalogverket består av 78 band. Varje samlingsgrupp har en bilddel och en textdel. Wilhelmina lät trycka katalogen i 110 exemplar och skickade dem till bibliotek runt om i världen, som ett sätt att garantera att informationen om samlingarna alltid skulle bevaras. Ett ex finns idag på Kungliga biblioteket och ett par ex finns förstås på Hallwylska museet.
Att vi valde just katalogverket för att starta vår resa med digitalisering av textmaterial har sina förklaringar. Vi var nybörjare så vi behövde något relativt enkelt att starta med. Katalogverket är inte inmärkt i samlingarna och alltså inget museiföremål, det är inte heller unikt utan finns i flera exemplar bara i det Hallwylska huset och, kanske viktigast av allt, det är maskinskrivet och strukturerat på ett sätt som en maskin skulle kunna lära sig att förstå.
För att få upp farten och ner priset på bildfångsten lät vi massakrera ett ex av varje katalog för att på så sätt utan manuell hjälp kunna köra alla lösa blad i en skanner (förlåt alla boknördar men som sagt, vi har många inbundna ex av katalogerna kvar att bevara för eftervärlden).
Nästa steg var att OCR-tolka materialet. Felprocenten i en testskanning av 10 sidor låg runt 0,3-0,5% utan manuellt arbete och sjönk till 0,05-0,1% med en manuell kontroll på 70 sekunder per sida. Kostnaden ökade dock till det dubbla med manuell kontroll. Därmed var det en ganska lätt avvägning för oss – OCR–tolkningen var redan med enbart automatisk tolkning nära 100%, en dubbelt så hög kostnad var inte försvarbar för oss.
Det var viktigt för oss, när vi inledde det här projektet och egentligen i all vår digitalisering, att materialet skulle bli användbart på så många olika sätt som möjligt. Vi tänkte bland annat rent egoistiskt att en del av informationen i katalogverket inte finns i vårt samlingsförvaltningssystem, och om vi automatiskt kunde importera den skannade informationen in i systemet skulle det underlätta något enormt för oss.
Vi tog också reda på att för att materialet ska kunna analyseras på ett tillfredsställande sätt med t ex textanalysverktyg, underlättar det mycket om texten finns i XML-format. För att få till XML-filer där varje nod består av ett inventarienummer plus all information tillhörande detta nummer gick vi noggrant igenom katalogverkets struktur och gjorde upp en regel.
Utifrån den regeln lät vi utveckla en programvara som kan känna igen inventarienumren i de skannade katalogerna och segmentera (alltså dela upp) texten vid varje nytt nummer.
Resultatet blev att vi kunde matcha XML-filerna med posterna i vår databas och importera varje inventarienummers katalogbeskrivning till ett fält i motsvarande föremålspost i vårt samlingsförvaltningssystem.
De digitala filerna arkiverades både i PDF/A- och XML-format i vårt mediaarkiv.
Utöver detta ville vi sprida materialet dit användare av text- och arkivmaterial redan finns. Så vi laddade upp alla filer till Internet Archive – den största plattformen vi kunde hitta på nätet för text- och arkivmaterial.
Nästa steg – Hallwylska museets arkiv
Efter denna egenproducerade crash course i digitalisering av text kände vi oss åtminstone lite mer mogna att ta oss an det oerhört omfattande, för att inte säga nästan oöverblickbara, arkivet på Hallwylska museet. Denna gång ett material inmärkt i samlingen och därför nödvändigt att hantera som museiföremål. För att inte det här inlägget ska bli långt som en bok får ni läsa bakgrunden till arkivet och dess digitalisering HÄR.
2018 satte vi igång. Mina egna funderingar inför starten av detta projekt var 1) det här är det bästa och mest värdefulla jag kommer ha gjort i mitt arbetsliv, det jag kommer vara mest stolt över och berätta för eventuella barnbarn, och 2) hur i hela friden ska vi någonsin kunna slutföra detta?
Som tur är jobbar vi på museum så att saker tar lång tid är det oftast ingen som tycker är konstigt. Långsiktighet är liksom vår paradgren.
När vi startade projektet 2018 hade vi inte ens investerat i en bokskanner. Utan vi fotograferade materialet i en fotostation riggad för ändamålet. Detta blev ganska snart helt ohållbart. Det tog för lång tid och den monotona fotograferingen var för slitsam. Det blev bara drygt 2000 bilder i fotostationen innan vi fick klartecken att investera i en bokskanner av typen BookEye 4.
Ändamålet med digitaliseringen av arkivet bestämde vi först och främst skulle vara tillgång till informationen som står att läsa på pappren – inte bindningar, pärmar, papperstyper eller annat. På så vis kunde vi fokusera på att få just den aspekten så bra som möjligt, och få upp digitaliseringstakten. Därför bestämde vi oss också för att enbart skapa PDF/A-filer – en högupplöst masterfil för arkivering och en mer lågupplöst kopia för spridning på nätet. Detta har också gjort att vi kan hålla nere lagringskostnaderna som lätt skulle ha skenat om vi arkiverat t ex TIFF:ar.
Till dags datum har vi digitaliserat 41 506 enskilda bilder/sidor ur arkivet. Många av ”arkivföremålen” (jag skriver föremål eftersom arkivet är inmärkt i samlingen och således museiföremål) saknade vid projektets start poster i samlingsförvaltningssystemet, så allteftersom att vi har digitaliserat föremålen har vi också fått registrera och katalogisera dem i systemet.
Tillgång till materialet
Det är nu, fyra år in i projektet, hög tid att detta stora material kommer alla intresserade där ute till del. Det gör inte mycket nytta i vårt interna mediaarkiv. I dagsläget har vårt nyutvecklade Sök i samlingarna ingen funktionalitet för att visa PDF:er. Så nästa viktiga steg i projektet är att utveckla en (eller använda en befintlig open source) PDF-visare för Sök i samlingarna.
Därefter är vår tanke att med hjälp av Internet Archives Phyton Library ladda upp materialet till Internet Archive. I dagsläget har vi laddat upp ett urval på drygt 60 arkivföremål som kan ses på Internet Archive redan nu.
Till största delen är arkivmaterialet handskrivet, och vi har i dagsläget inte resurser för att utveckla möjligheter till att göra materialet maskinläsbart med hjälp av HTR och AI. Vi hoppas dock att våra användare där ute, så fort materialet finns att tillgå, själva vill laborera med sådan teknik och att vi själva i framtiden kan prioritera det arbetet.
Tro det eller ej, men snart är vi klara med första delen av det Hallwylska arkivet – privatarkivet. Nästa del vi tar oss an i skannern blir museiarkivet. Väldigt intressant för alla er som liksom jag är totala museinördar.
Forskardriven textdigitalisering
Ett annat sätt att ta sig an digitalisering av text, som vi nyligen har börjat nosa på, är att i samarbete med forskare som är intresserade av materialet ta fram digitaliserings- och tillgängliggörandeprocesserna.
Vi har satt upp ramarna för ett projekt där vi skulle kunna digitalisera och tillgängliggöra en samling av 1046 tryckta likpredikningar från 1600- och 1700-talet som finns i Skoklosters slotts bibliotek.
Likpredikningar är en värdefull källa för förståelsen av livet i Europa under tidigmodern tid. De berör sorg, tröst och tro samt sociala relationer, ståndstillhörighet, hälsa, arbete och bildning. Materialet kan beforskas med frågor om liv och död och hur människor hanterat omvälvande förändringar som krig och fred, trauman eller miljökatastrofer. Att nästan hälften av predikningarna behandlar kvinnor som annars är starkt underrepresenterade i arkiven, gör samlingen ännu mer relevant. Predikningarna är skrivna på svenska, tyska, latin, franska och danska vilket gör det synnerligen angeläget att tillgängliggöra materialet även för forskare internationellt.
Skulle vi få möjlighet att sjösätta det här projektet har vi tänkt att verkligen omsätta riktigt tillgängliga kulturarvsdata och interoperabilitet i praktiken. Vi kommer att jobba enbart med redan befintliga plattformar och sökingångar där forskare och andra användare enkelt kan hitta materialet och sätta det i ett sammanhang av annan kulturarvsdata med hjälp av öppen länkad data.
Vi kommer fokusera på högkvalitativ digitalisering och katalogisering och använda oss av såväl vårt eget Sök i samlingarna som Libris, Internet Archive och Wikidata för att tillgängliggöra både det digitaliserade materialet och den utökade informationen kring varje likpredikan, sammankopplat med resten av världen.
Genom att OCR-tolka frakturstilen som likpredikningarna är tryckta i och därefter med hjälp av proof reading och crowdsourcing göra texterna helt maskinläsbara kan vi öka tillgängligheten och analysmöjligheterna något enormt.
Projektplanen har arbetats fram i gott samarbete mellan oss på SHM (både avdelningen Samlingar och forskning och Digitalisering och IT) och Institutionen för slaviska och baltiska språk, finska, nederländska och tyska vid Stockholms universitet och vi har ansökt till Riksbankens Jubileumsfond för medel att förverkliga projektet. Återstår att se om vår ansökan blir beviljad.
Mer läsning
Det finns ytterligare två inlägg på bloggen om digitalisering på museer: