Publicerad: 2026-01-16

Skrivet av Samlingsbloggen

I projektet ”Från bokskåpet till skärmen” , där vi digitaliserar runt 1000 likpredikningar från Skoklosters slotts bibliotek, ingår att tillgängliggöra materialet för forskning. Då räcker det inte med att bara fotografera av boksidorna och lägga ut dem i samlingsdatabasen – själva texten måste också bli sökbar och maskinläsbar. Att transkribera de uppemot 100 000 sidorna text för hand är inte görbart, då det skulle ta alldeles för mycket tid.

Som tur är finns det andra sätt. Vi har valt att använda Transkribus, som är en AI-driven plattform för transkribering av alla typer av text. I Transkribus kan man själv träna upp språkmodeller, om man till exempel vill läsa av någons handskrivna brev, men det finns också allmänna modeller för både tryckt och handskriven text.

Boksida med tätt tryckt text i frakturstil

Så här kan en typisk sida i en likpredikan se ut. Foto: Rosemary Hansen, SHM (Public Domain)

 

Så här går det till

När boksidorna är fotograferade, laddar vi upp dem i Transkribus. Varje bok utgör ett eget dokument. Vi väljer AI-modell beroende på språk – en för tyska, en annan för svenska och en tredje för alla övriga språk (mest danska, latin och lite franska). Avläsningen startar och inom några minuter, eller ibland timmar, beroende på hur många som använder verktyget på samma gång, finns det en transkriberad text. Denna är dock långt ifrån färdig. Texternas utseende varierar mycket och Transkribusmodellerna har svårt att se skillnad på text och rena dekorationer. Layouten blir också ofta felaktig och en hel del manuell rättning behövs.

Vi börjar med att rätta till layouten, så att all text ligger på rätt plats och vi raderar allt som inte är text. Detta går relativt fort och vi har gott hopp om att hinna igenom alla likpredikningarna innan projekttidens slut. Men vi vill mer! Vi vill också rätta hela texten, för trots allt blir det många fel och ju fler fel, desto sämre sökbarhet. Problemet är bara att det tar väldigt lång tid. 100 000 sidor är mycket.

Boksida med tryckt text och en sida för transkribering intill.

Så här ser det ut när man arbetar med texten i Transkribus. Här kan vi se hur programmet har markerat dekoren (blå linjer i bilden) och försökt tolka den till text (i högra fältet).

Boksida med tryckt text och en sida för transkribering intill.

Här har en första rättning gjorts, dekorelementen är inte längre markerade och textens rader har rättats till, men själva texten har inte genomgått någon rättning. Till exempel så är den avlidnes namn, ”H. Johan Berndes”, transkriberat som ”6. Fohan Derndes”.

Boksida med tryckt text och en sida för transkribering intill.

På den här sidan är texten rättad, även om det har slunkit med några felaktigheter. Till exempel har det handskriva sidnumret ”14” tolkats som ”TI.”.

 

Transkribathon

En lösning är att engagera den intresserade allmänheten. Under hösten har vi, eller rättare sagt vår projektledare Susanne Tienken från Stockholms universitet, arrangerat ett par skrivstugor – vi kallar dem Transkribathon (=Transkribus+Hackathon) – med en släktforskarförening i Botkyrka och en grupp intresserade på SU. Några av deltagarna har sedan dess fortsatt att transkribera hemma. Detta är vi mycket tacksamma för och vi planerar att expandera Transkribathonverksamheten till fler grupper.

Och sen då?

När texterna är färdiga, eller så färdiga som vi kan få dem, exporterar vi dem i form av sökbara pdf:er och txt-filer som vi kommer att publicera på samlingar.shm.se. Vi exporterar även xml-filer, som vi kommer att skicka bland annat till Språkbanken, som är en nationell e-infrastruktur till stöd för forskning baserad på språkliga data. Materialet kommer även att tillgängliggöras genom Libris och det står dessutom alla forskare fritt att bygga sina egna databaser med vårt material.

När allt material är publicerat, kommer det att utgöra en viktig källa till kunskap för många olika forskningsdiscipliner. Texterna berättar om 1600- och 1700-talens samhälle, människosyn och religion och de är förstås även betydelsefulla för språkforskare. Men de innehåller också information om till exempel sjukdomar, platser, personer och mycket annat som vi säkert inte har tänkt på ännu.

Vill du hjälpa till?

Om du som läser detta är intresserad av att rätta likpredikningar, så hör av dig till mig (sara.dixon@shm.se).

/Sara Dixon, antikvarie för Ekonomiska museets samlingar