Skip to main content

Der Umgang mit handschriftlichen Quellen im 21. Jahrhundert

Abb. 3: Beispielhafte Darstellung verschiedener Schriftarten. Für Transkribus müssten hier passende (und deshalb verschiedene) Modes gewählt werden. 

 

 

Abb. 4: Anwendung eines ScanTents in einem Archiv. Das Mobiltelefon wird auf die dunkle Plattform gelegt, die Quellen in den Hohlraum. 

 

 

 

Forscht man zu einem bestimmten Thema ist man schnell mal mit tausenden Seiten Text in Antiqua, karolingischer Minuskel, Kurrentschrift oder anderen Schriften konfrontiert. Dies ist eine der grossen Schwierigkeiten der Geschichtsforschung, welche hauptsächlich – vor allem in der Geschichte vor ca. 1850 – auf Textquellen basiert, denn das Entziffern der enigmatischen Zeichen kostet Zeit.
Aushilfe leisten kann hier die moderne Technik: Die seit 2019 existierende internationale und wachsende Genossenschaft READ-COOP [1] hat sich auf die Digitalisierung handschriftlicher Quellen spezialisiert.  Mit dem durch die Genossenschaft entwickelte ScanTent ausgerüstet und mit dem Programm Transkribus kann die Mühe drastisch verringert werden.

Mit dem Zelt ins Archiv

Das ScanTent wurde zur Erfassung von handschriftlichen Quellen designt, wobei die Worte Scan und Tent schon beinahe alles über das System aussagen. Das Objekt kann zusammengefaltet gut transportiert werden und lässt sich im Archiv rasch aufbauen, wobei der Aufbau dem eines simplen Zelts mit dünnen Stangen gleicht. Im Gegensatz zu einem echten Zelt besitzt das ScanTent jedoch keine Türe, ist wesentlich kleiner (76x59x44,5cm) und hat ein Loch in der Decke. Das Loch – bei einem normalen Zelt fatal – ist für das ScanTent essenziell, werden dort durch doch die Bilder geschossen. Dazu lässt sich das Mobiltelefon mit Kamera nach unten auf eine kleine Plattform legen  und die Linse zielt vertikal nach unten in den Hohlraum des ScanTent, in welches das abzufotografierende Buch gelegt werden kann. Bei Dunkelheit lässt sich sogar eine eingebaute LED-Lampe anzünden, welche die Qualität der Bilder verbessert.

Künstliche Intelligenz als Lesehilfe

Ein ScanTent erleichtert somit das Fotografieren mehrerer Seiten innerhalb von kurzer Zeit. Was nun noch nötig ist, ist eine rasche Transkription des Textes. Hier kann READ-COOPs Programm Transkribus aushelfen. Das Texterkennungsprogramm kann mit einem Account heruntergeladen und installiert werden (es wird jedoch die neuste Version JavaScript benötigt). Nachdem man sich im Programm eingeloggt hat, kann die Arbeit beginnen; ein Ordner mit der digitalisierten Schriftquelle in .jpg-Fromat (!) kann importiert werden. Das KI-Programm ist danach fähig, Abschnitte  im Text zu erkennen, welche danach automatisch transkribiert werden können. Hierzu muss ein HTR-Model gewählt werden, nach welchem die einzelnen Zeichen erkennt werden. Das Prinzip dahinter ist simpel: Der KI werden durch menschliche Intelligenz bestimmte Erkennungsmuster für einzelne Zeichen gelehrt. Nach diesen Erkennungsmustern werden die Buchstaben später identifiziert. Hierbei ist zu beachten, dass die variierenden Schriften auch verschiedene Erkennungsmuster benötigen, da sonst ähnlich aussehende (aber verschiedene) Buchstaben verwechselt werden könnten. Transkribus widerspiegelt seine Fähigkeiten zu den einzelnen Models in der CER, der sogenannten Character Error Rate. Diese wird in Prozent angegeben und zeigt die vermutliche Anzahl falsch transkribierter Buchstaben auf hundert andere. So ist eine CER von 6% eine Fehlerrate von ca. 6 auf 100 Buchstaben. Aufgrund dessen ist Korrekturlesen unverzichtbar und Korrekturen können direkt in das Transkript eingefügt werden.

 

 

_______________________________________

[1] https://readcoop.eu/de/