Handwritten Text Recognition

Collage aus Handschrift und HTR im Einsatz

Die UB Leipzig hat in ihren Beständen mehr als 7.000 Handschriften in lateinischer Schrift, davon rund 3.000 aus dem Mittelalter; dazu noch über 3.500 Handschriften in anderen Schriftsystemen wie arabisch, persisch, griechisch oder hebräisch – und da sind die 5.000 Papyri und Ostraka noch nicht mitgezählt. Es handelt sich also um einen enormen Fundus an Daten, von dem Forschende weltweit profitieren, den zu erschließen aber einen erheblichen Aufwand bedeutet. Im Bereich Sondersammlungen und am Handschriftenzentrum wird genau diese Erschließungsarbeit geleistet. Was dort aber in der Regel bislang nicht passiert, ist, die Handschriften in Gänze zu transkribieren und einen Text herzustellen, der sowohl von Menschen ohne Spezialkenntnisse als auch von Maschinen gelesen und verarbeitet werden kann.

Zwei Blätter der Sammelhandschrift Ms 1325 aus dem 12. Jahrhundert
1. Diese Sammelhandschrift aus den Beständen der UB Leipzig (Ms 1325) wurde im 3. Viertel des 12. Jahrhunderts im Benediktinerkloster Pegau geschrieben. Sie enthält verschiedene historiographische Texte, darunter die bedeutenden Pegauer Annalen.

HTR ist eine Form von
computergestützter Texterkennung

Im vergangenen Jahr gab es mehrere Pilotprojekte an der UB Leipzig, die sich mit Handwritten Text Recognition (HTR) befasst haben. HTR ist eine Form von computergestützter Texterkennung, nur dass hier nicht – wie bei der klassischen Optical Character Recognition (OCR) – einzelne Zeichen erkannt werden, sondern größere Muster wie Buchstabenkombinationen oder ganze Wörter. Das ist der größeren Varianz der Zeichen in einem handschriftlichen Text gegenüber einem gedruckten Text geschuldet.

In einem am Handschriftenzentrum angesiedelten Projekt wurden die Funktionen und Potentiale verschiedener HTR-Programme geprüft und mit den Anforderungen und Bedarfen an der UB Leipzig verglichen. An der Schnittstelle von Sonderbeständen und Digital Humanities wurde eine neue Mitarbeiterstelle besetzt, die mit der Integration von HTR in den Digitalisierungsworkflow befasst ist.

Arbeitsoberfläche des HTR-Programms eScriptorium
2. Diese Seite aus den Pegauer Annalen wurde mit dem HTR-Programm eScriptorium analysiert und bearbeitet. Links ist die automatische Layout- und Zeilenerkennung zu sehen, rechts die dazugehörige zeilengenaue Transkription des lateinischen Textes.

Potentielle
Anwendungsfälle

Dabei ist es nicht nur das Ziel, die digitalisierten Bestände der UB Leipzig mit Volltexten zu versehen und damit Barrieren für eine breite Nutzung dieser Bestände abzubauen. Es geht darüber hinaus auch darum, die Texte als Daten für die maschinelle Weiterverarbeitung bereitzustellen. Potentielle Anwendungsfälle reichen von automatisierten Annotationen, etwa der Verknüpfung von Personen oder Orten mit Normdaten, bis zu Text- und Datamining für linguistische Auswertungen. Mit ausreichend großen Datenmengen könnten sogar Large Language Models (LLMs) für unterschiedliche Sprachstufen trainiert werden, die dann wiederum bei der Arbeit mit den Texten helfen – ChatGPT für das 13. Jahrhundert gewissermaßen.

Screenshot einer Transkription
3. Die Transkription wird als xml-Datei ausgegeben, die flexibel nutzbar ist – beispielsweise für Digitale Editionen.

Die UB Leipzig ist bei diesen Bestrebungen natürlich nicht allein, sondern steht im engen Austausch mit anderen Einrichtungen, die in diesem Bereich Kompetenzen aufgebaut haben. Auch im Rahmen der Handschriftenzentren wird an gemeinsamen Entwicklungen und Standards gearbeitet, um Ressourcen zu bündeln und zukunftsweisende Technologien auf eine breite Basis zu stellen. Im Handschriftenportal sind auch tatsächlich schon die ersten Handschriften mit Volltexten zu finden – wenn auch noch nicht aus den Beständen der UB Leipzig. Das soll sich bald ändern.


  • Digitale Sammlungen der Universitätsbibliothek Leipzig
  • Der Beitrag erschien zuerst im Tätigkeitsbericht 2024 der Universitätsbibliothek Leipzig.

Helge Perplies

Dr. Helge Perplies ist Mitarbeiter im Bereich Sondersammlungen an der Universitätsbibliothek Leipzig.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert