Technische Infrastruktur und Workflow


Die digitale Präsentation von 'Narragonien digital' ist Ergebnis eines mehrstufigen Workflows, der in weiten Teilen projektspezifisch konzipiert und durchgeführt werden musste. Denn die große Anzahl verschiedener 'Narrenschiff'-Texte und die Vielfalt der zu bearbeitenden Sprachen ließen es nicht zu, ein vorgefertigtes Standardkonzept für digitale Editionen umzusetzen. Die vorliegende Dokumentation soll daher einen Einblick in die technische Umsetzung der Edition geben.





In einem ersten Schritt wurden zu den frühneuzeitlichen Druckausgaben, die das Textkorpus von 'Narragonien digital' bilden, Digitalisate beschafft. Zu fast allen Ausgaben bieten die großen Bibliotheken Europas in ihren Onlinekatalogen gute digitale Scans an, die für wissenschaftliche Zwecke frei verwendet werden können (siehe die Übersicht im Textkorpus). Da für die geplante Texterkennung eine sehr gute Scan-Qualität notwendig war, stellten uns darüber hinaus mehrere große europäischen Bibliotheken - an erster Stelle die UB Basel und die UB Würzburg - hervorragende Digitalisate ihrer 'Narrenschiff'-Exemplare zur Verfügung (siehe unsere Danksagung).
Der zweite Arbeitsschritt bestand in der halb-automatisierten Texterkennung (OCR) der Digitalisate. In der ersten Projektphase wurden mit Hilfe des Digitalisierungszentrums der UB Würzburg (Dr. Hans-Günter Schmidt) im Rahmen von "Kallimachos" große OCR-Fortschritte mit dem Programm "Tesseract" erzielt. Die Erkennungsgenauigkeit ließ sich durch die Umstellung auf OCR-Programme, die neuronale Netze verwenden, noch erheblich steigern. In der zweiten Projekthälfte gelang der Durchbruch: Das Programm OCR4all, das federführend von Dr. Christian Reul (Zentrum für Philologie und Digitalität, Univ. Würzburg) entwickelt wurde, bildet einen kompletten OCR-Workflow ab, von der Vorverarbeitung der zur bearbeitenden Bilddateien über die Segmentierung der Zeilen und Layoutzonen und die eigentliche Texterkennung bis hin zur Korrektur der erkannten Texte und der Erstellung werkspezifischer OCR-Modelle. Mit Hilfe von OCR4All konnte die Erkennungsgenauigkeit für die 'Narrenschiff'-Ausgaben auf bis zu 99,8% gesteigert werden, was die mühsame Texterfassung erheblich beschleunigte. OCR4all ist auf Github frei verfügbar und eignet sich als integrierter Workflow auch für nicht-Informatiker, die eine OCR durchführen wollen.
Die nunmehr als XML-Plaintext vorliegenden OCR-Texte wurden in ein Semantic MediaWiki gespeist. Das Wiki diente als graphische, intuitiv benutzbare Oberfläche zur basalen kollaborativen Auszeichnung der OCR-Texte. Ohne direkt im Code zu arbeiten, zeichnete das Projektteam für alle 'Narrenschiffe' des Textkorpus (ins. über 4000 Druckseiten) die Kapitelstruktur und die Layoutzonen aus, fügte Registerverweise ein und verknüpfte die marginalen Quellenhinweise mit den jeweiligen Volltexten. Die frühneuhochdeutschen Sonderzeichen wurden nach dem MUFI-Standard in Unicode codiert. Zu ihrer Darstellung im Brwoser wird die Schriftart Junicode verwendet (ohne dass deren lokale Installation nötig wäre).
Die im Semantic MediaWiki erarbeiteten Textfassungen wurden im nächsten Arbeitsschritt in das Zielformat XML/TEI-P5 konvertiert. Hierzu wurde in Zusammenarbeit mit Dr. Herbert Baier (ZPD) ein Export-Tool in Java programmiert, das die Wiki-Kodierungen in das TEI-Basisformat des 'Deutschen Textarchivs' konvertiert, das von CLARIN-D und der DFG als TEI-Format für historische Texte empfohlen wird. Ergebnis des automatisierten Exports sein wohlgeformte TEI-P5-Texte in einem Standard-TEI-Subset. Für das Projekt musste das Basisformat-Schema leicht abgewandelt und ergänzt werden. Sowohl die Transkription als auch der normalisierte Lesetext der 'Narrenschiffe' sind in einer einzelnen XML-Datei enthalten und werden mit den Elementen <reg> (normalisiert) und <orig> (Transkription) kodiert, welche sich in einem <choice>-Element befinden. Dieses hat in der Syntax des deutschen Textarchivs andere Funktionen. Da <choice> den TEI-Guidelines zufolge nicht innerhalb eines <div> stehen darf, wurde stattdessen der nahezu bedeutungsgleiche <ab> (anonymous block) verwendet. Auch dieser ist nicht Teil des deutschen Textarchivs. Dem Seitennummerierungsschema des deutschen Textarchivs wurde nicht gefolgt, da die 'Narrenschiff'-Inkunabeln die Lagenzählung verwenden. Durch den Export aus dem Wiki wurden hier zudem innerhalb eines Attributs @rend äußerliche Merkmale einer Seite vermerkt, jedoch nicht weiter in der Online-Präsentation verwendet.
Die TEI-Dateien wurden im Anschluss in eine XML-Datenbank "eXist-db" eingespeist. Eine vom Projektteam (D. Heublein, Y. Herbst) entwickelte Applikation bündelt alle Komponenten, die für eine Webpräsentation der Daten notwendig sind (XQuery, Bootstrap, CSS, Javascript usw.). Die Webpräsentation auf http://www.narragonien-digital.de wurde in allen Teilen eigenständig vom Projektteam 'Narragonien digital' konzipiert und von Dominika Heublein, Yannik Herbst und Joachim Hamm programmiert. Die eXist-db wird auf den Servern des 'Zentrums für Philologie und Digitalität' an der Univ. Würzburg gehostet und verfügbar gehalten. Die TEI-Dateien stehen zum Download zur Verfügung, eine CC-Lizenz ermöglicht die freie wissenschaftliche Weiterverwendung unter Nennung der Urheber.