Über das Projekt
Die hier veröffentlichten Daten sind Ergebnisse des Teilprojektes Digitalisierung historischer Zeitungen im Rahmen des Gesamtprojektes Digital Humanities Labor zur grenzüberschreitenden historischen Forschung , das die Universität Passau und die Südböhmische Universität Budweis von Juni 2014 bis September 2015 durchführten.
Erzeugung der Daten
Die Daten in der hier bereitgestellten Form wurden in folgenden Arbeitsschritten erstellt:
1. Scannen der gedruckten Zeitungsbände
Die gedruckten Zeitungsbände wurden in Doppelseiten mit einer Auflösung von 300 dpi mit 16-bit Farbtiefe gescannt und verlustfrei im TIFF-Dateiformat gespeichert. Dazu wurde ein Colortrac-Scanner der Staatlichen Bibliothek Passau eingesetzt.
2. Vorverarbeitung der Bilddaten
Die TIFF-Bilddaten wurden in üblicher Weise vorverarbeitet, um die bestmögliche Qualität der nachfolgenden Texterkennung zu gewährleisten: Die Bilder wurden im Vergleich zum Original entzerrt, gedreht sowie binarisiert (in schwarzweiß umgewandelt). Im Zeitungsbetrachter ist jeweils das vorverarbeitete Bild zu sehen, die Original-Scans können im Format JPG heruntergeladen werden.
3. Automatische Seitenaufteilung, Zonierung und Texterkennung (OCR)
Zur Texterkennung wurde die auf Frakturschrift spezialisierte Software ABBYY Recognition Server Version 4 eingesetzt, welche zunächst (a) die Doppelseiten trennte, (b) eine Zonierung der Seiten in zahlreiche Text- und Bildblöcke vornahm und schließlich (c) die eigentliche Texterkennung innerhalb der Blöcke vornahm, die als Text klassifiziert wurden.
4. Manuelle Korrektur der Artikel-Überschriften
Die Qualität der automatischen Texterkennung fiel speziell bei den Überschriften deutlich unterdurchschnittlich aus (aufgrund abgeblätterter Druckfarbe). Da die Überschriften jedoch für die Erschließung des Inhalts wichtig sind, wurde hier eine vollständige manuelle Korrektur der OCR-erzeugten Textdaten vorgenommen. Nicht korrigiert wurden die Fehler in den Artikeltexten selbst.
5. Rekonstruktion der Artikel (Strukturierung)
Die OCR-Software konnte das mitunter komplizierte Layout der Zeitungsseiten mit mehreren Spalten, Bildern, Anzeigen etc. überwiegend korrekt automatisch zonieren. Die Zusammenfassung inhaltlich zusammengehöriger Text- und Bildblöcke (bei Artikeln über mehrere Spalten oder über die Seitengrenze hinweg) ist jedoch noch nicht automatisiert möglich und wurde daher manuell vorgenommen. Dadurch ist es möglich, den vollständigen Text eines jeden Artikels aus den isolierten Textblöcken zusammenzufügen, welche die OCR-Software erzeugt. Es kam hierzu die Software Aletheia zum Einsatz.
6. Verknüpfung der Textdaten mit den Bildern
Schließlich wurden die durch OCR erzeugten Artikeltexte mit den zugehörigen Bereichen der Bildscans verbunden. So wird die "Zweiwege-Navigation" ermöglicht, die es gestattet, durch Klick auf den entsprechenden Bereich im Bild den zugehörigen Text anzuzeigen und umgekehrt beim Aufrufen eines Artikeltextes die Bildanzeige auf den zugehörigen Bildbereich zu bewegen.
Einschränkungen
Unkorrigierte Ausgaben
Die Korrektur der Überschriften und die Strukturierung der Zonen (Bearbeitungsschritte 4 bis 6) wurden bisher erst für einen Teil der Ausgaben abgeschlossen. Bei den übrigen Ausgaben sind die Funktionalitäten bei Anzeige und Navigation derzeit eingeschränkt.
Fehlende Ausgaben
Zudem konnten einige Ausgaben aufgrund von spezifischen Schwierigkeiten im Scan- und Bearbeitungsprozess noch nicht veröffentlichungsreif aufbereitet werden.
Fehler in den Artikeltexten
Diese Texte wurden mittels automatischer Texterkennung (Optical Character Recognition, OCR) erzeugt. Dies ist ein Vorgang, der aus einem Bild (in diesem Fall dem Foto einer Zeitungsseite) einen elektronischen Text erzeugt. Der elektronische Text ermöglicht es Nutzern der Daten, nach Namen, Orten und anderen Begriffen zu suchen, die in den Zeitungstexten vorkommen.
Die so automatisch erzeugten Texte sind häufig nicht völlig fehlerfrei, insbesondere wenn es sich um heute nicht mehr gebräuchliche Schrifttypen wie Frakturschrift handelt. Auch manche Eigenschaften der Vorlagen wie enge Bindungen und durchscheinendes bzw. nicht alterungsbeständiges Papier und abblätternde Druckfarbe können die Erkennungsqualität beeinträchtigen.