Das kulturelle Gedächtnis der Niederlande
Niederländische Nationalbibliothek stellt acht Millionen Zeitungsseiten aus mehreren Jahrhunderten ins Web – Zugriff über LuraWave JP2 Image Content Server
Seit 2001 beschäftigt sich die niederländische Nationalbibliothek, die „Koninklijke Bibliotheek“ (KB), mit der Digitalisierung und Online-Bereitstellung ihrer Dokumenten-Bestände.
Auf das richtige Format und eine funktionierende Viewer-Technologie kommt es dabei insbesondere bei der Präsentation von Zeitungen im Internet an. Hier hat die KB als Standardformat JPEG 2000 gewählt und nutzt den LuraWave JP2 Image Content Server (ICS).
Die traditionsreiche Koninklijke Bibliotheek mit Sitz in Den Haag ist seit 1798 Nationalbibliothek und als eine der größten und modernsten Bibliotheken Europas von überregionaler Bedeutung. Darüber hinaus ist sie Kompetenzzentrum für Digitalisierungs- und Archivierungsfragen und übernimmt hier Vorbildfunktion. Schon in den frühen 90er Jahren – einer Zeit, in der sich die Bedeutung des Internets erst allmählich im Bewusstsein der Öffentlichkeit verankerte – war die Koninklijke Bibliotheek mit einer ersten Webseite online. 2001 fiel dann der Startschuss für das Projekt „Gedächtnis der Niederlande“. Ziel dieser von der KB koordinierten nationalen Initiative ist es, Kulturerbe-Dokumente aus verschiedenen gesellschaftlichen Institutionen mittels Digitalisierung zu speichern und per Internet (http://kranten.kb.nl/)der Öffentlichkeit zugänglich zu machen.
Zeitungsartikel von 1618 bis 1995
Ein erster Schritt war 2003 die Digitalisierung von Parlaments-Dokumenten aus den Jahren 1814 bis 1995 – mit rund 2,3 Millionen gescannter Seiten das erste Massenprojekt, das gleichzeitig Generalprobe und Vorbereitung für kommende ähnliche Vorhaben war. Ein solches stand 2006 mit der Digitalisierung von acht Millionen Tageszeitungen aus den Jahren 1618 bis 1995 an. Das auf fünf Jahre angesetzte Projekt „Digital Daily Newspapers“ (DDD) wird planmäßig Ende 2011 in der ersten Phase abgeschlossen sein, weitere Zeitungen und Zeitschriften sollen anschließend digitalisiert werden.
Für die Bibliothek ist DDD das mit Abstand größte Digitalisierungsvorhaben im Rahmen der Initiative „Gedächtnis der Niederlande“. „Durchschnittlich 200.000 Seiten pro Monat von Papier in elektronisches Format umzuwandeln und für die Web-Präsentation aufzubereiten, stellte völlig neue Anforderungen an unsere gesamte Organisation, was Personalfragen angeht sowie das Schaffen geeigneter IT-Infrastrukturen und eines Workflow Managements“, erklärt Edwin Klijn, Projekt Manager bei der Nationalbibliothek.
Auf den richtigen Viewer kommt es an
Angesichts des immensen Datenbestandes von fast acht Millionen Seiten und des Zeitungs-Großformates musste sich die KB zunächst mit der Frage nach dem zu wählenden Dateiformat und einem geeigneten Viewer beschäftigen. Für die Recherche in den Parlaments-Dokumente genügt es, deren Scans als ganze PDFs bereitzustellen. „Die Darstellung von Zeitungen ist kniffliger“, sagt Edwin Klijn, „zum einen, weil der User automatisch zoomen muss, um einzelne Inhalte zu erfassen. Und zweitens soll er auch bestimmte Artikel aus der Zeitungsseite separieren und lokal bei sich abspeichern können.“
Diese Möglichkeiten eröffnet die Nationalbibliothek der niederländischen Bevölkerung durch die Einführung des LuraWave JP2 Image Content Servers. Die speziell für Archive und Bibliotheken konzipierte Software von LuraTech ermöglicht eine Bereitstellung hochwertiger Images über das Web. Internet-Nutzer können damit ohne zusätzliche Software in den Dokumentbeständen der Nationalbibliothek suchen und blättern. Die Besonderheit: Die einzelnen Seiten werden zunächst in hoher Qualität eingescannt und dann in ISO konforme JPEG 2000-Dateien gewandelt.
Image Content Server als markterprobte Lösung bietet ausreichend Investitionsschutz
„Wir haben uns am Markt umgesehen und festgestellt: Die Auswahl an JPEG 2000 Tools ist recht überschaubar. LuraTech bietet hier das Werkzeug mit dem größten Funktionsumfang“, sagt Astrid Verheusen, Program Managerin Innovation and Development Department der Nationalbibliothek, und erklärt weiter: „Beim Image Content Server handelt es sich um eine markterprobte Technologie, die uns Investitionsschutz verspricht. Viele renommierte Organisationen weltweit nutzen die Software bereits, daher gibt es auch eine breite User Community, mit der wir bei Bedarf regelmäßigen Austausch pflegen können. Auch der Support von LuraTech ist sehr gut.“
Mit der Umstellung ihrer Archivierungsstrategie von TIFF-Dateien auf JPEG 2000 (ISO 15444) bei den Zeitungen übernimmt die Nationalbibliothek eine europaweite Vorreiterrolle und hat einen wichtigen Schritt zur weiteren Verbreitung des Standards getan, insbesondere in Archiven und Bibliotheken. Weltweit stehen diese vor der Herausforderung, ihre historischen Datenbestände verlustfrei als sogenannte digitale Originale zu archivieren. Durch Nutzung von JPEG 2000 lassen sich dabei deutlich Speicherkosten im Vergleich mit unkomprimierten TIFF-Dateien sparen. Die Langzeitarchivierung der Zeitungen als TIFF-Dateien hätte bei der Bibliothek rund 650 TB Speicherplatz beansprucht und Unterhaltskosten in Millionenhöhe verursacht. Von den möglichen Alternativen schnitt die Kompression mit JPEG 2000 am besten ab hinsichtlich Speicherkapazität, Image-Qualität, Langfristigkeit und Funktionalität.
Einzelne Artikel heranzoomen, separieren und lokal abspeichern
Mit dem Image Content Server hat die KB ein leistungsfähiges Viewer-Werkzeug gewählt. Kunden können damit bestimmte Stellen einer Zeitungsseite heranzoomen. Mit der Rout dating Funktion kann der User einzelne Artikel auswählen und diese lokal als JPEG abspeichern. „Was diese Funktionen angeht, ist der Image Content Server sehr ausbaufähig“, erklärt Astrid Verheusen, „wir haben auch einige Add-ons hinzuprogrammiert wie zum Beispiel das Hervorheben bzw. Verstecken von Texten.“
Mehrere Scandienstleister in den Niederlanden sind mit der Digitalisierung der Zeitungsseiten und ihrer Speicherung im JPEG 2000-Format beschäftigt. Dabei werden von jeder Seite sowohl ein hochauflösendes Master File für Backup-Zwecke wie auch ein kleineres Access File für die Darstellung im Web angelegt. Die weitere Bearbeitung übernehmen Dienstleister in Deutschland, Rumänien, Kambodscha und Laos. Denn um den Zugriff auf einzelne Artikel innerhalb der Scans zu ermöglichen, müssen die Seiten nochmals in verschiedene Artikel aufgeteilt werden. Die Nationalbibliothek hat dafür vier unterschiedliche Kategorien eingerichtet: Anzeigen, allgemeine Nachrichten, Familiennachrichten und Bilder inklusive Bildunterschriften.
Zusammenarbeit mit Google bei weiteren Buchprojekten
Für die vorgesehene Digitalisierung ihres Buchbestandes hat sich die Bibliothek, wie schon andere renommierte Institute weltweit, für eine Zusammenarbeit mit Google entschieden. Dabei wird es speziell um vor dem Jahr 1900 entstandene Bücher gehen, die nicht mehr dem Urheberrecht unterliegen. Das Modell ist hier ein anderes als bei der Zusammenarbeit mit den Scanpartnern im DDD-Projekt. Während diese als bezahlte Dienstleister beauftragt werden, erstellt Google die Scans unentgeltlich und stellt sie der Bibliothek zur Verfügung, darf sie aber im Gegenzug selbst verwenden.
Ziel der Koninklijke Bibliotheek ist es, alle digitalisieren Inhalte künftig über eine zentrale Webseite zur Verfügung zu stellen. Bislang müssen die User für ihre Recherche in den Sammlungen von Parlaments-Dokumenten, Zeitungen, Magazinen, Radiobeiträgen und künftig Büchern noch über jeweils separate Web-Adressen einsteigen. „Schon bald werden wir dafür ein zentrales Portal bereitstellen, welches die bislang getrennten Sammlungen unter einer Oberfläche vereint“, erklärt Edwin Klijn, „denn die User suchen in der Regel nach Inhalten unabhängig von der Quelle.“
Scandienstleister verbessert mit DocYard von LuraTech seine Produktivität und Präzision bei der Dokumentenverarbeitung
DOCSOLUTIONS reduziert seine Prozessdurchlaufzeiten um mehr als 60 Prozent
IDI beindruckt zukünftige Kunden mit PDF Kompressionslösung
Lösung: PDF Compressor
Branche: Scan-Dienstleister
Stadt Erlangen nutzt PDF/A-Lösungen von LuraTech für Langzeitarchivierung und Datenkompression von Bauakten
Lösung: PDF/A, PDF Compressor
Branche: Öffentliche Verwaltung
DAK migriert Informationsarchiv mit LuraTech nach PDF/A
Lösung: PDF/A, PDF Compressor
Branche: Gesundheitswesen
Gedenkstätte Deutscher Widerstand
Lösung: JPEG2000
Branche: Kulturinstitute
LINE Imaging Systems
Lösung: JPEG2000
Branche: Gesundheitswesen
Datenflut im Griff
Lösung: PDF/A, PDF Compressor
Branche: Scan-Dienstleister
Verkehrsverbund Rhein-Ruhr verbannt Papierarchiv mit PDF/A
Lösung: PDF/A, PDF Compressor
Branche: Öffentliche Verwaltung