LuraTechs Blog

Zur Zeit wird gefiltert nach: Thomas Zellmann
Filter zurücksetzen

PDF/A-2

PDF/A-2 für gescannte Dokumente

Frage:
Welche Erweiterungen bietet PDF/A-2 für gescannte Dokumente?

Antwort:
Der weitere Normteil PDF/A-2 basiert auf dem PDF Standard ISO 32000, der wiederum auf PDF 1.7 (entspricht Acrobat 8) aufsetzt.
Fünf Funktionen können die Verwendung von PDF/A-2 im Scan-Bereich interessant machen:

1. JPEG2000
JPEG2000 wurde mit PDF 1.5 eingeführt und ist somit nur aus zeitlichen Gründen nicht in PDF/A-1 eingeflossen. JPEG2000 bietet eine Lossless-Kompression, die z.B. bei Bibliotheken oft für das sogenannte Digitale Original verwendet wird. Diese Lossless-Datei kann jetzt in PDF/A eingebettet werden und bietet dann die Vorteile, dass eine OCR realisiert werden kann und auch die Metadaten standardkonform in die Datei eingebettet werden können. JPEG2000 mit Lossy-Kompression ist für alle Dokumente interessant, die mit dem LuraTech Ebenen-Verfahren (MRC: Mixed Raster Content) bearbeitet werden. Im Vergleich zu PDF/A-1 sind hier noch mal ca. 10-20% mehr Kompression möglich, aber insbesondere wird mit dem besseren Verfahren die Qualität der Bildanteile besser.

2. Layer bzw. Optional Content
Diese Funktion ist in PDF/A-2 allgemein für z.B. mehrsprachige Dokumente mit dann schaltbaren Sprachen interessant oder wenn z.B. bei Konstruktionsplänen erst ein Überblick gezeigt werden soll und dann Details dazu geschaltet werden sollen. Bei LuraTech-PDF/A-Dateien können dann die 3 Ebenen des MRC-Verfahrens beliebig ein- und ausgeschaltet werden. Das ist dann hilfreich, wenn man z.B. nur die Schwarz/Weiss-Ebene eines Farbdokuments anzeigen möchte oder S/W und Textfarben schalten, um eine Datei beispielsweise ohne störenden Hintergrund zu drucken.

3. PDF/A-2u (U für Unicode)
PDF/A-1 kennt die Conformance Level 1a und 1b. Im Bereich der gescannten Dokumente (oder auch im Output-Bereich) ist die Verwendung von 1b gängige Praxis, weil die Anforderungen von 1a an das Tagging nur mit sehr hohem manuellen Aufwand zu erfüllen wären, die bei Massen-Scanning nicht wirtschaftlich sind. PDF/A-2 hat weiterhin die Level 2a und 2b, aber als Level dazwischen wurde PDF/A-2u eingeführt, um die Vorteile von Unicode ausnutzen zu können. Bei gescannten Dokumenten mit OCR-Volltextfähigkeit wird durch Unicode eine sichere Text-Extraktion und bessere Suche erreicht. Es ist zu erwarten, dass bei Einsatz von PDF/A-2 meist der 2u-Level gewählt werden wird.

4. Portfolios bzw. Collections
Hier bietet PDF/A-2 allgemein die Möglichkeit, PDF/A-Dateien in PDF/A einzubetten. Klassisches Anwendungsbeispiel ist die Konvertierung von E-Mails nach PDF/A, wo mit Collections die E-Mail und die Attachments in eine logische Datei zusammengeführt werden können. Bei gescannten Dokumenten können Collections hilfreich sein, wenn z.B. im Posteingang Einzelseiten gescannt und signiert werden müssen, weil eine spätere Umsortierung in der Sachbearbeitung möglich sein muß, ohne die Signatur zu brechen.

5. Höhere Seitengröße
PDF/A-1 hat ein Seitenlimit von ca. 5m mal 5m und dieses Limit wurde jetzt mit PDF/A-2 auf ca. 381 km mal 381 km erweitert. Für normale Geschäftsdokumente im DIN A4-Format ist das natürlich kein Thema, aber bei Großformat-Scans oder sehr langen Dokumenten kann das alte Limit schon mal erreicht werden. Bei geografischen Anwendungen können Dokumente damit auch im Maßstab 1:1 gespeichert werden, was z.B. Messungen im digitalisierten Plan ermöglicht. LuraTech hat als führender PDF/A-Anbieter den LuraDocument PDF Compressor schon während der PDF/A-Konferenz in Rom als „PDF/A-2 ready“ vorgestellt und ist somit in der Lage, kurz nach ISO-Veröffentlichung des PDF/A-2 Standards seinen Kunden eine Release-Version anzubieten.

Die Top Ten der Mythen über PDF/A

 Mit der zunehmenden Verbreitung von PDF/A als ISO-Standard für die Langzeitarchivierung haben sich leider auch einige Missverständnisse verbreitet. Nach knapp vier Jahren scheinen immer noch einige DMS-Hersteller zu versuchen, das Thema PDF/A „auszusitzen“, aber da gilt dann aus meiner Sicht: „Wer zu spät kommt, den bestraft das Leben!“

Mythos 1: TIFF ist revisionssicher, PDF und PDF/A nicht

Diese Behauptung ist eindeutig falsch. Es gibt kein Dokumentformat, das von sich aus revisionssicher ist. Eine TIFF-Datei kann genauso mit einfachen Tools geändert werden wie ein PDF/A-Dokument oder eben andere Dokumente. Die Unveränderbarkeit von Dokumenten kann nur durch eine Signatur erreicht werden. Wenn man Dateien revisionssicher aufbewahren muss, dann ist weiterhin ein System oder Verfahren notwendig, welches die Revisionssicherheit garantiert.

Mythos 2: PDF ist ein 1-Hersteller-Standard, TIFF ist offengelegt

Ja und Nein. TIFF ist ein Industrie- also ein De-facto-Standard, aber bis heute von keiner internationalen Normierungsorganisation (ISO, DIN etc.) normiert. Sowohl PDF selber (ISO 32000) als auch PDF/A (ISO 19005) sind offengelegte ISO-Standards und damit nicht nur ein De-facto-, sondern auch ein De-jure-Standard.

Mythos 3: PDF/A unterstützt keine Signaturen

Ganz im Gegenteil. PDF/A erlaubt sogar eingebettete Signaturen – bis hin zur qualifizierten Elektronischen Signatur. Der Signatur-Hersteller muss die Signatur dafür lediglich mit seinem Produkt PDF/A-konform anbringen, aber hier gibt es in der Praxis noch Signaturanbieter, die das noch nicht mit Ihren Produkten beherrschen

Mythos 4: PDF/A erlaubt keine Kompression

Falsch. PDF/A erlaubt alle gängigen Kompressions-Schemata wie JBIG2, JPEG, etc. Ausnahme ist LZW, wo zur Zeit der Standardisierung noch Patente gültig waren. Aus diesen zeitlichen Gründen ist auch JPEG2000 noch nicht in PDF/A-1 eingeflossen, kommt dafür aber in der neuen Version, also mit PDF/A-2.

Mythos 5: PDF/A erlaubt keine OCR für gescannte Dokumente

Falsch. OCR ist sowohl in PDF/A-1b als natürlich auch in PDF/A-1a erlaubt. Kleine Spezialität – und vielleicht Ursache der Verwirrung– ist die Ausnahme, dass dieser unsichtbare Font nicht eingebettet sein muss.

Mythos 6: PDF/A-Dateien werden wegen Font-Einbettung zu groß

Ja und Nein. Richtig ist, dass Fonts (außer OCR) eingebettet werden müssen. Das ist aufgrund der praktischen Erfahrungen nur in dem speziellen Anwendungsgebiet Massen-Ausgangspost ggf. ein Problem. In diesem Bereich kann man mit Font-Reduzierung und Subsetting arbeiten oder pragmatisch und unternehmensindividuell auf die Font-Einbettung verzichten. Diese Dateien sind dann nach „reiner Lehre“ keine PDF/As mehr. Es bleiben aber – bis auf die bewusste Ausnahme – alle Vorteile von PDF/A erhalten.

Mythos 7: PDF/A erlaubt keine Metadaten

Im Gegenteil. Gerade durch XMP sind standardisierte Metadaten in PDF/A möglich. Metadaten können, wie bisher, in den umgebenden Systemen verwaltet werden. Ein Vorteil von PDF/A ist, dass diese auch untrennbar in das Dokument eingebettet werden können.

Mythos 8: PDF/A wird nicht von DMS-Systemen unterstützt

Ja und Nein. Einfach gesagt, kann ein ECM-System auch gut PDF/A unterstützen, das mit PDF umgehen kann. Es gibt aber (leider) noch eine Reihe von DMS-Herstellern, die auf ihre ausgereizten TIFF-Viewer setzen, und das kann in der Praxis manchmal wirklich ein „Hemmschuh“ sein.

Mythos 9: PDF/A wird nur von einer kleinen Gruppe hiesiger Anbieter gefördert

Ganz falsch! Es ist sicher richtig, dass PDF/A im deutschsprachigen Raum zuerst – auch durch die Gründung des PDF/A Competence Center in Deutschland – angenommen wurde. Mittlerweile gibt es in vielen Ländern und Branchen Empfehlungen oder sogar gesetzliche Vorgaben für PDF/A. By the way: Das PDF/A Competence Center hat inzwischen über 100 Mitglieder aus circa 20 Ländern!

Mythos 10: PDF/A ist teuer!

Ja und nein. Sicher erfordert der Einsatz von PDF/A-Werkzeugen erst einmal Investitionen. Manchmal lässt sich der ROI durch hochkomprimierte PDF/A-Dateien innerhalb weniger Monate sogar ohne Excel ausrechnen, wie z. B. im Sparkassen-Bereich. Aber das ist vielleicht eher die Ausnahme. Das Problem dabei ist die Bewertung der Vorteile: Denn wie viel ist es wert, wenn durch Format-Vereinheitlichung Schulungsaufwand und Gebühren für Viewer-Lizenzen eingespart werden und in der Zukunft weniger Migrationen notwendig sind? Und nicht zuletzt: Wie bewertet man ein dank standardisierter PDF/A Dateien „gutes“ Archiv?

Besuchen Sie LuraTechs Blog

RSS-Feeds

Letzte Beiträge

PDF/A-2
02.12.2010 14:14
DocYard
11.10.2010 14:07
Vorteile von DocYard
11.10.2010 13:55
DocYard die Integrationsplatform
21.05.2010 13:42

Archiv

LuraTech|Presse|Kontakt|Sitemap|AGB|Datenschutz|Impressum