Frage:
Welche Erweiterungen bietet PDF/A-2 für gescannte Dokumente?
Antwort:
Der weitere Normteil PDF/A-2 basiert auf dem PDF Standard ISO 32000, der wiederum auf PDF 1.7 (entspricht Acrobat 8) aufsetzt.
Fünf Funktionen können die Verwendung von PDF/A-2 im Scan-Bereich interessant machen:
1. JPEG2000
JPEG2000 wurde mit PDF 1.5 eingeführt und ist somit nur aus zeitlichen Gründen nicht in PDF/A-1 eingeflossen. JPEG2000 bietet eine Lossless-Kompression, die z.B. bei Bibliotheken oft für das sogenannte Digitale Original verwendet wird. Diese Lossless-Datei kann jetzt in PDF/A eingebettet werden und bietet dann die Vorteile, dass eine OCR realisiert werden kann und auch die Metadaten standardkonform in die Datei eingebettet werden können. JPEG2000 mit Lossy-Kompression ist für alle Dokumente interessant, die mit dem LuraTech Ebenen-Verfahren (MRC: Mixed Raster Content) bearbeitet werden. Im Vergleich zu PDF/A-1 sind hier noch mal ca. 10-20% mehr Kompression möglich, aber insbesondere wird mit dem besseren Verfahren die Qualität der Bildanteile besser.
2. Layer bzw. Optional Content
Diese Funktion ist in PDF/A-2 allgemein für z.B. mehrsprachige Dokumente mit dann schaltbaren Sprachen interessant oder wenn z.B. bei Konstruktionsplänen erst ein Überblick gezeigt werden soll und dann Details dazu geschaltet werden sollen. Bei LuraTech-PDF/A-Dateien können dann die 3 Ebenen des MRC-Verfahrens beliebig ein- und ausgeschaltet werden. Das ist dann hilfreich, wenn man z.B. nur die Schwarz/Weiss-Ebene eines Farbdokuments anzeigen möchte oder S/W und Textfarben schalten, um eine Datei beispielsweise ohne störenden Hintergrund zu drucken.
3. PDF/A-2u (U für Unicode)
PDF/A-1 kennt die Conformance Level 1a und 1b. Im Bereich der gescannten Dokumente (oder auch im Output-Bereich) ist die Verwendung von 1b gängige Praxis, weil die Anforderungen von 1a an das Tagging nur mit sehr hohem manuellen Aufwand zu erfüllen wären, die bei Massen-Scanning nicht wirtschaftlich sind. PDF/A-2 hat weiterhin die Level 2a und 2b, aber als Level dazwischen wurde PDF/A-2u eingeführt, um die Vorteile von Unicode ausnutzen zu können. Bei gescannten Dokumenten mit OCR-Volltextfähigkeit wird durch Unicode eine sichere Text-Extraktion und bessere Suche erreicht. Es ist zu erwarten, dass bei Einsatz von PDF/A-2 meist der 2u-Level gewählt werden wird.
4. Portfolios bzw. Collections
Hier bietet PDF/A-2 allgemein die Möglichkeit, PDF/A-Dateien in PDF/A einzubetten. Klassisches Anwendungsbeispiel ist die Konvertierung von E-Mails nach PDF/A, wo mit Collections die E-Mail und die Attachments in eine logische Datei zusammengeführt werden können. Bei gescannten Dokumenten können Collections hilfreich sein, wenn z.B. im Posteingang Einzelseiten gescannt und signiert werden müssen, weil eine spätere Umsortierung in der Sachbearbeitung möglich sein muß, ohne die Signatur zu brechen.
5. Höhere Seitengröße
PDF/A-1 hat ein Seitenlimit von ca. 5m mal 5m und dieses Limit wurde jetzt mit PDF/A-2 auf ca. 381 km mal 381 km erweitert. Für normale Geschäftsdokumente im DIN A4-Format ist das natürlich kein Thema, aber bei Großformat-Scans oder sehr langen Dokumenten kann das alte Limit schon mal erreicht werden. Bei geografischen Anwendungen können Dokumente damit auch im Maßstab 1:1 gespeichert werden, was z.B. Messungen im digitalisierten Plan ermöglicht. LuraTech hat als führender PDF/A-Anbieter den LuraDocument PDF Compressor schon während der PDF/A-Konferenz in Rom als „PDF/A-2 ready“ vorgestellt und ist somit in der Lage, kurz nach ISO-Veröffentlichung des PDF/A-2 Standards seinen Kunden eine Release-Version anzubieten.
Frage:
Sollte ich DocYard in meinem Unternehmen einführen, was passiert dann mit den Investitionen, die ich bereits in Softwaremodule getätigt habe?
Antwort:
Bisher getätigte Investitionen sind keinesfalls verloren. Im Gegenteil, durch die modulare Architektur integriert und optimiert DocYard Ihre bestehenden Komponenten mit geringem Aufwand. Einmal in die Plattform eingebunden, können diese Module nun von dort aus zentral gesteuert und überwacht werden und als ein ganzheitliches System genutzt werden. Schon getätigte Investitionen in Systeme und Komponenten, wie zum Beispiel vorhandene OCR Lösungen etc. sind also geschützt und werden durch die Einführung von DocYard sogar noch aufgewertet. Ein Synergieeffekt wird erzielt!
Frage:
Was ist der Vorteil von LuraTechs DocYard gegenüber anderen Produkten? Was ist das besondere an dieser Plattform?
Antwort:
Mit DocYard stellt LuraTech eine vollständige Plattform zur Verfügung, die sämtliche Funktionen der Dokumentenkonvertierung in zentral steuerbare Workflows integriert. Dabei liefern wir nicht nur eine hohe technische Funktionalität, die nachweisbar zu einem schnellen „Return on Invest“ führt, sondern bietet auch hervorragenden Support sowie professionelle Betreuung von Anfang an. Wir begleiten Sie durch Ihr komplettes Projekt, solange Sie uns brauchen. Mit kompetenten Ansprechpartnern. Wir modellieren für Sie einen genau angepassten, umfassen Workflow, den Sie als Anwender später einfach und selbständig nach Ihren geänderten und wachsenden Projektansprüchen ausbauen können, denn DocYard ist zwar hoch skalierbar dabei aber voll flexibel mit seiner modulare und erweiterbare Systemarchitektur.
Kunden, die bereits mit DocYard arbeiten loben vor allem, dass eine genaue Überwachung und Steuerung der Aufträge, innerhalb des Dateimanagers möglich ist. Auch die präzise, schnell arbeitende OCR-Engine ist ein Plus. Aufgaben, die bisher manuell durchgeführt wurden, erledigt DocYard vollautomatisch.
Mit DocYard gibt LuraTech Anwender die Möglichkeit, ihre Vielzahl einzelnen Werkzeuge zu einer vollständigen Lösung für alle Belange zusammenzufassen. Dabei rechnet sich der Einsatz aufgrund flexibler Lizenzmodelle unabhängig davon, ob es sich um kleine oder sehr große zu verarbeitende Belegmengen handelt.
Frage:
DocYard das neue LuraTech Produkt ist eine Integrationsplatform - Wie können wir als Scandienstleister von so einem Produkt profitieren?
Antwort:
Der Schwerpunkt von DocYard sind produktionstaugliche Workflows der Dokumentenkonvertierung. Der Focus dieser Plattform liegt dabei tatsächlich auf Integration - Sie können alle Ihre bereits vorhandenen Tools behalten und sie in DocYard in der Form von DocYard Modulen integrieren. Das bedeutet im einzelnen, dass Sie dann kein riesen Integrationsprojekt starten, kein Rollout im kompletten Unternehmen planen oder Ihre ganze Organisation auf den Kopf stellen müssen. Schon getätigte Investitionen in Systeme und Komponenten sind geschützt und werden durch die Einführung von DocYard aufgewertet.
Stattdessen können Sie klein anfangen, indem Sie einen einzelnen Workflow oder sogar nur einen Teil eines Workflows implementieren und später die Implementierung schrittweise ausbauen. Trotzdem profitieren Sie sofort sowohl von DocYards einheitlichem Management und Reporting als auch von seiner Unterstützung von Parallel Processing.
Darüber hinaus lässt sich unnötiges Kopieren von Dateien von Hand oder per Skript vermeiden - die DocYard Infrastruktur verschiebt alle Daten für sie.
Schließlich ermöglicht DocYard die Integration manueller und automatisierter Prozesse. Das führt zu einer nahtlosen Kombination von z.B. manuellem Indizieren oder interaktiver Qualitätskontrolle mit vollautomatischen Prozessen, wie Kompression oder OCR.
Frage: Ich habe gehört, dass es bald eine neue Version des PDF/A Standards geben wird. Was wird sich damit ändern?
Antwort: Wichtig ist zunächst, dass der neue Normteil PDF/A-2 die bisherige Variante nicht ablösen oder korrigieren wird, sondern PDF/A-1 wird weiter als eigenständiger Standard gültig bleiben. Alle bestehenden oder auch zukünftig erzeugten PDF/A-1 Dokumente sind und bleiben ohne Einschränkung langzeitarchivierbar.
Warum dann eine Version 2? Das PDF Format wird fortlaufend weiter entwickelt. Während PDF/A-1 noch auf der PDF Version 1.4 basiert, ist die aktuelle PDF Spezifikation inzwischen in der Version 1.7. Außerdem ist die PDF Spezifikation im Jahr 2008 auch selbst als ISO Standard veröffentlicht worden (ISO 32000-1). Seit PDF 1.4 wurde eine Vielzahl von neuen Möglichkeiten in das PDF Format aufgenommen, darunter auch einige, die für die Langzeitarchivierung interessant sind. PDF/A-2 wird deshalb auf dem neuen PDF Standard aufbauen. Die neuen Möglichkeiten in PDF/A-2 betreffen unter anderem Dokument-Sammlungen, Metadaten, Bildformate und Transparenz. Für LuraTech Kunden von besonderer Bedeutung wird die Unterstützung von JPEG 2000 in PDF/A-2 sein. Damit werden für hochkomprimierte PDF/A Dokumente, eine noch bessere Qualität und noch geringere Dateigröße erreicht, wie sie bisher nur für die Standard-PDF Ausgabe möglich war.
LuraTech ist aktiv an der Weiterentwicklung des PDF/A-Standards beteiligt, so dass unsere Kunden mit die ersten sein werden, die von den neuen Entwicklungen profitieren können.
Mit der zunehmenden Verbreitung von PDF/A als ISO-Standard für die Langzeitarchivierung haben sich leider auch einige Missverständnisse verbreitet. Nach knapp vier Jahren scheinen immer noch einige DMS-Hersteller zu versuchen, das Thema PDF/A „auszusitzen“, aber da gilt dann aus meiner Sicht: „Wer zu spät kommt, den bestraft das Leben!“
Mythos 1: TIFF ist revisionssicher, PDF und PDF/A nicht
Diese Behauptung ist eindeutig falsch. Es gibt kein Dokumentformat, das von sich aus revisionssicher ist. Eine TIFF-Datei kann genauso mit einfachen Tools geändert werden wie ein PDF/A-Dokument oder eben andere Dokumente. Die Unveränderbarkeit von Dokumenten kann nur durch eine Signatur erreicht werden. Wenn man Dateien revisionssicher aufbewahren muss, dann ist weiterhin ein System oder Verfahren notwendig, welches die Revisionssicherheit garantiert.
Mythos 2: PDF ist ein 1-Hersteller-Standard, TIFF ist offengelegt
Ja und Nein. TIFF ist ein Industrie- also ein De-facto-Standard, aber bis heute von keiner internationalen Normierungsorganisation (ISO, DIN etc.) normiert. Sowohl PDF selber (ISO 32000) als auch PDF/A (ISO 19005) sind offengelegte ISO-Standards und damit nicht nur ein De-facto-, sondern auch ein De-jure-Standard.
Mythos 3: PDF/A unterstützt keine Signaturen
Ganz im Gegenteil. PDF/A erlaubt sogar eingebettete Signaturen – bis hin zur qualifizierten Elektronischen Signatur. Der Signatur-Hersteller muss die Signatur dafür lediglich mit seinem Produkt PDF/A-konform anbringen, aber hier gibt es in der Praxis noch Signaturanbieter, die das noch nicht mit Ihren Produkten beherrschen
Mythos 4: PDF/A erlaubt keine Kompression
Falsch. PDF/A erlaubt alle gängigen Kompressions-Schemata wie JBIG2, JPEG, etc. Ausnahme ist LZW, wo zur Zeit der Standardisierung noch Patente gültig waren. Aus diesen zeitlichen Gründen ist auch JPEG2000 noch nicht in PDF/A-1 eingeflossen, kommt dafür aber in der neuen Version, also mit PDF/A-2.
Mythos 5: PDF/A erlaubt keine OCR für gescannte Dokumente
Falsch. OCR ist sowohl in PDF/A-1b als natürlich auch in PDF/A-1a erlaubt. Kleine Spezialität – und vielleicht Ursache der Verwirrung– ist die Ausnahme, dass dieser unsichtbare Font nicht eingebettet sein muss.
Mythos 6: PDF/A-Dateien werden wegen Font-Einbettung zu groß
Ja und Nein. Richtig ist, dass Fonts (außer OCR) eingebettet werden müssen. Das ist aufgrund der praktischen Erfahrungen nur in dem speziellen Anwendungsgebiet Massen-Ausgangspost ggf. ein Problem. In diesem Bereich kann man mit Font-Reduzierung und Subsetting arbeiten oder pragmatisch und unternehmensindividuell auf die Font-Einbettung verzichten. Diese Dateien sind dann nach „reiner Lehre“ keine PDF/As mehr. Es bleiben aber – bis auf die bewusste Ausnahme – alle Vorteile von PDF/A erhalten.
Mythos 7: PDF/A erlaubt keine Metadaten
Im Gegenteil. Gerade durch XMP sind standardisierte Metadaten in PDF/A möglich. Metadaten können, wie bisher, in den umgebenden Systemen verwaltet werden. Ein Vorteil von PDF/A ist, dass diese auch untrennbar in das Dokument eingebettet werden können.
Mythos 8: PDF/A wird nicht von DMS-Systemen unterstützt
Ja und Nein. Einfach gesagt, kann ein ECM-System auch gut PDF/A unterstützen, das mit PDF umgehen kann. Es gibt aber (leider) noch eine Reihe von DMS-Herstellern, die auf ihre ausgereizten TIFF-Viewer setzen, und das kann in der Praxis manchmal wirklich ein „Hemmschuh“ sein.
Mythos 9: PDF/A wird nur von einer kleinen Gruppe hiesiger Anbieter gefördert
Ganz falsch! Es ist sicher richtig, dass PDF/A im deutschsprachigen Raum zuerst – auch durch die Gründung des PDF/A Competence Center in Deutschland – angenommen wurde. Mittlerweile gibt es in vielen Ländern und Branchen Empfehlungen oder sogar gesetzliche Vorgaben für PDF/A. By the way: Das PDF/A Competence Center hat inzwischen über 100 Mitglieder aus circa 20 Ländern!
Mythos 10: PDF/A ist teuer!
Ja und nein. Sicher erfordert der Einsatz von PDF/A-Werkzeugen erst einmal Investitionen. Manchmal lässt sich der ROI durch hochkomprimierte PDF/A-Dateien innerhalb weniger Monate sogar ohne Excel ausrechnen, wie z. B. im Sparkassen-Bereich. Aber das ist vielleicht eher die Ausnahme. Das Problem dabei ist die Bewertung der Vorteile: Denn wie viel ist es wert, wenn durch Format-Vereinheitlichung Schulungsaufwand und Gebühren für Viewer-Lizenzen eingespart werden und in der Zukunft weniger Migrationen notwendig sind? Und nicht zuletzt: Wie bewertet man ein dank standardisierter PDF/A Dateien „gutes“ Archiv?
Frage: Ich habe eine sehr große Menge an Dokumenten, die wichtige Informationen enthalten und die ich mindestens zehn Jahre aufbewahren muss. Soviel ich weiß, ist PDF/A das beste Format für die Langzeitarchivierung. Kann ich alle meine Dokumente mit dem PDF Compressor Enterprise in hochkomprimierte PDF/A Dokumente verwandeln und diese im Volltext durchsuchbar machen?
Antwort: Ja, PDF/A ist ein ISO-standardisiertes Format und tatsächlich das beste Format für die Langzeitarchivierung! Mit PDF/A ist gewährleistet, dass Dokumente in einem Format archiviert sind, mit dem ihre Verfügbarkeit und Lesbarkeit erhalten bleiben – unabhängig davon, mit welchem Programm oder System sie ursprünglich erzeugt wurden. Und ja, der PDF Compressor Enterprise ist das richtige Werkzeug für Sie, denn er verbindet unsere preisgekrönte Mixed-Raster-Content (MRC Layer-Verfahren) Kompressionstechnologie mit der OCR-FineReader-Technologie von ABBYY. Durch den PDF Compressor Enterprise werden Ihre Dokumente im Stapelverfahren in hochkomprimierte PDF/A Dokumente umgewandelt, welche darüber hinaus dann im Volltext durchsuchbar sind. Die Dokumente belegen dann nur noch sehr wenig Speicherplatz bleiben aber durch das PDF/A Format langfristig lesbar.
Frage:
Hallo! Wir sind Scandienstleister und möchten Ihren PDF Compressor Enterprise bei einer Kundenausschreibung (Scanprojekt) anbieten. Allerdings würde ich vorher gerne die Projektlaufzeit ermitteln. Welche Angaben benötigen Sie, um mir sagen zu können, wie lange ich brauche um alle gescannten Seiten mit dem PDF Compressor Enterprise nach PDF/A zu konvertieren und zu komprimieren?
Antwort:
Guten Tag. Nun, man kann tatsächlich nicht pauschal sagen, wie lange Sie für die Bearbeitung pro Seite brauchen, da das von unterschiedlichen Faktoren abhängt. Zu diesem Zweck haben wir eine kleine Tabelle entwickelt, die die wichtigsten Eckdaten unserer Kunden abfragt und somit eine schnellstmögliche Beantwortung der Anfragen ermöglichen soll.
Sobald wir diese Angaben haben, rechnen wir Ihnen gerne aus, wie viel Zeit Sie für Ihr Projekt benötigen und, wenn Sie eine feste Zeitvorgabe haben, wie viele CPU Cores Sie dann sinnvollerweise nutzen sollten. Dadurch wird auch eine bessere Beratung hinsichtlich unserer Lizenzmodelle erreicht.
Für mehr Informationen zu unseren flexiblen Lizenzmodellen klicken Sie bitte hier!
Frage:
Guten Tag, ich habe eine Frage zu Ihren Lizenzmodellen. Zurzeit plane ich ein neues Scanprojekt. Dabei sollen alle gescannten Seiten nach PDF/A konvertiert und komprimiert werden. Ich muss ca. 4 Millionen Seiten, zu 95% DIN A4, die übrigen in DIN A0, in Farbe, 24 Bit auf 150 dpi, ohne OCR innerhalb von vier Monaten verarbeiten. Welches Ihrer Lizenzmodelle des PDF Compressor Enterprise würde da am besten zu passen?
Antwort:
Zunächst einmal empfehlen wir Ihnen in 200-300dpi zu scannen, bei 150dpi geht die Qualität doch deutlich zurück. Die Dateigrößen sind aber später als Resultat unserer Kompression nur unwesentlich größer, egal ob 150 oder 300 dpi.
Auf 200dpi gerechnet (150 wäre dann höchstens schneller) bedeutet das:
4.000.000 Seiten in vier Monaten ergibt 1.000.000 pro Monat. Davon liegen 5% in DIN A0 und der Rest in DIN A4 vor. 50.000 DIN A0 Seiten entsprechen 800.000 DIN A4 Seiten(äquivalent). Das heißt, dass 1.750.000 Mio. Seiten monatlich für die Ermittlung der Rechenzeit herangezogen werden müssen. Bei Ihren Bedingungen (Farbe, 24 Bit auf 200 DPI, ohne OCR) schafft ein CPU Kern etwa 1.670.000 Seiten pro Monat. Mit noch nötigem „Sicherheitsaufschlag“, würden wir Ihnen daher die Nutzung von 2 CPU Kernen empfehlen.
Es gibt nun zwei Möglichkeiten. Entweder Sie wählen den PDF Compressor Enterprise im Lizenzmodell Basic für 20.000 Seiten mit einer zusätzlichen Cartriges für 4.000.000 Seiten. Dabei ist nur die Basiclizenz investiert und die Seiten sind ein einmaliges „Verbrauchsmaterial“.
Hier ist der große Vorteil, dass alle CPU-Kerne eines Rechners genutzt werden. Das bedeutet viel Sicherheit bezüglich der Rechenzeit, wenn die Lizenz z.B. auf einem Quadcore-Rechner installiert wird. Außerdem ist der Support hier inklusive.
Die zweite Möglichkeit wäre der PDF Compressor Enterpriseim Lizenzmodell Server. Wie gesagt, würden wir Ihnen die Lizenz für zwei CPU Cores empfehlen. Der jährliche Support käme dann zwar extra dazu, dafür hätten Sie aber eine zeitlich und mengenmäßig unlimitierte Lizenz in den Folgejahren, die Sie zum Beispiel für andere Projekte einsetzen können.
Für mehr Informationen zu unseren flexiblen Lizenzmodellen klicken Sie bitte hier!
Frage:
Ich habe eine große Anzahl von gescannten Dokumenten in einer hierarchischen Ordnerstruktur. Ein Ordner beinhaltet diverse Unterordner für jeden einzelnen Kunden. Ist es möglich mit dem PDF Compressor alle Dokumente so zu komprimieren, dass diese Ordnerstruktur mit allen Unterordnern erhalten bleibt?
Antwort:
Das ist kein Problem. Wählen Sie im PDF Compressor bei den Job-Einstellungen unter „ ISO Standard Input“ einfach die Option “Include subfolders“. So werden mit dem PDF Compressor alle Dokumente komplett komprimiert und die hierarchische Ordnerstruktur bleibt erhalten und wird mit in den Ausgangsordner übernommen.