Von Howard Gross
Als E-BizDocs Inc., eines der größten Records Management- und Document Imaging-Unternehmen im Umfeld New Yorks, mit dem Projekt für zwei Behörden des Staates New York begann, wurde es mit einer großen Herausforderung konfrontiert: Im Bildungsministerium und im Gesundheitsamt zusammen lagerten mehrere Millionen Seiten juristischer und medizinischer Dokumente, die digital archiviert werden sollten. Allein beim Bildungsministerium fielen 1.000 Kisten mit Bewerbungsunterlagen an, die bis ins Jahr 1995 zurückgehen – über 44 Millionen Seiten. Zusätzlich rechnet die Behörde mit weiteren zwei Millionen Seiten jedes Jahr, die zum Archiv dazukommen. Das Gesundheitsamt hatte mehr als 1.200 Kisten – oder 9 Millionen Seiten – medizinischer Unterlagen, Tabellen und Mitteilungen, die ebenfalls in ein elektronisches Archiv überführt werden sollten. Für noch mehr Projektkomplexität sorgten zusätzlich die Anforderungen der HIPAA Datenschutzverordnung. Sie stellt sicher, dass die Records nach ihrer Digitalisierung datengeschützt sind, indem nur autorisierte Nutzer über eine zentralisierte Datenbank Zugriff auf sie haben. Weiterhin erschwerend kam hinzu, dass die Dokumente auf Wunsch der Behörden in Farbe und mit 300 dpi vorliegen sollten, damit die besonderen Identifikationsmerkmale wie Farbabstufungen auf Diplomen, Fotos sowie verschiedene Unterschriften und handschriftliche Notizen auf medizinischen Unterlagen erhalten würden.
Als Folge der Behördenanforderungen entstand sehr schnell eine extrem große Datenmenge. E-BizDocs sah im Laufe des Projekts voraus, dass der Speicherbedarf um ein Terabyte alle zwei Wochen ansteigen würde. Beispielsweise scannte das Bildungsministerium Bewerbungen vierfarbig für sein „Office of Professions“ ein. Gleichzeitig scannte auch das Gesundheitsamt seine medizinischen Dokumente vierfarbig ein. So resultierte jeder verarbeitete Dokumentstapel – der vom Umfang ungefähr einer Standard-Aktenbox entspricht – in einem Gigabyte Daten.
Daher musste E-BizDocs einen kosteneffizienten Weg finden, die Speicheranforderungen zu reduzieren und gleichzeitig qualitätvolle digitale Reproduktionen der Dokumente zu erstellen. Diese sollten sich außerdem einfach per E-Mail versenden lassen und darüber hinaus viele Jahre für die Behördenmitarbeiter einsehbar sein.
Die Lösung, die E-BizDocs schließlich fand, bestand darin, die Dokumente in PDF/A und per Mixed Raster Content (MRC)-Verfahren komprimiert zu speichern. Die Technologie hierfür lieferte LuraTech, der führende Anbieter von offener, ISO-konformer JPEG2000 und PDF/A-Technologie. Mit dem LuraDocument PDF Compressor Server von LuraTech konnte E-BizDocs hochkomprimierte PDF/A-Dateien aus den farbig gescannten Dokumenten produzieren und dadurch die Speicher- und Bandbreiten-Anforderungen erheblich senken. Tatsächlich erzielten die beiden Behörden durch die Kompressionslösung von LuraTech eine Reduktion der Speicheranforderungen um 90 Prozent. Zusätzlich verbesserten sich die Kapazitäten für den elektronischen Datenverkehr, indem die Dateigrößen von 8 MB (Megabyte) auf 80 KB (Kilobyte) pro Seite schrumpften.
Für das Bildungsministerium und das Gesundheitsamt spielte es auch eine wichtige Rolle, dass die komprimierten Dokumente jetzt im PDF/A-Format vorliegen. Die Behörden müssen viele Unterlagen über 40 Jahre aufbewahren, weshalb sie ein Archivierungsformat benötigen, das auch nach diesem langen Zeitraum noch den Zugriff darauf ermöglicht. PDF/A ist ein ISO-Format zur Langzeitarchivierung, das auf PDF basiert. Indem Anwender ihre Dokumente im PDF/A-Format abspeichern, können sie sicher stellen, dass das originale Aussehen erhalten bleibt und die Dokumente langfristig lesbar sind. Dabei spielt es keine Rolle, mit welchen Systemen oder Applikationen sie erstellt wurden, noch ob Viewer oder Software-Versionen auch zukünftig noch verfügbar sein werden.
Wie PDF/A mit MRC funktioniert
Der LuraDocument PDF Compressor erzeugt mittels MRC-Kompressionstechnologie hochkomprimierte PDF- und PDF/A-Dateien aus farbig und schwarz-weiß gescannten Dokumenten. Dieser bewährte Multi-Layer Segmentierungs- und Kompressionsprozess minimiert auf optimale Weise die Dateigröße gescannter Dokumente und sorgt gleichzeitig für eine hochwertige Bildqualität und beste Lesbarkeit.
Der einzigartige MRC-Prozess trennt Text- und Bildbereiche in separate Schichten auf und wird deshalb auch Multi-Layer Segmentierungsprozess genannt. Anschließend werden diese Segmente optimal komprimiert (Abb. 1). Das dem Kompressionsprozess zugrunde liegende Konzept besteht darin, das Dokument in drei verschiedene Layer aufzuteilen (Segmentierung):
Jeder Layer wird anschließend mit eigenen Algorithmen komprimiert, die speziell an den jeweiligen Datentyp angepasst sind. Der Text wird verlustfrei in das Fax G4-Format oder in das besser komprimierende JBIG2 komprimiert. MRC reduziert farbige Dokumente auf die Größe einer TIFF G4-Datei, während schwarz-weiß gescannte Dokumente ungefähr auf die Hälfte einer Fax G4-Datei schrumpfen.
Einführung der PDF/A Scan- & Kompressionslösung
E-BizDocs testete verschiedene Produkte, bevor die Entscheidung auf die Lösung von LuraTech mit PDF/A und MRC-Kompression fiel. Neben der überragenden Kompressionsleistung gab es für E-BizDocs noch drei weitere ausschlaggebende Faktoren für den LuraDocument Compressor Server:
Durch Einführung der richtigen Lösung konnte E-BizDocs Millionen von Seiten juristischer und medizinischer Dokumente kosteneffizient für das Bildungsministerium und das Gesundheitsamt des Staates New York scannen. Dabei wurde den Behördenvorgaben der Langzeitarchivierung einschließlich einfachem Zugriff auf die digitalen Dokumente und deren Volltext-Durchsuchbarkeit entsprochen. Durch den LuraDocument PDF Compressor konnten die Behörden außerdem ihre Speicheranforderungen um 90 Prozent zurückfahren und durch die Verkleinerung der Dateien von 8 MB auf 80 KB pro Seite ihre Datenübertragung erheblich optimieren. Der durch den Einsatz der LuraTech-Lösung erzielte Erfolg brachte E-BizDocs den Preis für das beste digitale Archiv („The Best Digital Archives for the Office of the Professions“) ein. Dieser wurde im September 2007 anlässlich des Best Solutions Showcase auf der Government Technology überreicht.
Quintessenz aus dieser Erfahrung für E-BizDocs ist, dass die qualitätvolle Replikation von Originaldokumenten in Farbe nicht teuer sein muss, wenn man PDF/As per MRC-Kompression erzeugt. Auch fallen keine riesigen Speicherplatzerfordernisse an. Mit der richtigen Lösung lassen sich Farbdokumente scannen und auf eine Größe komprimieren, die sich mit schwarz-weißen PDFs vergleichen lässt. Darüber hinaus sorgt PDF/A für langfristige Zugriffsmöglichkeiten auf die digitalen Dokumentkopien. Durch die Nutzung dieses Standards konnte E-BizDocs den Behörden die Befürchtungen bezüglich zukünftiger Technologieentwicklungen nehmen und ihnen statt dessen die Wahrung der gesetzlichen Anforderungen zur Vorhaltung der Unterlagen über 40 Jahre und mehr zusichern.
Über den Autor:
Howard Gross ist President und Gründer von E-BizDocs, einem Dokumenten-Management-Unternehmen in privater Hand mit Sitz in Albany, N.Y., USA. Gross ist seit über 20 Jahren in der Records-Management-Branche tätig. Sein Unternehmen wurde bereits mit der Digitalisierung vertraulicher Unterlagen sowie historischer Daten betraut, die von Todesurteilsakten bis hin zu Gerichtsakten aus dem späten 18. Jahrhundert reichen. Howard Gross verfügt über einen MBA des Rensselaer Polytechnic Institute.
Über E-BizDocs
E-BizDocs, Inc. hat seinen Sitz in Albany, N.Y. (USA) und gehört zu den führenden Anbietern der aufkommenden Dokumenten-Management-Branche. Das Unternehmen bietet Kunden einen bedarfsgerechten Ansatz für Records Management, denn seine Philosophie beruht darauf, dass es keine „Einheitsgröße für alle“ gibt. E-BizDocs ist Reseller für marktführende ECM-Lösungen und Scan-Dienstleister für zahlreiche Organisationen wie das Unified Court System, den Hypothekenverband und die Lotterie des Staates New York, die Abteilung für Haftaussetzung, das Bildungsministerium sowie das Gesundheitsamt des Staates New York.
Scandienstleister verbessert mit DocYard von LuraTech seine Produktivität und Präzision bei der Dokumentenverarbeitung
DOCSOLUTIONS reduziert seine Prozessdurchlaufzeiten um mehr als 60 Prozent
IDI beindruckt zukünftige Kunden mit PDF Kompressionslösung
Lösung: PDF Compressor
Branche: Scan-Dienstleister
Stadt Erlangen nutzt PDF/A-Lösungen von LuraTech für Langzeitarchivierung und Datenkompression von Bauakten
Lösung: PDF/A, PDF Compressor
Branche: Öffentliche Verwaltung
DAK migriert Informationsarchiv mit LuraTech nach PDF/A
Lösung: PDF/A, PDF Compressor
Branche: Gesundheitswesen
Gedenkstätte Deutscher Widerstand
Lösung: JPEG2000
Branche: Kulturinstitute
LINE Imaging Systems
Lösung: JPEG2000
Branche: Gesundheitswesen
Datenflut im Griff
Lösung: PDF/A, PDF Compressor
Branche: Scan-Dienstleister
Verkehrsverbund Rhein-Ruhr verbannt Papierarchiv mit PDF/A
Lösung: PDF/A, PDF Compressor
Branche: Öffentliche Verwaltung