Capture

Alle im Zusammenhang mit der Erfassung, Erkennung und Klassifizierung von Dokumenten oder besser Objekten durchzuführenden Tätigkeiten.

Bei verschiedenen Verfahren werden mehrere Stufen und Techniken unterschieden – von der einfachen Erfassung der Information bis zur komplexen Aufbereitung durch eine automatische Klassifikation.

Definition aus Wikipedia:

Erfassung englisch, Capture (Abschnitt in Enterprise Content Management)
Die Kategorie Capture beinhaltet Funktionalität und Komponenten zur Erstellung, Erfassung, Aufbereitung und Verarbeitung von analogen und elektronischen Informationen. Es sind mehrere Stufen und Techniken unterschieden, von der einfachen Erfassung der Information bis zur komplexen Aufbereitung durch eine automatische Klassifikation. Die Capture-Komponenten werden auch häufig als „Input“-Komponenten zusammengefasst und als „Input Management“ bezeichnet.

Einleitung

Dokumentenmanagement- oder Enterprise-Content-Management-Systeme (folgend: ECM) ganz gleich welcher Colour ziehen ihren Nutzen immer aus den bereitgestellten Informationen. Aber bevor diese genutzt werden können, müssen sie den entsprechenden Systemen auch zugeführt werden. Deswegen ist die erste und wichtigste Stufe eines ECM-Systems diese Funktionalität. Man verwendet hierbei den Begriff „Capture“.

Unter „Capture“ versteht man alle im Zusammenhang mit der Erfassung, Erkennung und Klassifizierung von Dokumenten oder besser Objekten durchzuführenden Tätigkeiten.
„Capture“ hat sich zwischenzeitlich zu einem eigenständigen Bereich entwickelt, der sowohl ECM-Systeme und Archive als auch operative Systeme (z.B. ERP-Anwendungen) mit Daten beliefert. Die Erfassung der im ECM zu verwaltenden Daten ist ein wichtiger Bestandteil beim Dokumenten-Management. Da hierbei zu einem wesentlichen Teil die späteren Nutzungsmöglichkeiten bestimmt werden, sollte man der Erfassung sowohl der Planung als auch später der Durchführung und der Kontrolle entsprechende Aufmerksamkeit widmen. Die unterschiedlichen Dokumentenquellen – Papier, COLD, E-Mail, Office-Dokumente usw. – erfordern in der Regel auch unterschiedliche Erfassungs-, Attributierungs-/ Klassifizierungs- und Prüfschritte. Teilweise kommen bei der Erfassung zusätzliche rechtliche Anforderungen hinzu – etwa bei eingehenden elektronischen Rechnungen oder Belegen im Sozialversicherungsbereich.
Das Spektrum der Erfassungsverfahren ist entsprechend groß. Die verschiedenen Verfahren verlangen teilweise nach recht unterschiedlichen Techniken. In vielen Unternehmen kommen dabei gleich mehrere Erfassungsverfahren parallel zum Einsatz, um dem Anspruch des Enterprise-Dokument-Management-Anspruchs zu genügen und alle für das Unternehmen relevanten Dokumente möglichst integriert und weitgehend vollständig elektronisch zu erfassen und zu verwalten.
 

Einordnung in das ECM-Modell:

Überblick über die Komponenten von „Capture“

Die AIIM (Association for Image and Information Management), eine US-amerikanische Anwender- und Anbietervereinigung, hat bereits vor vielen Jahren ein ECM-Model vorgestellt, welches sehr transparent und anschaulich die Teile einer DMS/ECM-Anwendung darstellt. 

Die Kategorie „Capture“ beinhaltet Funktionalität und Komponenten zur Erstellung, Erfassung, Aufbereitung und Verarbeitung von analogen und elektronischen Informationen. Es werden mehrere Stufen und Techniken unterschieden – von der einfachen Erfassung der Information bis zur komplexen Aufbereitung durch eine automatische Klassifikation. Die Capture-Komponenten werden auch häufig als „Input“-Komponenten zusammengefasst und als „Input-Management“ bezeichnet.

Generell kann unterschieden werden zwischen Indexing, Input Designs und Categorization. 

Anders als im Deutschen beschränkt sich im Angloamerikanischen der Begriff „Indexing“ auf die manuelle Vergabe von Indexattributen, die in der Datenbank einer „Manage“-Komponente für Verwaltung und Zugriff auf die Informationen benutzt wird. Im Deutschen werden hier auch Begriffe wie „Indizieren“, „Attributieren“ oder „Verschlagworten“ benutzt. 
Sowohl die automatische als auch die manuelle Indizierung kann durch hinterlegte Input Designs (Profile) erleichtert und verbessert werden. Solche Profile können z.B. Dokumentenklassen beschreiben, die die Anzahl der möglichen Indexwerte beschränken oder bestimmte Kriterien automatisch vergeben. Input Designs schließt auch die Eingabemasken und deren Logik bei der manuellen Indizierung ein.

„Categorization“ beschreibt den Prozess der automatischen Klassifikation oder Kategorisierung auf Basis der in den elektronischen Informationsobjekten enthaltenen Informationen (z.B. OCR-gewandelte Faksimiles, Office-Dateien oder Ausgabedateien). Hierbei können Programme zur automatischen Klassifikation selbstständig Index-, Zuordnungs- und Weiterleitungsdaten extrahieren. Solche Systeme können auf Basis vordefinierter Kriterien – oder selbstlernend – Informationen auswerten.
Der Flaschenhals der digitalen Informationsverarbeitung ist vor allem die schnelle Erfassung der Informationen. Sie gilt im besonderen Maße für existierendes Schriftgut, das mittels Scannertechnologie in ein elektronisches Informationssystem überführt werden soll. Dazu zählen Posteingang, sonstige Papierdokumente, eingehende Vordrucke etc. Ein weiteres Problem liegt darin, diese NCI-Dokumente (NCI – Non Coded Information) mit Zugriffsinformationen zu versehen. Dies kann manuell beim Scannen, durch automatisches Erkennen von Text oder Barcode und durch Ergänzung fehlender Informationen aus bestehenden DV-Systemen geschehen. Für die automatische Extraktion von Zugriffsinformationen, der sogenannten Indexinformation, sind Techniken wie OCR (Optical Character Recognition), ICR (Intelligent Character Recognition), HCR (Handprint Character Recognition), OMR (Optical Mark Recognition), Barcode u.ä. erforderlich. Diese können nur unter bestimmten qualitativen Voraussetzungen der Dokumentenvorlagen sicher gewonnen werden. In diesem Rahmen ist auch „Schriftgut“ zu sehen, das gar nicht mehr in Papierform erzeugt wird.
Elektronische Dokumente erlauben eine einfache automatische Indizierung und gewinnen bei der Spei-cherung von eigen erstellten Dokumenten (z.B. Ausgangsrechnungen, Office-Dokumenten, E-Mails) oder elektronischen, eingehenden Informationsobjekten (z.B. E-Mails, EDI-Dokumente etc.) immer mehr an Bedeutung. Die automatische Übernahme von Daten erfolgt in der Regel im sogenannten COLD-Verfahren.

Um die generelle Lesbarkeit eingescannter Informationen und die Basis für eine optimale Erkennbarkeit für die eingesetzten Extraktionstechniken sicher zu stellen, ist es ratsam, entsprechende Bildbearbeitungstechniken einzusetzen.
Eine zusätzliche Optimierung des Erfassungsprozesses lässt sich durch die Verarbeitung von Formularen und Vordrucken erreichen. Hierbei werden industriell oder individuell gedruckte Vordrucke beim Scannen erfasst. Zusätzlich kommen anschließend häufig Erkennungstechniken zum Einsatz, da gut gestaltete Vordrucke eine weitgehend automatische Verarbeitung ermöglichen. 
Bei der Verarbeitung elektronischer Formulare (E-Forms / Web-Forms) ist eine automatische Erfassung möglich, wenn Layout, Struktur, Logik und Inhalte dem Erfassungssystem bekannt sind. (Dr. Ulrich Kampffmeyer, 2012)


 

Dr. Ulrich Kampffmeyer,

Ressourcen