Klassifikation

von Felix von Bredow

Automatische Klassifikation - Grundlage für effizientes Knowledge Management

Die Erfassung von gescannten Images, Fax, Email, Office-Dokumenten und Multimediaobjekten stellte aufgrund der notwendigen manuellen Indizierung den Engpaß von allen Workflow-, Dokumenten-Management- und Archivsystemen dar. Lediglich im COLD-Umfeld war die Extraktion von Indexmerkmalen aus dem Output selbst eine übliche Verfahrenstechnik, die alle DMS-Anbieter beherrschten. Der Ansatz der automatischen Klassifikation geht darüber noch hinaus. Die automatische Klassifikation selbst kann in zwei technologische Gruppen unterschieden werden:

Regelbasierter Ansatz

Regelbasierte Ansätze setzen typischerweise eine manuelle Definition der zu unterscheidenden Merkmale voraus. Dabei werden die Merkmale, die einen Informationstyp bestimmen, dem System mitgeteilt und bei Veränderungen manuell nachgepflegt.

Selbstlernende Verfahren

„Intelligente“ Verfahren dagegen erkennen aufgrund der Informationen selbst, welches die relevanten Unterscheidungskriterien sind. Daher bezeichnet man diese Verfahren auch als selbstlernend. Einer solchen Lösung muß lediglich eine gewisse Lernmenge an manuell klassifizierten Informationen mitgeteilt werden. Alle zukünftig anfallenden Daten und Dokumente können fortan automatisch klassifiziert werden. In Fällen, in denen sich das System nicht ausreichend sicher ist, wo ein Dokument einsortiert werden soll, muß dieses manuell geschehen. Der Grad für eine „sichere“ Einsortierung läßt sich durch Festlegung entsprechender Schwellwerte einstellen. Dieses erweitert dann die Lernmenge, so daß der hinzugekommene Fall zukünftig automatisch durch das System bearbeitet werden kann. Es wäre jedoch falsch zu behaupten, je größer die Lernmenge, desto besser kann das System die Dokumente klassifizieren, da mit einer überdimensionierten Lernmenge der Effekt des Übertrainierens eintritt, der dann zu falschen Klassifikationen und steigendem Korrekturaufwand führt.
Neben den im folgenden beschriebenen klassischen Einsatzgebiete wie Informationserfassung und -retrieval, werden im Laufe der Zeit immer neue gefunden, die ursprünglich gar nicht im Fokus der Entwickler waren.
Dieses zeigt, daß diese Technologie nach und nach den Stellenwert einer Basistechnologie bekommt. Beispiele für heutige Einsatzgebiete sind z. B.: Erstellung von Katalogen, Befüllung von Websites, Sortieren von Bilder, Filtern von Newsgroupbeiträgen, personaliserte Darstellung von Portalinhalten, WebCrawler und -Agenten, Kontext-sensitive Lernsysteme, Automatische Korrespondenzbeantwortung etc.

Informationserfassung

Die Forderung nach Automatisierung und Vereinfachung bei der Dokumentenerfassung gewinnt immer stärker an Bedeutung. In Verbindung mit OCR/ICR-Techniken werden Faksimiles interpretiert und Indexmerkmale nach vordefinierten Schemata herausgefiltert, geprüft und mit Stammdaten abgeglichen. Selbstlernende Programme erlauben die Generierung von Strukturen, Aufbau von Ordnungssystematiken und Zuordnungen anhand der Dokumentinformationen. Die Integration in Betriebssysteme, Bürokommunikations- und Erfassungssysteme erlaubt das sichere "Füttern" beliebiger Archive und Repositories. Die Verfügbarkeit solcher Lösungen entwickelt sind zum K.O.-Kriterium für die DRT-Systemanbieter. Die aktuellen und die zukünftigen „Schwergewichte“ der Branche haben erkannt, daß das eigentliche Problem nicht in der Verteilung von Informationen, sondern vielmehr in ihrer Erschließung und damit der Basis für Content-, Knowledge- und sonstigem Informationsmanagement liegt. Dabei sind die unter den jeweiligen Lösungsansätzen liegenden Technologien höchst unterschiedlich: Während einige Unternehmen mit regelbasierten Algorithmen operieren, arbeiten die Produkte von anderen Anbietern mit Ansätzen, die im Bereich der künstlichen Intelligenz (KI) anzusiedeln sind. Diese beiden unterschiedlichen Ansätze bedingen auch unterschiedliche Vorgehensweisen im Umgang mit den zu klassifizierenden Dokumenten.

Informationsretrieval

Aber nicht nur die Erfassung des eingehenden Belegguts wird zukünftig eine entscheidende Rolle spielen. Viele Unternehmen sind schon heute einer Flut von Informationen ausgesetzt, die auf Grund verfehlter oder gar nicht berücksichtigter Ordnungskriterien nur noch durch Zufall, wenn überhaupt in ihrem sinngemäßen Kontext dargestellt werden können. Hier sind grundsätzlich zwei unterschiedliche Vorgehensweisen denkbar. Zum einen können die Mechanismen der automatischen Klassifikation dazu verwendet werden, grundlegende Ordnung in den vorhandenen Repositories zu schaffen, damit bei der Suche nach bestimmten Informationen auf die geschaffene Ordnung zurückgegriffen werden kann. In der zweiten Variante kommt die automatische Klassifikation erst dann zum Einsatz, wenn die Ergebnisse einer Suchanfrage zurückgeliefert werden. Genau diese Ergebnismenge wird dann inhaltlich Klassifiziert, so daß der Benutzer automatisch Vorschläge erhält, wie er seine ursprüngliche Suchanfrage am besten verfeinern kann. Eine weitere Variante, die sich ähnlich wie die gerade beschriebene ausschließlich mit der effizienteren Suche nach Informationen beschäftigt, ist die automatische Auswertung bisheriger Suchanfragen und der daraus resultierenden ausgewählten Dokumente. Hier sind selbstlernende Mechanismen denkbar, die auf einer Suchanfrage eines bestimmten Benutzers aufbauend automatische verschiedene individuelle Suchanfragen generiert und an die angeschlossenen Systeme stellt.
Da mittlerweile fast alle wichtigen Archivsystemanbieter über eine Komponente zur automatischen Klassifikation verfügen, werden sich daraus ergebende Lösungen für die eMailarchivierung, automatische Indizierung von gescannten Faksimiles im Posteingangsbereich, Auswertung von Office-Dokumenten sowie die verbesserte Interpretation von Output im COLD-Umfeld als „Killer-Applikation“ für alle anderen Archivsystemanbieter entwickeln, die diese Technologie nicht selbst besitzen oder noch nicht integriert haben.
Das traditionelle Portfolio von DMS- und Archivsystemanbietern verändert sich hierdurch: Content Management, elektronische Signatur, Anbindung von Workflow, echte Webfähigkeit und eben die automatische Indizierung stellen heute die wichtigsten Leistungsunterscheidungsmerkmale dar.
Nur durch die automatische Klassifikation von Dokumenten ist den Unternehmen allerdings wenig geholfen. Neben der rein technischen Betrachtungsweise steht für ein Unternehmen die Integration im Blickpunkt. Wertvoll sind dabei Lösungen, die die relevanten Daten aus den Dokumenten extrahieren und mit Informationen aus operativen Systemen abgleichen und diese dann ergänzen können. Besteht so doch die Möglichkeit, über den reinen Posteingang und seiner Verteilung hinaus weitere Prozesse, wie z. B. eine logische Rechnungsprüfung oder Vorkontierungen zu unterstützen und somit ebenfalls stark zu vereinfachen bzw. zu beschleunigen. Außer dem im Posteingang gescanntem Schriftgut sind auch die elektronisch in das Unternehmen gelangenden oder im Unternehmen erzeugten Dokumente in die Betrachtung miteinzubeziehen. Allerdings sind diese Hersteller meistens darauf angewiesen, die originären Dateiformate in reinen ASCII-Text zu wandeln, um die automatische Klassifikation durchführen zu können. Diese Verfahren beschränken sich auf Text- und Kontext-Analysen und berücksichtigen daher nicht andere Klassifikationsverfahren der Mustererkennung wie bei der Erkennung von Bildern, Sprache und anderen komplexen Informationen. Aus diesem Grund muß bei jedem Anbieter genau hinterfragt werden, welche Dateiformate als Quellformat überhaupt verarbeitet werden können. Besondere Probleme können Formate wie Adobe’s PDF bereiten, bei denen der eigentliche Inhalt gekapselt repräsentiert wird.
Diese neuen Techniken bieten sich nicht nur für Firmen, die ein DMS neu und auf der grünen Wiese planen, an. Vielmehr ist dieser Ansatz auch für solche Unternehmen interessant, die mit Altlasten zu kämpfen haben und sich mit Migrations- oder Re-Indizierungsgedanken, z. B. aufgrund schlecht erschlossener Informationen, tragen. Dies hat seine Ursache darin, daß damals die heutigen Anforderungen an die Nutzung der Dokumente nicht abgesehen werden konnten und den Daten deshalb zu wenig Kriterien / Indizes mitgegeben worden sind. Heute hat man allerdings erkannt, daß die Erschließung der Wissensbasis in den Unternehmen einen wesentlichen Wettbewerbsvorteil darstellt. Allerdings dürften reine Klassifikations- und Indizierungsprodukte als Einzellösung kaum am Markt zu bekommen sein. Nicht zuletzt wegen der zu beobachtenden Konsolidierung am DRT-Markt ist festzustellen, daß die meist kleineren Anbieter solcher Speziallösungen aufgekauft und deren Lösungen in das vorhandene Produktportfolio als „unsichtbare“ Dienste eingegliedert werden. Bei aller Begeisterung, die sich durch die Möglichkeiten dieser neuen Technologie ergibt, muß deutlich gemacht werden, daß wir hier erst am Anfang der Entwicklungen stehen. Die auf KI basierenden Ansätze müssen noch beweisen, daß sie auch mit großen Dokumentenmengen performant arbeiten können. Vielfach fehlen noch die Anbindungen bzw. Schnittstellen an das Archivsystem und Datenbanken. Und schließlich bleibt die Antwort auf die Fragen offen, welcher Overhead durch die Lernmenge bei großen Dokumentenvolumen entsteht und, in wie weit eine Revisionssicherheit gewährleistet bleibt, wenn man sich voll auf Mechanismen der künstlichen Intelligenz verläßt, deren Verfahren geheim und nicht nachvollziehbar sind.

Links:

Zuletzt aktualisiert am 12.08.2014. Autorenrechte.
Persistente URL: http://www.project-consult.de/ecm/wissen/themen/klassifikation