DeepER – digitale Dokumentenanalyse & Künstliche Intelligenz

29. August 2016 14:16 Uhr  |  Dr. Ulrich Kampffmeyer  |  Permalink


Das Fraunhofer-Institut für Intel­li­gente Analyse- und Infor­ma­ti­ons­sys­teme IAIS, die CIB software GmbH und die Mentana Claim­soft GmbH arbeiten an einer neuen Software zur Dokumen­ten­ana­lyse. Das Forschungs­pro­jekt »Deep learning based optical character recogni­tion – DeepER« wird im Rahmen der Förder­initia­tive »KMU-Innovativ« vom Bundes­bil­dungs­mi­nis­te­rium unterstützt.

Das Anfang Juli gestartete "DeepER"-Projekt des Fraunhofer IAIS will mit selbstlernenden Technologien die Auswertung von unstrukturierten oder schwachstrukturierten Dokumenten verbessern. "Deep Learning" von Dokumenten ist angesagt.

Automatische Klassifikation in Verbinding mit OCR und ICR ist bereits seit längerem bei der Erfassung von gescannten Dokumenten in Gebrauch. So werden z.B. bei elektronischen Rechnungen auch die Inhalte ausgewertet, gegen gesicherte Daten abgeglichen, nachgerechnet, klassifiziert, indiziert und zielgerichtet bereitgestellt. Der Ansatz von DeepER geht aber weiter. Man möchte den Aufwand für das Antrainieren von Vordrucken und anderen Dokumenttypen verringern und setzt auf selbstlernende Algorithmen in der OCR Optical Pattern Recognition. Hier gibt es eine ganze Reihe von professionellen Anbietern, die aber nicht mit ihren Lösungen am Projekt beteiligt sind. Zusätzlich lohnt ein Blick auf all die Artificial-Intelligence-, BigData-Analytics-, Semantic-Analytics- und Deep-Learning-Anbieter auf dem Markt.

In der Pressenotiz findet sich die Aussage:

"Optical Character Recognition (OCR) wird unter anderem bei der Digitalisierung von Bibliotheksinhalten, Zeitungsarchiven oder Versicherungsdokumenten eingesetzt. In vielen Fällen reicht es aus, wenn die digitalisierten Dokumente bis zu 99 Prozent richtig erfasst werden – zum Beispiel, um Papierdokumente über Suchmaschinen zugänglich zu machen. Bei rechtlich und finanziell relevanten Dokumenten bedeutet aber selbst eine Erkennungsrate von 99,9 Prozent je Zeichen, dass jede Dokumentseite einen Fehler hat – hier leistet der Mensch erheblich mehr."
 

"Der Mensch leistet mehr" – von wegen – ein klares Nein. Erinnert sei an den XEROXbug, wo über 7 Jahre lang bei Millionen von Scans nicht bemerkt wurde, dass die Scansoftware beim reinen bildhaften Abtasten der Vorlage Zeichen veränderte. Software ist heute schon besser als nachlässige Menschen und systematische Fehler können erkannt werden. Dies wird durch den Einsatz von KI Künstlicher Intelligenz noch besser werden. Und wenn man es gleich richtig macht, wird sich die Dokumentenanalyse auch für "digital born" Dokumente einsetzen lassen – allerdings gibt es hier, wie oben angemerkt, schon sehr viel an Analyse-Software, so dass sich wohl das "DeepER"-Projekt auf das Thema Scannen konzentrieren wird.

Neben der automatisierten, selbstlernenden "KI"-Dokumentenanalyse zur Extraktion von Inhalten und deren Klassifikation kann die Software dann aber vielleicht auch zur Verbesserung der Lesbarkeitsqualität von Scans eingesetzt werden – was die Maschine sicher und gut lesen kann, ist auch für den Menschen lesbar (so bleibt uns ein zweites XEROXbug-Debakel und die Verwendung von Signaturen vielleicht auch erspart; siehe Nr. 3 hier und hier). Angesichts der Projektpartner habe ich aber bei letzter Anmerkung wenig Hoffnung.

 

4 Kommentare zu “DeepER – digitale Dokumentenanalyse & Künstliche Intelligenz

  • "DeepER" ist ja auch mal ein lustiger Projektname. ;-)
    4. September 2016 um 13:15
    Permalink

    Für diejenigen außerhalb der Uniwelt: 33% der Projektzeit geht in das Ausdenken eines Projektnamens, der als Abkürzung cool ist. Da scheint auch das IAIS keine Ausnahme zu bilden. Mich würde auch interessieren, wie der tatsächliche Technologieansatz aussieht, darüber schweigt sich der verlinkte Artikel beim IAIS leider aus.

    Antwort
    • Deep Learning und Dokumentenanalyse
      5. September 2016 um 16:57
      Permalink

      Hallo David,

      bei der Auswertung von Dokumenten, sprich Dokumentenanalyse, setzt man schon länger auf Verfahren wie semantische Netze u.a. Neu erscheint nur der Aspekt des "Selbstlernens", obwohl ich diesen auch schon seit einem Jahrzehnt als notwendig zur Überwindung des Flaschenhalses der manuellen Informationserfassung ansehe.
      Uwe Crenze hat im DOKmagazin auch etwas zum Thema "Deep Learning & Dokumentennalyse" geschrieben. http://bit.ly/deepLearn Die Frage in seiner Überschrift des Beitrages beantworte ich gern, wiederholt und seit langem mit einem klaren "Ja".
      D.h. DeepER ist keineswegs allein unterwegs und einige Anbieter haben hier die Nase vorn.

      Zum Technologieansatz – außer den Schlagworten in der Pressenotiz – habe ich auch noch nichts rausbekommen (ich habe die 3 Projektpartner auch nicht direkt angeschrieben sondern nur auf Twitter mit dem Link auf den Beitrag hier "angepingt"). Als Spezialist für Datenanalyse (Danke für Teil 3 des SPIEGELmining) kannst Du ja auch mal vorschlagen, was Du machen würdest. 

      Meine Hoffnung ist nur, dass zumindest das maneulle Überprüfen der Qualität des Scannens bald mal adacta gelegt werden kann – denn dass dies das eigentliche Problem ist (und nicht die "verbesserungswürdige OCR-Qualität" – da kann man mehrere Engines einsetzen und voten, gegen vorhandene gesicherte Datenbestände prüfen, mit hinterlegten Thesauri arbeiten – die traditionellen Techniken sind noch längst nicht ausgeschöpft) sollten die professionellen Scan-Lösungsanbieter wissen. Diese offene Flanke der Qualitätssicherung beim Erfassen von Informationen muss geschlossen werden. 

      Ansonsten – auch hier beim Einlesen und Verarbeiten von gescannten – wie auch anderen elektronischen Dokumenten – wird die Automatisierung "zuschlagen". Hoffentlich bald!

      Also sind wir weiter mal gespannt, was sich hinter dem Deep-Learning-Ansatz des IAIS technisch verbirgt 🙂

      Uli 

      Antwort
      • DeepER und Deep Learning-Ansätze
        21. September 2016 um 9:11
        Permalink

        Hallo in die Runde!

        Nun melde ich mich mal direkt aus dem Fraunhofer IAIS und konzentriere mich nun auf den technischen Ansatz, den wir im dem Projekt verfolgen. Hier scheint es ja Interesse zu geben:

        Dazu fange ich an mit dem Thema Spracherkennung. Hier ist es nun üblich, dass mittels tiefer Neuronaler Netze (CNN, DNN, RNN) die Umwandlung von Sprachsignalen in phonetische Repräsentationen stattfindet. Durch den Einsatz dieser Technologien funktionieren mittlerweile Anwendungen wie Google Now und Siri ziemlich gut. Wir setzen im Fraunhofer IAIS hierzu die open-source-Lösung Kaldi ein. Neben der reinen akustischen Modellierung werden nachfolgend statistische Sprachmodelle (sogenannte N-grams) verwendet. Auch diese lassen sich mittlerweile sehr gut mit RNN-Technologien umsetzen. Also hat man sowohl ein akustisches Modell als auch ein Sprachmodell (Domänenmodell).
        Diesen Ansatz werden in dem Projekt DeepER auch auf den OCR-Bereich anwenden. Es wird eine nachtrainierbare, lernende Komponente für die reine Zeichenerkennung geben und eine Sprachmodellierung mittels RNN. Somit lassen sich nicht nur bessere Ergebnisse erzielen, sondern auch modulare, anpassbare und konfigurierbare OCR-Anwendungen aufbauen. Dies ist das Ziel von DeepER.
        Falls es noch weitere technische Fragen geben sollte, bitte melden.

        Mit besten Grüßen,

        Joachim Köhler (Abteilungsleiter NetMedia)

        Antwort
        • OCR, Automatische Klassifikation & Deep Learning
          22. September 2016 um 8:14
          Permalink

          Sehr geehrter Herr Köhler,

          vielen Dank für Ihre Erläuterungen. 

          Das Thema der Verbesserung von OCR-Ergebnissen wurde in der Vergangenheit auf verschiedenen Wegen addressiert. Einerseits durch die OCR-Methoden selbst, andererseits durch kombinierten Einsatz mehrerer OCR-Werkzeuge mit Vergleich derer Ergebnisse und als ICR Intelligent Character Recognition auch mit Abgleich der ermittelten Daten gegen gesicherte Stammdaten, Bewegungsdaten und definitorische Bestände wie Klassifikationsschema, Thesaurus und andere taxonomische Einheiten. Hier wurde meistens bei den Erkennungs-Produkten zwischen den regelbasierten und den selbstlernenden Softwaresystemen unterschieden. Was heute unter dem Schlagwort "Deep Learning" läuft, nannten wir in den 80er Jahren, in meiner Zeit bei Fraunhofer, im Umfeld von Mustererkennung, Klassifkation, Expertensystemen und wissensbasierten Systemen noch "selbstlernend".
          Ihrer Beschreibung entnehme ich, dass es sich bei Ihrem Projekt um einen solchen Ansatz handelt.
          Ihr methodischer Ansatz, die Verarbeitung und Klassifikation akustischer, sprachlicher Information (Audio) für das Thema OCR (Wandlung analoges Bild in verarbeitungsfähigen Text) zu adaptieren, ist durchaus interessant. Auch Google ist aktuell in diesem Umfeld tätig (siehe z.B. WaveNet http://bit.ly/Wavenet) und wendet die gleichen Verfahren auch auf die inhaltliche Erschließung mittels Artificial Intelligence für ChatBots in "Allo" an. Der Schritt, nun an die Umsetzung anderer analoger Information, Erkennung von Schrift auf Papier im Gegensatz zu dem schwierigeren Thema der gesprochenen Sprache, zu gehen, macht meines Erachtens Sinn um einmal andere Verfahren beim klassischen Scannen-&-OCR zur Anwendung zu bringen. Zumal hier im Bereich der Aus- und Bewertung die Erfahrungen sehr vieler Spezial-Unternehmen aus den Bereichen Scannen, automatische Klassifikation, Mustererkennung, ICR, neuronale Netze, semantische Informationserschließung, Computer-Linguistik, künstliche Intelligenz etc. genutzt werden können, die bereits mit interessanten Produkten am Markt sind. Mit Watson werden z.B. die Briefe in einer Versicherung nicht nur OCR-gelesen und klassifiziert sondern auch in Bezug auf Stimmung, Untertöne, Kundenzufriedenheit, Dringlichkeit etc. ausgewertet. Daher wird es sehr interessant werden, welche zusätzlichen Impulse und besonders Qualitätsverbesserungen beim Selbstlernen (z.B. Vermeiden des "Übertrainierens", nicht nur Abgleich mit sondern auch Aufbau von Taxonomien, etc.) Ihr deepER-Projekt bringen kann.

          Mir persönlich liegt auch noch meine ursprüngliche Anregung am Herzen: Erkennung mittels OCR und Bewertung mittels Künstlicher Intelligenz nutzen, um endlich das manuell-visuelle Prüfen auf Vollständigkeit und Lesbarkeit von gescannten Dokumenten abzuschaffen. Vielleicht können Sie dieses Ziel auch noch auf ihre Projektagenda setzen.

          Ulrich Kampffmeyer

          Antwort

Neuen Kommentar verfassen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Ich stimme zu, dass die von mir eingegebenen Daten einschließlich der personenbezogenen Daten an PROJECT CONSULT übermittelt und dort zur Prüfung der Freischaltung meines Kommentars verwendet werden. Bei Veröffentlichung meines Kommentars wird mein Name, jedoch nicht meine E-Mail und meine Webseite, angezeigt. Die Anzeige des Namens ist notwendig, um eine individuelle persönliche Kommunikation zu meinem Beitrag zu ermöglichen. Anonyme oder mit falschen Angaben eingereichte Kommentare werden nicht veröffentlicht. Zu Nutzung, Speicherung und Löschung meiner Daten habe die Datenschutzerklärung zur Kenntnis genommen.

Ich versichere, alle gültigen Vorgaben des Urheberrechts beachtet zu haben. Dies betrifft besonders die Nicht-Verwendung von urheberrechtlich geschütztem Material und die Nicht-Verwendung von Inhalten und Links zu Inhalten, die dem Leistungsschutz unterliegen. Für den Inhalt meines Kommentars bin ich trotz Prüfung und Freischaltung durch PROJECT CONSLT ausschließlich selbst verantwortlich. Meine Rechte am Beitrag werden bei PROJECT CONSULT nur durch die CC Creative Commons Vorgaben gewahrt. Für die Verfolgung mißbräuchlicher Nutzung meiner Beiträge durch Dritte bin ich selbst verantwortlich.