Im Rahmen eines Kundenprojektes bei einem Telekommunikationsunternehmen war die Aufgabenstellung folgende: Die Eingangsbriefpost musste digitalisiert werden. Nach dem Scannen der Dokumente galt es diese zu klassifizieren (z. B. Kündigungen, Beschwerden, Kundenänderungen usw.) und gewisse Daten (z. B. Rufnummer oder Kundennummer) zu extrahieren. Eine große Herausforderung war die Handschriftenerkennug. Denn bei der Analyse der Dokumente stellte sich heraus, dass viele Eingangsbriefe handschriftliche Dokumente waren. Das Verhältnis maschinengeschriebener zu handgeschriebenen Dokumenten war gut 50:50.
Die Problematik für die Erkennungssysteme besteht darin, dass der handschriftliche Fließtext nicht oder nur sehr schwer erkannt werden kann.
Zwar können die gängigen OCR Engines Handschriftenerkennung, aber das begrenzt sich fast ausschließlich auf Zonen in Formularen und hier insbesondere auf die Ziffernerkennung. Hier liefern diese Systeme durchaus brauchbare Ergebnisse. Aber sobald es um reinen Fließtext geht, sinkt die Erkennungsquote gegen null.
Das liegt daran, dass Menschen unterschiedliche Schriftbilder haben. Ein „n“ oder „m“ bei Person A sieht anders aus als bei Person B. Die einzelnen Buchstaben grenzen sich nicht ab. Wo fängt ein Buchstabe an und wo hört er auf? Hinzu kommt noch unterschiedliches Papier. Karierte oder linierte Seiten kommen genauso vor wie normales weißes Papier. Alles Probleme, die es einer Erkennungssoftware sehr schwer machen, mit solchen Texten umzugehen.
Aus diesem Grund mussten wir uns nach einer Lösung umschauen, da ansonsten nur 50 % des täglichen Dokumentenvolumens (maschinengeschriebene Dokumente) ordentlich zu verarbeiten gewesen wären.
Wir möchten Ihnen hier anhand eines Beispiels zeigen, wie man bei solchen schwierigen Belegen dennoch die Vorzüge einer Erkennungssoftware nutzen kann.
Dazu haben wir eine Softwarelösung gefunden, die den handgeschriebenen Text analysiert und in einen maschinengeschriebenen Text übersetzt. Und das in einer sehr hohen Güte.
Allgemeine Vorgehensweise bei der Handschriftenerkennung anhand einer Kündigung
Im Normalfall werden handgeschriebene Dokumente an einem Scanarbeitsplatz eingescannt und anschließend dem Erkennungsprozess (z. B. Kofax Capture oder Paradatec Workflow) zugeführt.
Durch den Scanprozess wird z. B. eine TIF Bilddatei generiert. Die entsprechenden OCR Engines analysieren diese Bilddatei und die Erkennungssysteme nutzen die OCR-Ergebnisse zur Klassifikation und Extraktion. Bei handgeschriebenen Texten ist jedoch die OCR-Komponente nicht in der Lage, Zeichen zu erkennen.
Das bedeutet, wir müssen nach dem Scannen und vor dem Erkennungsprozess eine Komponente integrieren, die aus dem handgeschriebenen Text einen maschinenlesbaren Text erzeugt.
Das möchte ich hier anhand eines Beispielbriefes einmal darstellen. Die Ausgangssituation ist, dass wir die zuvor genannte TIF Bilddatei vorliegen haben. Ziel ist es, die Vertragsnummer 12349763 zu extrahieren und zu erkennen, dass es sich um eine Kündigung handelt.
Verarbeitet man dieses Dokument mit einem Erkennungssystem, ist eine Klassifikation und Extraktion der gewünschten Informationen nicht möglich.
Hier kommt jetzt die Software der Firma Planet zum Einsatz. Diese Software ist spezialisiert auf die Handschriftenerkennung und für diesen Prozess eine perfekte Ergänzung.
Das Dokument wird in einem Prozessschritt vor der eigentlichen Erkennungssoftware analysiert, konvertiert und als PDF (z. B. PDF/A-2a mit Text Layer) bereitgestellt.
Das PDF beinhaltet jetzt zwei Ebenen und ist durchsuchbar. Diese verschiedenen Ebenen im Dokument kann man sich zum Veranschaulichen ein- und ausblenden.
Hier sieht man nur die Ebene des Planet TextLayer:
Mit diesem durchsuchbaren und jetzt maschinenlesbaren Text ist es möglich, durch eine Erkennungssoftware die Klassifikation sowie die Datenextraktion durchzuführen.
Die folgenden Analysen habe ich mit dem Produkt „Prosar-AIDA“ von Paradatec durchgeführt.
Klassifikation
Um das Dokument zu klassifizieren, habe ich Schlagwörter im Regelwerk von AIDA definiert, die für eine Kündigung ausschlaggebend sind. Das sind Schlagwörter wie zum Beispiel „Kündigung“, „kündigen“, „schriftliche Bestätigung“ usw. Die gelb markierten Stellen zeigen mir die gefundenen Schlagwörter an, die zur Klassifikation herangezogen worden sind. Das Ergebnis ist, dass das Dokument als Kündigung klassifiziert wurde.
Extraktion der Vertragsnummer
Nach der Klassifikation wird versucht, die achtstellige Vertragsnummer zu extrahieren. Im einfachsten Fall wird die Suche als regulärer Ausdruck ([0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9]) hinterlegt. Um aber die Ergebnisse sicherer zu machen, suchen wir nach gewissen Schlagwörtern neben der zu suchenden Nummer. In diesem Fall das Schlagwort „Vertrag“.
Fazit
Der Einsatz dieser Software hat sich in allen Belangen als Vorteil erwiesen. Wir konnten in diesem Kundenprojekt die automatisierte Verarbeitung um 20-25 % steigern und die manuelle Nachkorrektur senken.
Neben Dokumenten, die komplett handschriftlich geschrieben sind, lohnt sich ebenfalls der Einsatz bei Formularen, die hand- und maschinengeschriebenen Anteil haben.
Dein Job bei codecentric?
Jobs
Agile Developer und Consultant (w/d/m)
Alle Standorte
Weitere Artikel in diesem Themenbereich
Entdecke spannende weiterführende Themen und lass dich von der codecentric Welt inspirieren.
Gemeinsam bessere Projekte umsetzen.
Wir helfen deinem Unternehmen.
Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.
Hilf uns, noch besser zu werden.
Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.
Blog-Autor*in
Thomas Bergmann
Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.
Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.