Beliebte Suchanfragen
//

Next Generation: Input Management 3.0 – Zukunftsorientierte Input-Management-Systeme bei großen Organisationen

3.12.2024 | 6 Minuten Lesezeit

​1. Ausgangssituation

Input-Management-Systeme (IMS) in Unternehmen und Behörden haben die Aufgabe, eingehende Dokumente (Eingangsobjekte wie E-Mails und Briefe) entgegenzunehmen, inhaltlich zu erschließen, in ein einheitliches Format zu transformieren und dann einem Zielsystem bereit zu stellen. Das Zielsystem ist dann meist ein Postkorb-/ Business-Process-Management-/ Workflow-System, ein Regel- oder ein Prüfsystem mit dem Ziel einer Dunkelverarbeitung und/oder ein Archivsystem.

Solche Prozess-Lösungen basieren praktisch immer auf Standard-Software, die kundenindividuell konfiguriert werden. Während bislang für solche Lösungen meistens Produkte von einem Hersteller bzw. eine monolithische Hersteller-Suite zum Einsatz kam, ist aktuell ein umgekehrter Trend erkennbar und - hinsichtlich von Wartungskosten, Effizienz und Wartbarkeit - auch sinnvoll:

Die zahlreichen Funktionen eines IMS bieten insbesondere bei Situationen mit hohem Durchsatz oder hoher inhaltlicher Varianz die Möglichkeit der Modularisierung im Sinne eines Best-of-Breed Ansatzes. Dabei werden bedarfsgerecht einzelne technische Komponenten gewählt und zu einer passenden Lösung integriert. Insbesondere haben folgende Entwicklungen zu dieser Denk- und Implementierungsart beigetragen:

  • höhere Varianz von Eingangskanälen abseits des Papiers
  • Entwicklung weiterer Basis-Technologien und Verfahren in der Erkennung / Künstliche Intelligenz als Werkzeug für inhaltliche Erschließung
  • Verfügbarkeit, Etablierung und Standardisierung von offenen BPM-Systemen
  • Trend zu n-zu-n Lösung mit der Integration von einfacher Sachbearbeitung in IMS bzw. der kontextbezogenen Fachdatenermittlung
  • Verfügbarkeit von eher serviceorientierten Laufzeitumgebungen, wie z.B. Kubernetes
  • Lizenzmodelle von Herstellern, die sich eher am Volumen und weniger am konkreten Geschäftsnutzen orientieren
  • Abbildung umfangreichen Szenarien in Sachbearbeitende-Anwendungen und damit der Wunsch nach service-orientierten Erkennungsverfahren statt Batchverarbeitung
  • In diesem Dokument gehen wir auf einzelnen Funktionen eines IMS ein, aus denen wir anschließend ein Entwurfsparadigma „Input Management 3.0” ableiten.

2. Funktionen eines IMS

Ein IMS ist die Abbildung von Prozessen mit dem Ziel einer effizienten Verarbeitung im Sinne von hoher Durchsatz, geringer Einsatz von Mitarbeitenden (= hoher Automatisierungsgrad) und eine hohe Datenqualität (möglichst wenig falsch erfasste Daten). Grundsätzlich lassen sich dafür in einem IMS folgende Aufgaben unterscheiden, für die unterschiedliche Werkzeuge benötigt werden:

Capture: Es muss Werkzeuge geben, die Eingangskanäle abdecken und initial Eingangsobjekte entgegennehmen. Fast immer wird ein Scan-Client /-Verfahren benötigt, zudem eine E-Mail-Anbindung und auch Datei-Imports, WebServices/API und zuweilen eine Anbindung an Fax-Systeme. Moderne Kanäle wie Apps oder WhatsApp sollten auch anbindbar sein.

Transformation: Eingangsobjekte werden in unterschiedlicher technischer Repräsentation auftreten: TIF, JPG, PNG, PDF, EML, DOCX u.a. als Singlepage oder Multipage, möglicherweise als Freitext einer Portallösung oder eines Chatbots. Die Zielformate sind hingegen technisch streng normiert, typischerweise ist PDF/A als Multipage-Objekt auf der Ebene „fachliches oder juristisches Dokument” erforderlich. Somit muss häufig eine Transformation oder zumindest eine Konkatenierung von Seiten erfolgen. Dazu dienen Transformation-Services.

Erkennung: Die wirtschaftliche Effizienz von IMS wird von den Technologien zur Erkennung maßgeblich beeinflusst, denn durch den Einsatz solcher Technologien können Personalkosten reduziert werden Aktuell gibt es zahlreiche technische Ansätze mit unterschiedlichen Schwerpunkten: Analysebäume, Machine Learning-Verfahren, intelligente Leerseitenerkennung, Bildvergleiche, statistische Verfahren, LLMs u.w. Jedes dieser Verfahren hat spezifische Stärken und damit typischerweise ein eingeschränktes Einsatzgebiet. Die Ziele lassen sich wie folgt kategorisieren:

  • Hohe Bedeutung:
    • Dokumententrennung
    • Klassifikation
    • einfache Extraktion inkl. Barcode, Optical Mark Reading etc.
    • Tabellenerkennung und -Extraktion
    • Inhaltserfassung
  • Noch moderate Bedeutung:
    • Betrugserkennung
    • Intentanalyse
    • Analyse von Verkaufschancen
    • DSGVO-Auskunftsbegehren

Der Begriff „Künstliche Intelligenz” als Grundlage für die inhaltliche Erschliessung ist dabei nicht exakt definiert. Aktuell wird er sehr stark unmittelbar mit LLM-Technologie in Verbindung gebracht, die eher klassischen Ansätze zur Umsetzung der o.a. Aufgaben wurden bei Einführung ebenfalls so bezeichnet. Sie haben nach wie vor eine Berechtigung und können für Spezialaufgaben sehr gute Ergebnisse erzielen - ohne die typischen Nachteile von LLM aufzuweisen (z.B. Ressourcenverbrauch, Halluzination, Datenschutz).

Manuelle Ergänzung: Nicht alle gewünschten Daten kann die Technologie zur Laufzeit mit 100% Sicherheit liefern. Somit wird typischerweise ein Nachkorrekturplatz eingerichtet, auf dem Menschen die nicht sicher erkannten Ziel-Felder angezeigt bekommen und manuell eingeben. Sowohl dieser Nachkorrekturplatz als auch die Erkennung arbeiten, wann immer es sinnvoll ist, mit hinterlegten Katalogen (Lexika) um Fehlermittlungen und Fehleingaben möglichst zu vermeiden. Somit können Wertemengen je Feld als Validierkriterium eingesetzt werden. Für manche Aufgabenstellungen, z.B. die Zusammenfassung eines umfangreichen Textes, entfällt dieser Prozessschritt.

Workflow: Die spezifische Orchestrierung der o.a. Funktionen ist ein bedeutendes Artefakt einer IMS-Lösung. Meistens sind nicht mehr streng sequentielle Prozesse etabliert, sondern es existieren zwei Treiber für den Trend zu eher komplexeren Prozessen innerhalb eines IMS:

  • Trend zur Mehrstufigkeit, d.h. eine komplexe Fragestellung wird in mehr als einer Stufe behandelt, z.B. innerhalb einer Versicherung: Spartenerkennung -> Multierkennung -> Dokumententrennung und Klassifikation -> Grunddatenextraktion -> Fachdatenextraktion. Jede Stufe umfasst spezifische Erkennungstechnologien und einen bedingten manuellen Ergänzungsschritt.
  • Bedingtes und skillbasiertes Routing: in Abhängigkeit von Teil-Erkenntnissen der Erkennung werden Arbeitsplätze von Spezialisten für die Ergänzungsschritte gezielt angesteuert.
  • Mit einem unternehmensweiten BPM-System bietet sich die Chance den Workflow über das IMS hinaus in die Kern-IT eines Unternehmens auszudehnen

Protokollierung und Statistik: Die Verarbeitungsschritte, aber auch die Zwischenergebnisse sind oftmals Teil einer Protokollierung. Ein IMS persistiert die durchgeführten Aktivitäten und ermittelten Daten in Logbereiche und Datenspeicher. Damit ist sowohl eine Einzelfallanalyse von Verhalten möglich als auch die nachgelagerte Analyse von z.B. Mengenvolumen, Klassifikationsverteilung, Kanalnutzung, Durchsatz und Automatisierungsgrad.

3. Abgeleitetes Entwurfsparadigma Input Management 3.0

Für die vorgestellten Funktionen existieren Suiten, die Technologien zur Abbildung anbieten und die integriert agieren. Für kleineres und mittleres Belegvolumen ist dies häufig eine geeignete Grundlage, um eine wirtschaftliche Lösung zu etablieren.

Je hochvolumiger eine Anforderung ist, je flexibler auf Veränderungen reagiert werden muss und je variantenreicher die auszubildenden Szenarien und Prozesse sind, desto stärker ist ein alternativer Architekturentwurf in Betracht zu ziehen bzw. auch wirtschaftlich vorteilhaft. Insbesondere wenn eine BPM-Technologie im Unternehmen bereits strategisch gesetzt ist, wird eine Best-of-Breed Strategie um diese Technologie herum empfohlen. Dies bedeutet einen höheren initialen Aufwand, jedoch langfristig Vorteile hinsichtlich Modularität, Flexibilität und Lizenzoptimierung und vermeidet insbesondere einen Vendor-LockIn.

Wir empfehlen daher die Nutzung von Prozessengines wie beispielsweise Camunda und den bedarfsgerechten Aufbau und Betrieb von modularen einzelnen Transformations- und Erkennungs-Services. Die Orchestrierung erfolgt anhand eines generischen und robusten Datenmodells, welches vom Capturing bis zum Export gleichermaßen strukturiert ist.

Beispielprozess mit folgenden Funktionen:

  • Handschriftenkonvertierung mittels Technologie von Hersteller A
  • Klassifikation und Extraktion mittels Technologie von Hersteller B
  • Datei Export und das schreiben von statistischen Werten in eine SQL Datenbank durch Module eines Hersteller C oder selbst programmiert
  • Warteschleifen für nicht erkannte Werte z.B. nach x Tagen

> Grafik Input Management 3.0

Die Services werden durch eine technische Integrationsschicht, die im Rahmen des Projektes erstellt werden muss, gekapselt und sind perspektivisch austauschbar. Somit können insbesondere Spezialmodule für Volltext-OCR, Handschrift-OCR, Bildoptimierung, Klassifikation, Extraktion oder LLMs (z.B. für Zusammenfassungen von Texten) einfach integriert werden und zu sinnstiftenden mehrstufigen Prozessen kombiniert werden.

Die Produkte für diese Services werden gezielt von einzelnen Herstellern angefragt und bedarfsgerecht lizenziert und über eine Zugriffsschicht integriert. Der Austausch einer Komponente ist dadurch relativ einfach möglich.

Die Capture-Funktionen werden ebenfalls separat bezogen: hierbei gibt es preisgünstige (nicht auf Menge lizenzierte) Scansysteme und E-Mail-Konverter. Diese liefern an die Workflow-Engine die Eingangsdokumente für den Start eines Prozesses.

Für die Manuelle Ergänzung (Nachkorrekturarbeitsplatz) wird ein Client eines beliebigen Herstellers integriert, oder es wird ein individuelles Framework erstellt, welches webbasiert Indizierungen durch die Mitarbeitenden ermöglicht.

Die Protokollierung erfolgt auf Basis des Standard-Datenmodells und durch dafür bereitgestellte Prozessschritte in einer zentralen Reporting-Datenbank.

4. Zusammenfassung

Wie auch bei anderen Systemen sollte ein IMS heutzutage auch kein Monolith sein. Ein Best-of-Breed Ansatz mit über einem BPM-System gekoppelten Komponenten erlaubt eine größere Flexibilität. Auf diese Weise können neue Input-Kanäle und Erkennungstechnologien schnell eingebunden werden, um erweiterte Funktionalitäten abbilden zu können.

Beitrag teilen

//

Weitere Artikel in diesem Themenbereich

Entdecke spannende weiterführende Themen und lass dich von der codecentric Welt inspirieren.

//

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.