Der Provinzial NordWest Konzern ist Teil der Sparkassen-Finanzgruppe und einer der größten öffentlichen Versicherungskonzerne in Deutschland.
Das Projekt auf einen Blick
- 230.000 verarbeite Seiten pro Tag in Spitzenzeiten
- 70% Erkennungsrate für mehr als 90% der Dokumente
- Open Source Tools reduzieren die Kosten auf den Betrieb
- Hohe Ergebnisqualität als Basis für weitere KI-Projekte
Ausgangssituation
Der Provinzial NordWest Versicherungskonzern ist in Schleswig-Holstein, Mecklenburg-Vorpommern, Hamburg und Westfalen für seine Kunden vor Ort: Von Westerland bis Rügen und von Viöl bis Hamburg-Harburg reicht das Netz der 220 Versicherungsfachgeschäfte der Provinzial Nord, in Westfalen ist die Westfälische Provinzial zwischen Bocholt und Höxter mit 438 Geschäftsstellen vertreten.
Die PNW digitalisiert schon seit Jahren die Eingangspost (Papier, Fax, Mail) und legt die eingescannten Dokumente digital im Bildformat „TIFF” ab. Aufgrund von Kosten und Rechenlast wurde bisher lediglich die erste Seite einer Dokumentenmappe durch OCR erkannt und zur Klassifikation herangezogen. Ende 2018 wurde das Projekt SHERLOQ (ehemals “Sherlock”) ins Leben gerufen. Zunächst als Proof of Concept entwickelt, hatte SHERLOQ das Ziel, die gesamte Eingangspost als Volltext durchsuchbar abzulegen.
Die PNW verarbeitet täglich weit über 100.000 Seiten aus Briefen und E-Mail-Dokumenten. Grundvoraussetzung war es, diese Last binnen 24 Stunden zu verarbeiten und damit eine tagesaktuelle Datenbasis über die gesamte Eingangspost für Volltextsuchen aus dem CRM bereitzustellen.
Lösung
Das Projekt stellt gleich eine ganze Reihe neuer Anforderungen an die interne Software-Entwicklung und den IT-Betrieb. Der Einsatz moderner, aber heterogener Technologien, wie OpenCV, Tesseract, TensorFlow und Keras, erfordert ein hohes Maß an Flexibilität hinsichtlich Entwicklung, Build und Deployment. Um insbesondere in den letzteren Punkten einen gemeinsamen Standard zu schaffen, werden die einzelnen Services von SHERLOQ in Docker-Containern betrieben.
Zum aktuellen Zeitpunkt besteht SHERLOQ aus neun, lose durch Queues gekoppelte Services, die über die Anzahl ihrer Container individuell skaliert werden können. Das ist insbesondere aufgrund der hohen Last zu bestimmten Kernzeiten, wie am frühen Vormittag oder abends, wichtig. Jeder Service führt Tagebuch über seine aktuellen Durchlaufzeiten. Ein Tesseract-Service benötigt zum Beispiel im Durchschnitt zehn Sekunden pro Seite, während hingegen das Pre-processing, wie Säubern und Hochskalieren, in unter einer Sekunde erledigt ist. Durch die Microservice-Architektur kann SHERLOQ auf dieses Ungleichgewicht ausgerichtet werden.
Um die Texterkennung zu entlasten, werden die Seiten mithilfe eines trainierten, tiefen neuronalen Netzes in Text und Bilddokumente unterteilt. Damit lassen sich bereits zu Beginn größere TIFF-Dateien herausfiltern, die ohnehin keinen Text enthalten. Die Erkennungsrate wird zur Laufzeit anhand eines großen Wörterbuchs in Elasticsearch abgeglichen und gemessen. Elasticsearch stellt im selben Zug auch einen Mechanismus für Wortvorschläge bereit, mit dem SHERLOQ Fehler in der Erkennung noch einmal ausgleicht. In Elasticsearch werden die Volltexte anschließend auch persistiert und bereitgestellt.
Ergebnis
SHERLOQ hat zu Peak-Zeiten 230.000 Seiten pro Tag abgearbeitet. Bei 90 Prozent der eingehenden Dokumente lagen die Erkennungsraten bei über 70 Prozent. Hinzu kommen richtig erkannte Eigennamen, die nicht im Wörterbuch enthalten sind. Das System ist seit September produktiv und hat bereits über 12 Millionen Seiten persistiert, die dem CRM-System mit einer Volltextsuche zur Verfügung stehen.
Außerdem sind bereits neue Projekte auf dem Weg, die auf den Daten aufsetzen. Die Projekte reichen über neue Verfahren zur Dokumentenklassifikation mit Machine-Learning-Modellen bis hin zur Intentionserkennung im Schriftverkehr mit den Kunden. Neben den Ergebnissen des Projekts und den Folgeprojekten im KI- und Data-Science Bereich wurden auch Erfahrungen im Betrieb von Docker und heterogenen Architekturen gemacht. Mithilfe der Container stellt der Betrieb der Anwendung keinen hohen Aufwand dar und ebnet den Weg für eine heterogene Anwendungslandschaft und damit auch für neue Tools und Möglichkeiten.
SHERLOQ - Alle Funktionen im Überblick
Sherloq ist die Lösung für die Automatisierung deiner Kundenkommunikation. Durch die Kombination aus KI-Framework und Workflow Platform kannst du mit SHERLOQ
- Dokumente schneller und effizienter verarbeiten.
- Compliance Anforderungen berücksichtigen
- deine Fach- und IT-Teams entlasten.
- die Kundenzufriedenheit steigern.
Noch Fragen zum Projekt?
Möchtest Du KI und Sherloq in deinen Projekten einsetzen? Bist du interessiert an einer individuellen Lösung für dein Unternehmen? Dann lass uns unverbindlich sprechen.
Head of Berlin, Erfurt, Hamburg, Leipzig, Münster
Weitere Projekte der codecentric AG
Informiere dich über weitere erfolgreiche Projekte, die wir mit unseren Kunden abgeschlossen haben. Vielleicht findest du hier Anregungen für einen Use Case in deinem Unternehmen.
Gemeinsam bessere Projekte umsetzen.
Wir helfen deinem Unternehmen.
Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.
Hilf uns, noch besser zu werden.
Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.
Mark Keinhörster
Head of Berlin, Erfurt, Hamburg, Leipzig, Münster