Laut dem Bericht der Agentur Allied Market Research wurde der weltweite Markt für Datenextraktion im Jahr 2019 auf 2,14 Milliarden Dollar geschätzt und wird bis 2027 voraussichtlich 4,90 Milliarden Dollar erreichen.
Heutzutage ist das Problem der Datenextraktion und des Dokumentenverständnisses für viele Unternehmen von entscheidender Bedeutung, unter anderem im Bank-, Finanzdienstleistungs- und Versicherungssektor. Die manuelle Verarbeitung von Dokumenten ist aus verschiedenen Gründen mit hohen Prozesskosten verbunden.
Inhalt
Menschliche Kosten der Dokumentenverfolgung und Fehler
1. Es kann schwierig sein, die korrekte Version eines Dokuments beizubehalten, insbesondere wenn es mehrfach überarbeitet wurde. Wenn die Nachverfolgung von Dokumenten nicht korrekt durchgeführt wird, kann es zu doppelten Zahlungen, der Lieferung von zusätzlichen Artikeln usw. kommen.
2. Es gibt viele ähnliche Dokumente und Transaktionen zwischen einem häufigen Lieferanten und Käufer.
3. Der Prozess ist nicht skalierbar. Die Aufrechterhaltung einer optimalen Anzahl von Mitarbeitern ist schwierig, wenn sich das Verarbeitungsvolumen schnell ändert. Die meisten Unternehmen haben diese Abteilungen überbesetzt, um Volumenspitzen zu kompensieren.
Verzögerungen bei der Zahlung oder Beschaffung
4. Die Daten aus den Dokumenten werden manuell in die Systeme eingegeben. Dieser Prozess wird zu einem Engpass, wenn das Volumen der verarbeiteten Dokumente zunimmt.
5. Verzögerungen im Arbeitsablauf können zu Liefer-, Zahlungs- oder Beschaffungsverzögerungen führen. Infolgedessen sehen sich Unternehmen mit hohen Kosten für Betriebskapital oder mit Umsatzeinbußen aufgrund von Verzögerungen bei der Beschaffung von Rohstoffen usw. konfrontiert.
Fehler bei der Inventarisierung
6. Wenn Inventarsysteme nicht korrekt in die Dokumentenverarbeitung integriert sind, kann es zu hohen Kosten kommen, wenn der Bestand falsch berechnet wird. Dies führt zu Überbeständen, Doppelbestellungen, Unterbeständen und Umsatzeinbußen.
Bei der automatischen OCR handelt es sich um eine Reihe von Computer-Vision-Aufgaben, die gescannte Dokumente und Bilder in maschinenlesbaren Text umwandeln. Dieses Programm nimmt Bilder von Dokumenten, Rechnungen und Quittungen auf, findet den Text darin und wandelt ihn in ein Format um, das Maschinen besser verarbeiten können. Wenn Sie die Informationen auf Personalausweisen oder die Zahlen auf einem Bankscheck lesen möchten, wird Ihre Software von OCR gesteuert.
In unserem Fall war eine OCR-Funktion erforderlich, um strukturierte Informationen aus Rechnungen, Quittungen und anderen Kundendokumenten zu extrahieren. Um diese Aufgabe zu lösen, haben wir eine KI-Lösung (Künstliche Intelligenz) entwickelt, die auf der Idee von LayoutLMv3 basiert. Um den Anforderungen der Modelleingabe gerecht zu werden, wird unsere Forschung den Ansatz beschreiben, der die Erkennung von Textzeilen, einschließlich der Bounding Boxen der Wörter innerhalb der Zeile, impliziert.
Der für den Benchmark verwendete Datensatz besteht aus etwa 200 englischsprachigen Dokumenten der oben genannten Typen. Sie wurden von unserem Team manuell kommentiert.
Unsere Benchmark-Untersuchung konzentriert sich auf die drei folgenden OCR-Tools.
Tesseract OCR
Tesseract ist eine Open-Source-Texterkennungs-Engine, die unter der Apache 2.0-Lizenz verfügbar ist. Es kann direkt oder über eine API verwendet werden, um gedruckten Text aus Bildern zu extrahieren. Es unterstützt eine Vielzahl von Sprachen. Tesseract hat keine eingebaute GUI, aber es gibt mehrere, die auf der 3rdParty-Seite verfügbar sind. Tesseract ist über Wrapper, die Sie hier finden, mit vielen Programmiersprachen und Frameworks kompatibel. Sie kann zusammen mit der vorhandenen Layout-Analyse verwendet werden, um Text in einem großen Dokument zu erkennen. Außerdem kann es in Verbindung mit einem externen Textdetektor verwendet werden, um Text aus einem Bild einer einzelnen Textzeile zu erkennen.
Amazon Textract
Amazon Textract ist ein Service für maschinelles Lernen (ML), der automatisch Text, Handschrift und Daten aus gescannten Dokumenten extrahiert. Textract verwendet ML, um jede Art von Dokument zu lesen und zu verarbeiten, indem es Text, Handschrift und Tabellen genau extrahiert. Amazon Textract kann gedruckten Text und Handschrift anhand des englischen Standardalphabets und der ASCII-Symbole erkennen. Amazon Textract kann gedruckten Text, Formulare und Tabellen in Englisch, Deutsch, Französisch, Spanisch, Italienisch und Portugiesisch extrahieren.
Azure Computer Vision
Azure Computer Vision ist ein KI-Dienst, der den Inhalt von Bildern und Videos analysiert. Die OCR-Funktionalität extrahiert gedruckten und handgeschriebenen Text aus Bildern und Dokumenten mit unterschiedlichen Sprachen und Schreibstilen.
Google Document AI
Document AI ist eine Lösung zum Verstehen von Dokumenten, die unstrukturierte Daten (z. B. E-Mails, Rechnungen, Formulare und andere Dokumente) aufnimmt und die Daten leichter verständlich, analysierbar und nutzbar macht. Es bietet auch OCR-Funktionen für diese Art von Dokumenten, die ML-Modelle verwenden.
Der Benchmark wurde anhand der folgenden Metriken durchgeführt. Erstens berechnen wir den durchschnittlichen Prozentsatz der Zeilen, die vollständig mit dem Text der manuellen Anmerkung übereinstimmen:
wobei N die Anzahl der korrekt erkannten Zeilen in einem Dokument, M die vollständige Anzahl der Zeilen und n die Größe des Datensatzes ist. Zweitens berechnen wir die gleiche Metrik für die Zeilen ohne Interpunktion (die von verschiedenen OCR-Tools unterschiedlich behandelt werden können) und die gleiche Metrik für die Zeilen mit normalisiertem Levenstein-Abstand, der nicht größer als der Schwellenwert von 0,7 ist.
Die nächste betrachtete Metrik war die durchschnittliche Überschneidung über die Vereinigung (IoU) zwischen den Bounding Boxes der Wörter. IoU wird berechnet, indem die Überschneidung zwischen der vorhergesagten und der tatsächlichen Annotation durch die Vereinigung dieser Annotationen geteilt und dann der Durchschnitt gebildet wird:
Die Ergebnisse, die wir erhalten haben, sind in der folgenden Tabelle zusammengefasst:
Obwohl AWS Textract und Azure Computer Vision vergleichbare Ergebnisse für die englische Sprache zeigten, haben wir uns für die OCR-Funktion von Azure Computer Vision entschieden. Es unterstützt mehr Sprachen, was für unsere mehrsprachigen Lösungen entscheidend ist, und verwendet modernste KI-Lösungen.