Biorąc pod uwagę raport agencji Allied Market Research, światowy rynek ekstrakcji danych został wyceniony na 2,14 miliarda dolarów w 2019 roku i oczekuje się, że osiągnie 4,90 miliarda dolarów do 2027 roku.
W dzisiejszych czasach problem ekstrakcji danych i zrozumienia dokumentów jest krytyczny dla wielu firm, w tym dla segmentów bankowości, usług finansowych i ubezpieczeń. Ręczne przetwarzanie dokumentów wiąże się z wysokimi kosztami procesowymi z wielu powodów.
Spis treści
Koszt ludzki związany z śledzeniem dokumentów i błędami
1. Utrzymanie prawidłowej wersji dokumentu może być trudne, zwłaszcza gdy jest on wielokrotnie zmieniany. Jeśli śledzenie dokumentów nie zostało wykonane prawidłowo, może to prowadzić do podwójnych płatności, dostawy dodatkowych produktów itp.
2. Istnieje wiele podobnych dokumentów i transakcji między dostawcą a nabywcą.
3. Proces nie może być skalowany. Utrzymanie optymalnej liczby zasobów ludzkich jest trudne, gdy ilość przetwarzanych danych szybko się zmienia. Większość firm zatrudnia w tych działach zbyt wielu pracowników, aby zrekompensować skoki wolumenu.
Opóźnienia w płatnościach lub zamówieniach
4. Dane z dokumentów są wprowadzane do systemów ręcznie. Proces ten staje się wąskim gardłem, gdy wzrasta ilość przetwarzanych dokumentów.
5. Opóźnienia w przepływie pracy mogą prowadzić do opóźnień w dostawach, płatnościach lub zamówieniach. W rezultacie firmy borykają się z wysokimi kosztami kapitału obrotowego lub utratą przychodów z powodu opóźnień w pozyskiwaniu surowców itp.
Błędy inwentaryzacji
6. Jeśli systemy inwentaryzacji nie są prawidłowo zintegrowane z przetwarzaniem dokumentów, błędne obliczenie zapasów może wiązać się z wysokimi kosztami. W rezultacie prowadzi to do nadmiernych zapasów, powielania zamówień, niedostatecznych zapasów i utraty przychodów.
Automatyczne rozpoznawanie OCR to zestaw zadań wizji komputerowej, które konwertują zeskanowane dokumenty i obrazy na tekst nadający się do odczytu maszynowego. Program ten pobiera obrazy dokumentów, faktur i paragonów, znajduje w nich tekst i konwertuje go do formatu, który maszyny mogą lepiej przetwarzać. Jeśli chcesz odczytywać informacje na dowodach osobistych lub numery na czekach bankowych, OCR jest tym, co napędza Twoje oprogramowanie.
W naszym przypadku funkcja OCR była potrzebna do wyodrębniania ustrukturyzowanych informacji z faktur, paragonów i innych rodzajów dokumentów klientów. Aby ułatwić to zadanie, opracowaliśmy rozwiązanie AI (Artificial Intelligence) oparte na idei LayoutLMv3. Żeby spełnić wymagania modelu wejściowego, nasze badania opiszą podejście, które zakłada rozpoznawanie linii tekstu, w tym obramowań słów wewnątrz linii.
Zbiór danych wykorzystany do testu porównawczego składa się z około 200 dokumentów w języku angielskim wyżej wymienionych typów. Zostały one opatrzone ręcznymi adnotacjami przez nasz zespół.
Nasze badania porównawcze skupią się na trzech następujących narzędziach OCR.
Tesseract OCR
Tesseract to silnik rozpoznawania tekstu o otwartym kodzie źródłowym, który jest dostępny na licencji Apache 2.0. Można go używać bezpośrednio lub za pomocą interfejsu API do wyodrębniania drukowanego tekstu z obrazów. Obsługuje szeroką gamę języków. Tesseract nie ma wbudowanego graficznego interfejsu użytkownika, ale istnieje kilka dostępnych aplikacji graficznych na stronie 3rdParty. Tesseract jest kompatybilny z wieloma językami programowania i frameworkami dzięki wrapperom, które można znaleźć tutaj. Może być używany z istniejącą analizą układu do rozpoznawania tekstu w dużym dokumencie. Może być również używany w połączeniu z zewnętrznym detektorem tekstu do rozpoznawania tekstu z obrazu przedstawiającego pojedynczą linię tekstu.
Amazon Textract
Amazon Textract to usługa uczenia maszynowego (ML), która automatycznie wyodrębnia tekst, pismo odręczne i dane z zeskanowanych dokumentów. Textract wykorzystuje ML do odczytywania i przetwarzania dowolnego typu dokumentów, dokładnie wyodrębniając tekst, pismo odręczne i tabele. Amazon Textract może wykrywać drukowany tekst i pismo odręczne ze standardowego alfabetu angielskiego i symboli ASCII. Amazon Textract może wyodrębniać drukowany tekst, formularze i tabele w języku angielskim, niemieckim, francuskim, hiszpańskim, włoskim i portugalskim.
Azure Computer Vision
Azure Computer Vision to usługa sztucznej inteligencji, która analizuje zawartość obrazów i wideo. Funkcja OCR wyodrębnia drukowany i odręczny tekst z obrazów i dokumentów w różnych językach i stylach pisma.
Google Document AI
Document AI to rozwiązanie do rozumienia dokumentów, które pobiera nieustrukturyzowane dane (np. e-maile, faktury, formularze, inne dokumenty) i ułatwia ich zrozumienie, analizę i wykorzystanie. Zapewnia również funkcję OCR dla tego rodzaju dokumentów, która wykorzystuje modele ML.
Porównanie wydajności zostało przeprowadzone dla następujących wskaźników. Po pierwsze, obliczamy średni procent wierszy w pełni pasujących do tekstu ręcznej adnotacji:
gdzie N to liczba poprawnie rozpoznanych wierszy w dokumencie, M to pełna liczba wierszy, a n to rozmiar zbioru danych. Po drugie, obliczamy tę samą metrykę dla linii bez interpunkcji (które mogą być traktowane inaczej przez różne narzędzia OCR) i tę samą metrykę dla linii ze znormalizowaną odległością Levensteina nie większą niż próg 0,7.
Kolejną rozważaną miarą było średnie przecięcie nad unią (IoU) między ramkami ograniczającymi słowa. IoU oblicza się, dzieląc nakładanie się adnotacji przewidywanych i adnotacji prawdy podstawowej przez ich połączenie, a następnie wyciąga się średnią:
Uzyskane przez nas wyniki zostały podsumowane w poniższej tabeli:
Chociaż AWS Textract i Azure Computer Vision osiągnęły porównywalne wyniki dla języka angielskiego, wybraliśmy funkcję OCR Azure Computer Vision. Obsługuje więcej języków, co ma kluczowe znaczenie dla naszych wielojęzycznych rozwiązań, a także wykorzystuje najnowocześniejsze rozwiązania AI.