Secondo il rapporto dell’agenzia Allied Market Research, il mercato mondiale dell’estrazione dei dati è stato valutato a 2,14 miliardi di dollari nel 2019 e si prevede che raggiungerà i 4,90 miliardi di dollari entro il 2027.

Al giorno d’oggi, il problema dell’estrazione dei dati e della comprensione dei documenti è fondamentale per molte aziende, compresi i settori bancario, dei servizi finanziari e assicurativo. L’elaborazione manuale dei documenti ha un costo di processo elevato per una serie di motivi.

Costo umano della tracciabilità dei documenti e degli errori

1. Mantenere la versione corretta del documento può essere difficile, soprattutto quando viene revisionato più volte. Se la tracciabilità dei documenti non è stata eseguita correttamente, può portare a doppi pagamenti, consegna di articoli extra, ecc.

2. Esistono molti documenti e transazioni simili tra un fornitore e un acquirente frequenti.

3. Il processo non è scalabile. Mantenere un numero ottimale di risorse umane è difficile quando il volume di elaborazione cambia rapidamente. La maggior parte delle aziende ha questi reparti in esubero per compensare i picchi di volume.

Ritardi nei pagamenti o negli acquisti

4. I dati dei documenti vengono inseriti manualmente nei sistemi. Questo processo diventa un collo di bottiglia quando il volume dei documenti elaborati aumenta.

5. I ritardi nel flusso di lavoro possono portare a ritardi nelle consegne, nei pagamenti o negli acquisti. Di conseguenza, le aziende si trovano ad affrontare un costo elevato del capitale circolante o una perdita di fatturato dovuta a ritardi nell’approvvigionamento delle materie prime, ecc.

Errori di inventario

6. Se i sistemi di inventario non sono correttamente integrati con l’elaborazione dei documenti, l’errore di calcolo dell’inventario può avere un costo elevato. Di conseguenza, si verifica un eccesso di scorte, ordini duplicati, scorte insufficienti e perdite di profitto.

L’OCR automatico è un insieme di attività di computer vision che converte documenti e immagini scannerizzate in testo leggibile dalla macchina. Questo programma prende immagini di documenti, fatture e ricevute, trova il testo al loro interno e lo converte in un formato che le macchine possono elaborare meglio. Se vuoi leggere le informazioni sulle carte d’identità o leggere i numeri su un assegno bancario, l’OCR è il motore del tuo software.

Nel nostro caso, la funzionalità OCR era necessaria per estrarre informazioni strutturate da fatture, ricevute e altri tipi di documenti dei clienti. Per risolvere questo compito abbiamo sviluppato una soluzione di AI (Intelligenza Artificiale) basata sull’idea di LayoutLMv3. Per soddisfare i requisiti del modello di input, la nostra ricerca descriverà l’approccio che implica il riconoscimento delle linee di testo, compresi i riquadri di delimitazione delle parole all’interno della linea.

Il set di dati utilizzato per il benchmark è composto da circa 200 documenti in inglese delle tipologie sopra citate. Sono stati annotati manualmente dal nostro team.

La nostra ricerca di benchmark si concentrerà sui tre seguenti strumenti OCR.

Tesseract OCR

Tesseract è un motore di riconoscimento del testo open-source, disponibile sotto la licenza Apache 2.0. Può essere utilizzato direttamente o tramite un’API per estrarre il testo stampato dalle immagini. Supporta un’ampia varietà di lingue. Tesseract non ha un’interfaccia grafica integrata, ma ce ne sono diverse disponibili nella pagina delle terze parti. Tesseract è compatibile con molti linguaggi di programmazione e framework grazie ai wrapper che puoi trovare qui. Può essere utilizzato con l’analisi del layout esistente per riconoscere il testo all’interno di un documento di grandi dimensioni. Inoltre, può essere utilizzato insieme a un rilevatore di testo esterno per riconoscere il testo da un’immagine di una singola riga di testo.

Amazon Textract

Amazon Textract è un servizio di machine learning (ML) che estrae automaticamente testo, scrittura e dati da documenti scansionati. Textract utilizza il ML per leggere ed elaborare qualsiasi tipo di documento, estraendo con precisione testo, scrittura e tabelle. Amazon Textract è in grado di rilevare il testo stampato e la scrittura a mano dall’alfabeto inglese standard e dai simboli ASCII. Amazon Textract può estrarre testi stampati, moduli e tabelle in inglese, tedesco, francese, spagnolo, italiano e portoghese.

Azure Computer Vision

Azure Computer Vision è un servizio di intelligenza artificiale che analizza i contenuti di immagini e video. La funzionalità OCR estrae il testo stampato e scritto a mano da immagini e documenti con lingue e stili di scrittura misti.

Google Document AI

Document AI è una soluzione per la comprensione dei documenti che prende in considerazione i dati non strutturati (ad esempio e-mail, fatture, moduli e altri documenti) e li rende più facili da comprendere, analizzare e consumare. Fornisce anche funzionalità OCR per quei tipi di documenti che utilizzano modelli ML.

Il benchmark è stato eseguito sulle seguenti metriche. In primo luogo, calcoliamo la percentuale media di righe che corrispondono completamente al testo dell’annotazione manuale:

dove N è il numero di righe riconosciute correttamente in un documento, M è il numero completo di righe e n rappresenta la dimensione del dataset. In secondo luogo, calcoliamo la stessa metrica per le righe senza punteggiatura (che possono essere trattate in modo diverso da diversi strumenti OCR) e la stessa metrica per le righe con distanza di Levenstein normalizzata non superiore alla soglia di 0,7.

La successiva metrica presa in considerazione è stata l’intersezione media sull’unione (IoU) tra le caselle di delimitazione delle parole. L’IoU viene calcolato dividendo la sovrapposizione tra l’annotazione prevista e quella della verità a terra per l’unione di queste ultime, quindi viene presa la media:

I risultati ottenuti sono riassunti nella seguente tabella:

Sebbene AWS Textract e Azure Computer Vision abbiano mostrato risultati comparabili per la lingua inglese, abbiamo scelto la funzionalità OCR di Azure Computer Vision. Supporta un maggior numero di lingue, aspetto fondamentale per le nostre soluzioni multilingue, e utilizza soluzioni AI all’avanguardia.