Considérant le rapport de l’agence Allied Market Research, le marché mondial de l’extraction de données a été évalué à 2,14 milliards de dollars en 2019, et devrait atteindre 4,90 milliards de dollars d’ici 2027.

De nos jours, le problème de l’extraction des données et de la compréhension des documents est crucial pour de nombreuses entreprises, notamment dans les secteurs de la banque, des services financiers et de l’assurance. Le traitement manuel des documents a un coût élevé pour diverses raisons.

Coût humain du suivi des documents et des erreurs

1. Il peut être difficile de conserver la bonne version d’un document, surtout lorsqu’il est révisé plusieurs fois. Si le suivi des documents n’est pas effectué correctement, cela peut entraîner des doubles paiements, la livraison d’articles supplémentaires, etc.

2. Il existe de nombreux documents et transactions similaires entre un fournisseur et un acheteur fréquents.

3. Le processus n’est pas extensible. Il est difficile de maintenir un nombre optimal de ressources humaines lorsque le volume de traitement change rapidement. Dans la plupart des entreprises, ces services sont en sureffectif pour compenser les pics de volume.

Retards de paiement ou de passation de marchés

4. Les données des documents sont introduites manuellement dans les systèmes. Ce processus devient un goulot d’étranglement lorsque le volume de documents traités augmente.

5. Les retards dans le déroulement des opérations peuvent entraîner des retards de livraison, de paiement ou d’approvisionnement. En conséquence, les entreprises sont confrontées à un coût élevé de leur fonds de roulement ou à des pertes de revenus dues à des retards dans l’approvisionnement en matières premières, etc.

Erreurs d’inventaire

6. Si les systèmes d’inventaire ne sont pas correctement intégrés au traitement des documents, le coût d’une erreur de calcul des stocks peut être élevé. Il en résulte un surstockage, des commandes en double, un sous-stockage ou une perte de revenus.

L’OCR automatique est un ensemble de tâches de vision par ordinateur qui permet de convertir des documents et des images numérisés en texte lisible par une machine. Ce programme prend des images de documents, de factures et de reçus, y trouve du texte et le convertit dans un format que les machines peuvent mieux traiter. Si vous souhaitez lire les informations figurant sur des cartes d’identité ou les chiffres d’un chèque bancaire, c’est l’OCR qui pilotera votre logiciel.

Dans notre cas, la fonctionnalité OCR était nécessaire pour extraire des informations structurées à partir de factures, de reçus et d’autres types de documents de clients. Pour résoudre cette tâche, nous avons développé la solution AI (Intelligence Artificielle) basée sur l’idée de LayoutLMv3. Pour répondre aux exigences du modèle d’entrée, notre recherche décrira l’approche qui implique la reconnaissance des lignes de texte, y compris les boîtes de délimitation des mots à l’intérieur de la ligne.

L’ensemble de données utilisé pour l’évaluation comparative se compose d’environ 200 documents en anglais des types susmentionnés. Ils ont été annotés manuellement par notre équipe.

Notre recherche comparative se concentrera sur les trois outils d’OCR suivants.

Tesseract OCR

Tesseract est un moteur de reconnaissance de texte open-source, disponible sous la licence Apache 2.0. Il peut être utilisé directement ou à l’aide d’une API pour extraire du texte imprimé à partir d’images. Il prend en charge une grande variété de langues. Tesseract n’a pas d’interface graphique intégrée, mais plusieurs sont disponibles sur la page 3rdParty. Tesseract est compatible avec de nombreux langages de programmation et frameworks grâce à des wrappers que vous pouvez trouver ici. Il peut être utilisé avec l’analyse de la mise en page existante pour reconnaître le texte dans un grand document. Il peut également être utilisé avec un détecteur de texte externe pour reconnaître un texte à partir de l’image d’une seule ligne de texte.

Amazon Textract

Amazon Textract est un service d’apprentissage automatique qui permet d’extraire automatiquement du texte, des écritures et des données à partir de documents numérisés. Textract utilise la ML pour lire et traiter tout type de document, en extrayant avec précision le texte, l’écriture manuscrite et les tableaux. Amazon Textract peut détecter du texte imprimé et de l’écriture manuscrite à partir de l’alphabet anglais standard et des symboles ASCII. Amazon Textract peut aussi extraire des textes imprimés, des formulaires et des tableaux en anglais, allemand, français, espagnol, italien et portugais.

Azure Computer Vision

Azure Computer Vision est un service d’IA qui analyse le contenu des images et des vidéos. La fonctionnalité OCR permet d’extraire des textes imprimés et manuscrits d’images et de documents contenant des langues et des styles d’écriture différents.

Google Document AI

Document AI est une solution de compréhension des documents qui prend des données non structurées (par exemple des courriels, des factures, des formulaires, d’autres documents) et les rend plus faciles à comprendre, à analyser et à consommer. Il fournit également une fonctionnalité d’OCR pour ces types de documents qui utilise des modèles de ML.

L’analyse comparative a été réalisée sur les paramètres suivants. Tout d’abord, nous avons calculé le pourcentage moyen de lignes correspondant entièrement au texte de l’annotation manuelle :

où N est le nombre de lignes correctement reconnues dans un document, M est le nombre total de lignes et n représente la taille de l’ensemble de données. Deuxièmement, nous avons calculé la même métrique pour les lignes sans ponctuation (qui peuvent être traitées différemment par différents outils d’OCR) et la même métrique pour les lignes dont la distance de Levenstein normalisée n’est pas supérieure au seuil de 0,7.

La mesure suivante a été la moyenne de l’intersection sur l’union (IoU) entre les boîtes délimitant les mots. L’IoU est calculé en divisant le chevauchement entre l’annotation prédite et l’annotation vérité terrain par l’union de ces deux annotations, puis la moyenne est calculée :

Les résultats obtenus sont résumés dans le tableau suivant :

Bien qu’AWS Textract et Azure Computer Vision aient donné des résultats comparables pour la langue anglaise, nous avons choisi la fonctionnalité OCR d’Azure Computer Vision. Elle prend en charge davantage de langues, ce qui est essentiel pour nos solutions multilingues, et utilise des solutions d’IA de pointe.