Teniendo en cuenta el informe de la agencia Allied Market Research, el mercado mundial de extracción de datos se valoró en 2.140 millones de dólares en 2019, y se espera que alcance los 4.900 millones de dólares en 2027.

Hoy en día, el problema de la extracción de datos y la comprensión de documentos es crítico para muchas empresas, incluidos el sector bancario, los servicios financieros y el sector seguros. El tratamiento manual de los documentos tiene un precio de procesamiento elevado debido a diversas razones.

Coste humano del seguimiento de documentos y errores

1. Mantener la versión correcta del documento puede ser difícil, sobre todo cuando se revisa varias veces. Si el seguimiento de los documentos no se ha hecho correctamente, puede dar lugar a pagos dobles, entrega de artículos de más, etc.

2. Hay muchos documentos y transacciones similares entre un proveedor y un comprador frecuente.

3. El proceso no es escalable. Mantener un número óptimo de recursos humanos es difícil cuando el volumen de procesamiento cambia rápidamente. La mayoría de las empresas tienen estos departamentos con exceso de personal para compensar los picos de volumen.

Retrasos en pagos o adquisiciones

4. Los datos de los documentos se introducen en los sistemas manualmente. Este proceso se convierte en un obstáculo cuando aumenta el volumen de documentos procesados.

5. Los retrasos en el flujo de trabajo pueden provocar retrasos en la entrega, el pago o la adquisición. Como consecuencia, las empresas se enfrentan a un elevado coste de capital circulante o a pérdidas de ingresos por retrasos en la adquisición de materias primas, etc.

Errores de inventario

6. Si los sistemas de inventario no están correctamente integrados con el tratamiento de documentos, puede haber un alto coste por calcular mal el inventario. El resultado es un exceso de existencias, pedidos duplicados, falta de existencias y pérdida de ingresos.

El OCR automático es un conjunto de tareas de visión por ordenador, que convierte imágenes y documentos escaneados en texto legible por máquina. Este programa toma imágenes de documentos, facturas y recibos, encuentra texto en ellas y lo convierte a un formato que las máquinas puedan procesar mejor. Si quieres leer la información de los carnés de identidad o leer los números de un cheque bancario, el OCR es lo que dirigirá tu software.

En nuestro caso, la funcionalidad OCR era necesaria para extraer información estructurada de facturas, recibos y otros tipos de documentos de clientes. Para resolver la tarea desarrollamos la solución AI (Inteligencia Artificial) basada en la idea LayoutLMv3. Para satisfacer los requisitos de la entrada del modelo, nuestra investigación describirá el enfoque que implica el reconocimiento de las líneas de texto, incluidos los cuadros delimitadores de las palabras dentro de la línea.

El conjunto de datos utilizado para la prueba comparativa consta de unos 200 documentos en inglés de los tipos mencionados. Nuestro equipo las anotó manualmente.

Nuestra investigación de referencia se centrará en las tres herramientas de OCR siguientes.

Tesseract OCR

Tesseract es un motor de reconocimiento de texto de código abierto, que está disponible bajo licencia Apache 2.0. Puede utilizarse directamente o mediante una API para extraer texto impreso de imágenes. Admite una gran variedad de idiomas. Tesseract no tiene una interfaz gráfica de usuario integrada, pero hay varias disponibles en la página de terceros. Tesseract es compatible con muchos lenguajes de programación y frameworks mediante wrappers que puedes encontrar aquí. Puede utilizarse con el análisis de disposición existente para reconocer el texto dentro de un documento grande. Además, puede utilizarse junto con un detector de texto externo para reconocer texto a partir de una imagen de una sola línea de texto.

Amazon Textract

Amazon Textract es un servicio de aprendizaje automático (ML) que extrae automáticamente texto, escritura y datos de documentos escaneados. Textract utiliza ML para leer y procesar cualquier tipo de documento, extrayendo con precisión texto, escritura a mano y tablas. Amazon Textract puede detectar texto impreso y escritura a mano a partir del alfabeto latino estándar y símbolos ASCII. Amazon Textract puede extraer texto impreso, formularios y tablas en inglés, alemán, francés, español, italiano y portugués.

Visión artificial Azure

Visión artificial Azure es un servicio de AI que analiza el contenido en formato de vídeo e imágenes. La función OCR extrae texto impreso y manuscrito de imágenes y documentos con idiomas y estilos de escritura mixtos.

Google Document AI

AI documental es una solución de comprensión de documentos que coge datos no estructurados (por ejemplo, correos electrónicos, facturas, formularios y otros documentos) y facilita su comprensión, análisis y consumo. También proporciona funcionalidad OCR para ese tipo de documentos que utiliza modelos ML.

La prueba comparativa se realizó con las siguientes métricas. En primer lugar, calculamos el porcentaje medio de líneas que coinciden plenamente con el texto de la anotación manual:

donde N es el número de líneas reconocidas correctamente en un documento, M es el número total de líneas y n representa el tamaño del conjunto de datos. En segundo lugar, calculamos la misma métrica para las líneas sin puntuación (que pueden ser tratadas de forma diferente por distintas herramientas de OCR) y la misma métrica para las líneas con distancia Levenstein normalizada no superior al umbral de 0,7.

La siguiente métrica considerada fue la intersección media sobre la unión (IoU) entre cajas delimitadoras de palabras. El IoU se calcula dividiendo el solapamiento entre la anotación predicha y la de la verdad fundamental por la unión de éstas, y luego se toma la media:

Los resultados que obtuvimos se resumen en la tabla siguiente:

Aunque AWS Textract y Azure Computer Vision(visión artificial) mostraron resultados comparables para el idioma inglés, elegimos la funcionalidad OCR de Azure Computer Vision. Admite más idiomas, lo que es fundamental para nuestras soluciones multilingües, y utiliza soluciones de AI de última generación.