Calidad de la extracción

La calidad de extracción en procesos OCR depende de la calidad de los documentos, su estructura y otros factores.

Si se tiene control sobre el proceso de digitalización, se recomienda seguir las siguientes buenas prácticas de digitalización.

Si no se tiene control sobre la naturaleza de los documentos, te recomendamos al menos, hacer pruebas con documentos reales recibidos para obtener expectativas más realistas sobre los resultados.

En cualquier caso, Athento recomienda considerar siempre que los procesos de OCR incluyan validación manual o semiatutomática.

Ten en cuenta que Athento no asegura en ningún caso índices de extracción. Éstos deberán calcularse en base a la configuración que se haya realizado y dependerán de la naturaleza de los documentos.

Tiempos de procesamiento de documentos

Los tiempos de procesamiento del OCR dependen del tamaño de los documentos y número de páginas, por lo que si existen requisitos de tiempo, por ejemplo, se esperan los resultados en tiempo real, puede ser necesario ampliar la arquitectura.

De media, el tiempo de procesamiento aproximado es de 11 segundos por página. Si se quiere un tiempo menor para un volumen de documentos grande, es recomendable ampliar la arquitectura.

¿Se pueden mejorar los resultados?

A medida que se incorporan más documentos y se detectan más casuísticas y escenarios, es posible definir estrategias para mejorar los resultados. Por ejemplo, cargar bases de datos con valores conocidos, comparar contra otros documentos, priorizar los valores más comunes, etc.

¿Es posible entrenar el OCR?

Normalmente el motor de OCR en sí mismo no se entrena (es posible pero es un proceso costoso), sí puede entrenarse el análisis de layout y algunos otros procesos de análisis del documento. Normalmente para realizar un análisis se necesitan entre 1000 y 2000 documentos.

¿Qué impacto en mejora de mis procesos puedo esperar con la introducción de OCR?

Depende mucho del proceso de negocio hay casos en que la mejora es el 10% del esfuerzo y hay casos en que la mejora es el 90%. También hay casos en que se realizan automatizaciones al 100% asumiendo un umbral de error.