¿Cómo puedo extraer el texto de un documento?

31 de enero de 2023 11:47
Actualización

Athento cuenta con varias operaciones o automatismos que permiten extraer el texto de un documento. Las dos más utilizadas son Extract Text y Extract OCR.

Screenshot_2021-02-26_at_09.39.06.png

¿Cuándo utilizar Extract text?

Activa esta operación para archivos PDF que han nacido en digital. Es decir, documentos que no han sido escaneados, sino que hemos recibido la versión digital original.

Una forma muy fácil de saber si un documento es digital, es pasar el ratón sobre el mismo. Si podemos señalar el texto, estamos ante un documento digital.

Screenshot_2021-02-26_at_09.43.49.png

Para documentos digitales no es necesaria la aplicación de OCR, pues el texto se encuentra contenido dentro del propio archivo.

El texto extraído de un documento puede consultarse desde las características del documento.

Esta operación almacena el texto completo del documento en la característica feature.text que puede ser explotada para extracción de campos.

La ventaja de trabajar con el texto nativo del documento es que la calidad es muy buena.

¿Cuándo utilizar Extract OCR?

Utilizamos OCR cuando trabajamos con archivos de tipo imagen (TIF, JPG, PNG, etc.) o con PDFs resultantes de la digitalización y a los que el escáner no les ha aplicado previamente un proceso de OCR.

El OCR es un proceso de transformación de una imagen a texto, y no siempre el resultado de esta transformación es óptimo. Depende de muchos factores, entre ellos la calidad de los documentos.

En este artículo puede ver cómo extraer el OCR de un documento.

¿Cuándo utilizar Extract text?

¿Cuándo utilizar Extract OCR?

Artículos relacionados