Extracción OCR

5 de mayo de 2021 13:19
Actualización

Athento permite extraer el texto de documentos con formatos estándares. La funcionalidad de OCR permite leer el texto de una imagen (PDF, JPG, PNG, TIFF, etc.) y convertirlo a texto que puede ser leído y procesado por ordenadores.

Athento incluye un motor OCR por defecto -Tesserac-, pero es posible usar otros motores OCR ya que el diseño de operaciones permite desacoplar de forma completa el motor de OCR o incluso usar varios al tiempo.

Entre los distintos motores que se podrían acoplar a Athento se encuentran Google OCR, Amazon OCR, Abby OCR SDK, OpenText RecoStar, entre otros.

Athento permite extraer el contenido textual de un documento o contenido digital en los siguientes formatos:

JPG (.jpg y .jpeg)
PNG (.png)
TIFF (.tiff)
PDF(.pdf)

Artículos relacionados