Para garantizar los mejores resultados posibles en materia de extracción de datos y OCR, recomendamos:
Recomendaciones
Que los documentos sean digitalizados a al menos 300dpi
¿Qué elementos pueden afectar la calidad de la imagen?
- Manchas en los documentos originales.
- Dobleces.
- Formato de salida y profundidad al escanear.
¿Qué formatos de salida recomendamos?
- PDF.
- TIFF.
No obstante, Athento soporta los formatos enunciados en el siguiente Extracción OCR.
¿Qué pasa cuando la calidad de la imagen es baja?
Dos procesos se ven especialmente afectados:
- Clasificación basada en expresiones textuales: Al no poder extraerse correctamente el OCR, las expresiones textuales tampoco se extraen bien, por lo que la clasificación puede fallar.
- Extracción de metadatos: Es posible que no se extraigan los metadatos o que se extraigan de forma incorrecta.
¿Es lo mismo procesar una foto que una imagen escaneada?
No, no es lo mismo. Procesar fotografías tiene mucha más complejidad, ya que las imágenes generadas mediante cámaras pueden tener:
- Distorsión de la perspectiva.
- Desenfoque.
- Problemas de luminosidad.
¿Puede Athento corregir defectos de las imágenes?
Athento tiene operaciones que pueden corregir defectos como los que siguen:
- Corregir la orientación del documento.
- Borrar páginas en blanco.
- Limpiar el OCR...etc.
Sin embargo, las correcciones tienen limitaciones, y en muchas ocasiones no son suficientes para obtener resultados 100% óptimos.
También puedes consultar
¿Cuál es el porcentaje de acierto de Athento en extracción de datos?
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.