Athento puede extraer datos de forma automática. La configuración de esta extracción debe hacerse desde la administración del campo.
Buena parte de los mecanismos de extracción de Athento utilizan estrategias de análisis de texto para hacerse con la información. A continuación veremos algunas de las opciones disponibles desde la interfaz de usuario.
Antes de empezar este tutorial, te recomendamos cargar en el sistema varias muestras del mismo tipo de documento y extraer el OCR de los mismos.
Indicar de dónde se debe extrar el valor
Para extraer cualquier campo, Utilice el desplegable Extract from (Extraer desde) para indicar de dónde se debe extraer el dato. Puede indicar una página concreta o la opción Full OCR para buscar el dato en todo el documento. También puede extraer el valor a partir del nombre del archivo con la opción Filename.
Extraer un valor utilizando otras palabras para delimitar el dato
Puede usar este mecanismo cuando el valor que quieres extraer se encuentra siempre entre dos palabras o expresiones conocidas.
Por ejemplo, supon que en el OCR extraído de tu documento se muestra la siguiente información.
Si quisieras extraer el número que se encuentra tras la expresión CUIT:, debes delimitar la ubicación del dato indicando dos expresiones: un que anteceda al dato y otra que lo preceda.
Para el ejemplo:
- Extract starting from word (Extraer a partir)-> CUIT:
- Extract finishing in (Extraer hasta) -> Apellido y Nombre
Puedes indicar varias expresiones de inicio o de fin, separandolas con el caracter | (pipe).
Extraer usando una expresión regular
Para usar este mecanismo de extracción, debes indicarle a Athento un patrón de texto que debe encontrar en el OCR del documento. Este método funciona muy bien con datos que tienen un patrón definido, como por ejemplo, un DNI, un CIF, una fecha, etc.
En el campo Regular Expression to Extract en la administración del campo, indica el patrón que quieras buscar, por ejemplo, si buscas un número de 7 dígitos, podrás ingresar una expresión como la que sigue:
- Regular Expression to Extract -> [0-9]{7}
Para extraer una fecha, puedes usar la expresión que se muestra en la siguiente captura de pantalla.
Probar la extracción de un campo
Una vez configurada la extracción de un campo, para probarla, abre un documento de ejemplo que esté clasificado con el mismo Document Form en el que se encuentra el campo.
Desbloquea los botones bajo los campos y utiliza la opción de la mirilla para extraer el dato.
Otros artículos de interés
Expresiones regulares frecuentes
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.