Athento cuenta funcionalidad para la extracción de metadatos o campos, para asignar automáticamente información relevante a los documentos o contenidos capturados.
El producto cuenta con diversas funcionalidades que pueden ser utilizadas de acuerdo con la naturaleza de los documentos, imágenes o contenidos.
Uno de los valores de Athento es que te permite la combinación de múltiples mecanismos de extracción.
Métodos de extracción de metadatos en Athento
A partir del texto completo de un documento
Athento puede extraer el texto de documentos mediante OCR (Reconocimiento Óptico de Caracteres) o extraer el texto de documentos nativos digitales. Una vez el texto o el OCR del documento está disponible, Athento puede detectar datos clave como nombres, fechas, números de identificación, etc.
Para detectar estos datos usa expresiones regulares, palabras clave o reglas de negocio para identificar y asignar metadatos de forma automática (por ejemplo, detectar un número de factura o un NIF en un documento).
Puedes consultar:
¿Cómo extraer el OCR de un documento?
¿Cómo puedo extraer el texto de un documento?
¿Cómo extraer campos de forma automática?
Ejemplos de expresiones regulares frecuentes
¿Cómo puedo sacar todas las ocurrencias de una expresión regular?
A partir de zonas del documento
Las plantillas de extracción permiten definir zonas del documento en las que se encuentran los datos a extraer. Para un mismo formulario o tipo documental es posible tener multiples plantillas.
Una vez clasificado el documento con una plantilla, se extraen los datos de las zonas delimitadas en la plantilla en las que se espera encontrar información clave (ejemplo: número de factura, fecha, total, etc.). Para cada una de las zonas delimitadas, la aplicación genera pequeños recortes del documento en formato imagen a los que se les aplica OCR. De esta manera se focaliza el reconocimiento de caracteres a zonas específicas.
Las plantillas en Athento tienen la ventaja de que permiten combinar métodos de extracción, por ejemplo, expresiones regulares, palabras clave o reglas de negocio presentes en el texto completo del documento.
Otra ventaja de este método es que las plantillas pueden ser definidas de forma visual por usuarios sin conocimientos técnicos.
Puedes consultar:
¿Cómo crear diferentes plantillas de extracción de datos para un mismo formulario?
Extracción de datos utilizando Inteligencia Artificial IA
La extracción de campos mediante IA funciona definiendo para cada campo un contexto, así como un contexto para el formulario al que pertenecen los campos. El usuario describe el dato que quiere obtener. A partir de esta descripción textual del dato, los automatismos de IA disponibles buscarán la información en el texto del documento (extraído previamente) o a partir de imágenes de las páginas de un documento.
Las ventajas de la extracción de datos utilizando Inteligencia Artificial son:
- No hace falta definir múltiples plantillas para un mismo tipo documental. Esto reduce de creación y mantenimiento de plantillas, aunque puede ocurrir que los usuarios tengan que ajustar las descripciones de sus campos.
- Los contextos se definen en forma de texto, de modo que cualquier usuario puede hacerlo.
- La IA nos puede dar información que no está literalmente presente en el documento, pero que puede interpretar. Por ejemplo, supongamos que en el documento aparece la ciudad, pero no el país. Para rellenar el campo del país, la IA puede inferir el país a partir de la ciudad mencionada en el texto del documento.
- Podemos pedirle a la IA el dato en un formato específico. Por ejemplo, si se quiere extraer una fecha, puede que la fecha aparezca en distintos formatos en los distintos documentos. Sin embargo, si le especificamos a la IA el formato en el que queremos la fecha, este nos la puede dar ya transformada.
- Aprendizaje y feedback. Es posible darle retroalimentación sobre los resultados, de manera que aprenda.
Puedes consultar:
Operación para extraer campos con Inteligencia Artificial
Extracción inteligente de campos usando Athenea
A partir de fuentes de datos externas o tablas maestras cargadas en Athento
Athento puede validar y completar metadatos consultando fuentes externas (por ejemplo, un ERP o CRM) para garantizar la coherencia y calidad de la información. También es posible cargar datos en Athento (como diccionarios o como registros) para buscar estos datos en el texto del documento.
Otros métodos para completar campos o metadatos
- Extraer datos del título de un documento
- Calcular valores a partir de otros campos
- Heredar datos de otros documentos
Extracción de datos de contenidos digitales diferentes de documentos
Athento también ofrece automatismos que permiten utilizar servicios de IA para analizar y obtener información a partir de:
- Vídeos
- Fotografías
- Infografías
- etc.
Puedes consultar:
Operación para analizar imágenes con Inteligencia Artificial
¿Cómo extraer datos de un vídeo usando Azure AI Video Indexer?
Operación para obtener la leyenda de una imagen
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.