Athento permite extraer los metadatos de manera inteligente con Athenea. Puedes usar esta funcionalidad con o sin esta operación.
Usar la extracción de campos inteligente sin activar una operación.
La operación Extract metadata intelligently with OpenAI, te ofrecerá mayor flexibilidad.
op_intelligent_extract_metadata.py
Esta operación se encargará de extraer de manera inteligente todos los campos especificados en el parámetro "Metadata to be extracted".
En caso de no especificarse ningún campo, se extraerán todos.
La operación puede usarse de dos formas:
- Usando el OCR o texto del documento. Este texto es el que se envía a OpenAI para obtener los valores de los campos.
- Envíando las páginas del documento a OpenAI.
En el primer caso, para que la extracción funcione, se deberán haber lanzado las operaciones de extracción de texto/OCR en el documento.
La ventaja de la segunda opción es que enviar las páginas evita la pérdida de contexto que se puede generar al enviar sólo el texto u OCR.
Extraer campos sin lanzar OCR
Si no quieres utilizar OCR, en "Extraction mode" elige "Document".
En "Pages" puedes elegir las páginas de las que se extraerán los campos. Para ello indica el número de las páginas separadas por comas. También es posible indicar un rango de páginas usando un guión. Por ejemplo, si quieres tener en cuenta la página 1, la página 3 y las páginas de la 10 a la 15 debes poner:
1, 3, 10-15
En el artículo Extracción inteligente de campos usando Athenea (IA) está disponible más información sobre cómo darle el contexto a la IA de lo que se quiere extraer en cada campo y así obtener una extracción más precisa.
IMPORTANTE: Para que esta operación funcione NO es necesario configurar el campo "Custom extract path" por cada campo.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.