¿Cómo funciona la clasificación por palabras permitidas o white words? – Athento

Este artículo explica cómo asignar una clasificación específica a un formulario. Si estás usando plantillas de extracción, debes seguir el artículo ¿Cómo crear diferentes plantillas de extracción de datos para un mismo formulario?

Es posible definir en Athento palabras o expresiones que nos sirvan para clasificar documentos. Es decir, una expresión textual que indique a Athento que si la encuentra en el OCR o texto del documento, debe asignarle un determinado formulario a dicho documento.

Prerrequisitos

La clasificación por Whitewords requiere que se obtenga el contenido textual de los PDFs o imágenes con los que se trabaja.

En el espacio que contiene los documentos a procesar, debe tener activas las siguientes operaciones:

Extraer número de páginas.
Extraer texto u OCR. (Si los documentos han nacido en digital usa Extraer Texto, si estás trabajando con imágenes, usa Extraer OCR)
Clasificar por similitud de texto aproximado (Classifier by Fuzzy Text Similarity- white_and_black_words).

Configuración de la operación Classifier by Fuzzy Text Similarity

Screenshot 2024-08-15 at 12.51.09.png

Dependiendo del tipo de extracción que estés haciendo (texto u OCR), deberás indicar a la operación de dónde debe tomar el texto en el que buscará las whitewords.

Full text (feature.text): en caso de que estés extrayendo el texto del documento
Full ocr (full_ocr): para buscar en todo el OCR
Page (charact.ocr1, etc): utiliza esta opción si quieres clasificar por el texto de una página en concreto. Una vez seleccionado, deberás indicar de forma obligatoria en el parámetro Extraction page number el número de la página a usar. Puedes indicar varias páginas, por ejemplo, si quieres utilizar la primera y la segunda página, debes colocar en este parámetro: 1,2
filename: para buscar en el nombre del documento

El resto de parámetros no necesitan actualizarse.

Añadir las palabras permitidas

Por cada formulario, es posible definir un conjunto de white words globales para dicho formulario. Para añadir white words globales, utiliza la pestaña Clasificación de la configuración del formulario.

En caso de que para un mismo formulario tenga diferentes plantillas de clasificación, debes definir white words para cada una de ellas por separado. Puedes definir white words para cada plantillas desde la pestaña Clasificación de la template, entrando en el template.

¿Qué white words debo escoger?

Las white words son expresiones, por lo que puedes utilizar varias palabras juntas, así com comodines como ?.* Por ejemplo, puedes poner una expresión regular que sea "condici.n" en lugar de "condición", de modo que no afecte la manera en la que el OCR lea el carácter acentuado.
Las expresiones son sensibles a mayúsculas/ minúsculas.
El algoritmo clasifica el documento en cuanto encuentra una coincidencia y cada white word es evaluada de forma individual. El resto de las expresiones no las evalúa.
Es mejor utilizar expresiones más restrictivas. Por ejemplo, si utilizamos solo la white word "CONDICIONES" para clasificar las condiciones particulares de una póliza, Athento puede encontrar falsas coincidencias, como podría ser las condiciones generales, ya que en ellas también aparece el texto CONDICIONES. En este caso, es mejor utilizar "CONDICIONES PARTICULARES".
Athento busca una coincidencia exacta de la white word, pero el parámetro fuzzyness permite tolerar cierto nivel de diferencia entre la white word y la expresión encontrada. El fuzzyness debe ser 0-1 cuando queramos una coincidencia exacta y un valor superior cuanta más tolerancia al error queramos permitir. El fuzzyness solo se puede configurar desde el administrador avanzado.
Es buena práctica observar cómo se extrae la expresión en diferentes documentos del mismo tipo. Como se puede ver en el ejemplo, la expresión CONDICIONES PARTICULARES no siempre se extrae bien.
Desde las features de un documento es posible ver qué expresión ha sido utilizada en la clasificación de un documento.

Screenshot_2021-01-19_at_09.27.17.png

¿Qué son las black words?

Juegan el rol contrario a las white words y nos ayudan a descartar falsos positivos. "CONDICIONES GENERALES" podría ser una black word para el caso de las Condiciones Particulares.

Prerrequisitos

Configuración de la operación Classifier by Fuzzy Text Similarity

Añadir las palabras permitidas

¿Qué white words debo escoger?

¿Qué son las black words?

Artículos relacionados