Es posible definir en Athento palabras o expresiones que nos sirvan para clasificar documentos. Es decir, una expresión textual que indique a Athento que si la encuentra en el OCR o texto del documento, debe asignarle un determinado formulario a dicho documento.
Por cada formulario, es posible definir un conjunto de white words globales para dicho formulario. Para añadir white words globales, utiliza la pestaña Clasificación de la configuración del formulario.
En caso de que para un mismo formulario tenga diferentes plantillas de clasificación, debes definir white words para cada una de ellas por separado. Puedes definir white words para cada plantillas desde la pestaña Clasificación de la template, entrando en el template.
¿Qué white words debo escoger?
- Las white words son expresiones, por lo que puedes utilizar varias palabras juntas, así com comodines como ?.* Por ejemplo, puedes poner una expresión regular que sea "condici.n" en lugar de "condición", de modo que no afecte la manera en la que el OCR lea el carácter acentuado.
- Las expresiones son sensibles a mayúsculas/ minúsculas.
- El algoritmo clasifica el documento en cuanto encuentra una coincidencia y cada white word es evaluada de forma individual. El resto de las expresiones no las evalúa.
- Es mejor utilizar expresiones más restrictivas. Por ejemplo, si utilizamos solo la white word "CONDICIONES" para clasificar las condiciones particulares de una póliza, Athento puede encontrar falsas coincidencias, como podría ser las condiciones generales, ya que en ellas también aparece el texto CONDICIONES. En este caso, es mejor utilizar "CONDICIONES PARTICULARES".
- Athento busca una coincidencia exacta de la white word, pero el parámetro fuzzyness permite tolerar cierto nivel de diferencia entre la white word y la expresión encontrada. El fuzzyness debe ser 0-1 cuando queramos una coincidencia exacta y un valor superior cuanta más tolerancia al error queramos permitir. El fuzzyness solo se puede configurar desde el administrador avanzado.
- Es buena práctica observar cómo se extrae la expresión en diferentes documentos del mismo tipo. Como se puede ver en el ejemplo, la expresión CONDICIONES PARTICULARES no siempre se extrae bien.
- Desde las features de un documento es posible ver qué expresión ha sido utilizada en la clasificación de un documento.
¿Qué son las black words?
Juegan el rol contrario a las white words y nos ayudan a descartar falsos positivos. "CONDICIONES GENERALES" podría ser una black word para el caso de las Condiciones Particulares.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.