Metadatos y NLP para mejorar las búsquedas (I)

Metadatos y NLP para mejorar las búsquedas (I)

Metadatos y NLP para mejorar las búsquedas (I)

Los metadatos son una piedra angular en la estrategia de gestión documental de cualquier organización, nos sirven para categorizar, distinguir, valorar y, en última instancia, permitir a nuestros usuarios encontrar la información que les hace falta para realizar su trabajo.

Los metadatos de un documento pueden provenir de tres fuentes:

  • Del fichero del documento: Autor, fecha de creación, tipo de archivo, tamaño, etc. Se crean de forma automática y cualquier sistema los tiene (aunque no los explote). Los sistemas de gestión documental suelen complementarlos con campos personalizados.
  • Del contexto del documento: Los documentos se suelen situar en un contexto que categoriza a los documentos. Por ejemplo, un expediente que contiene documentos está asociado a un cliente, unas fechas determinadas, un departamento, etc. 
  • Del contenido del documento: Personas a las que se hace referencia, expedientes con los que guarda relación, lugares, organizaciones, incluso, en algunos documentos, el autor material del texto.

Los metadatos procedentes del contexto se pueden crear de forma manual o semiautomática, al incorporar el documento al sistema de gestión de contenidos que lo almacena. Aunque enriquecen el documento, la realidad suele ser que no se cumplimentan en su totalidad, o que puedan perderse en caso de reestructuraciones del sistema o migraciones. Además estos metadatos suelen ser estáticos y requieren un esfuerzo ingente en su actualización y cumplimentación a lo largo del tiempo. 

Las búsquedas textuales tradicionales se quedan cortas en proporcionar el contexto del documento y su relación con otros. Sirven para encontrar el documento concreto, pero no aportan información de contexto.

Pero, ¿qué sucede con la información contenida en el texto del documento? Los sistemas tradicionales pueden explotarla mediante búsquedas textuales, incorporadas en la mayoría de los sistemas de gestión de contenidos actuales, pero es un enfoque que claramente se queda corto si queremos explotar todas las posibilidades de la información contenida en nuestros documentos.

Este enfoque solo es válido para encontrar el documento como ente aislado, pero nos oculta toda la información de contexto y las relaciones con otros documentos y entidades.

Pongamos por ejemplo el caso de un despacho de abogados, que dispone de un gran número de expedientes de distintos casos, cada uno de ellos con varios documentos asociados (demandas, recursos, comunicaciones con distintos actores…), todos estos documentos son fácilmente encontrables como unidad aislada, pero carecemos de información de contexto y relaciones con otros documentos y entidades.

Sin embargo, si aparte de saber qué tipo de archivo es, o a qué expediente pertenece, el sistema pudiera tener información del contenido del documento como por ejemplo qué personas aparecen en él, qué organizaciones se mencionan, o qué jurisprudencia se cita, podría realizar una explotación mucho más eficaz y potente, ya que podría indicarnos qué otros documentos tienen que ver con las mismas personas, en qué otros documentos aparecen las mismas organizaciones, o a qué jurisprudencia se hace referencia y dónde podemos encontrarla.

Es decir, el sistema podría proporcionar mucha más información, haciendo más eficaces las tareas de gestión documental y abriendo la puerta a encontrar relaciones relevantes con un coste en tiempo significativamente menor.

Para conseguir esto necesitamos que nuestro sistema no solo use los metadatos introducidos manualmente o los asociados al archivo, sino que sea capaz de analizar el contenido del documento y extraer información de forma automática, permitiendo así manejar una topología de relaciones entre los documentos mucho más rica y compleja que en un sistema tradicional.

Y aquí es donde entra el Machine Learning y el Procesamiento de Lenguaje Natural (Natural Language Processing, NLP).

Natural Language Processing

De manera simplificada podemos decir que el NLP consiste en una serie de técnicas de machine learning y análisis de texto mediante las cuales se puede extraer información, de manera automática del contenido de un documento.

Sin entrar en detalle, el proceso consiste en entrenar un modelo con un número elevado de ejemplos, de forma que pueda reconocer los patrones que nos interesan. Una vez entrenado el modelo, podemos aplicarlo sobre los documentos que queramos y extraer de ellos datos e información que nos sea útil para nuestros objetivos.

Entre los usos más extendidos del NLP se encuentran:

  • Análisis de sentimiento (Sentiment Analysis): muy utilizado en redes sociales y en opiniones de clientes, sirve para evaluar si un texto determinado tiene un tono positivo o negativo.
  • Named Entity Recognition (NER): consiste en la extracción de entidades de un texto, como pueden ser nombres propios, organizaciones, localizaciones, fechas, cantidades económicas, etc.
  • Part of Speech (PoS): se utiliza para la identificación de los distintos elementos de un texto desde el punto de vista sintáctico, es decir, sujeto, verbo, determinante, preposición, etc. Es muy útil a la hora de establecer relaciones entre entidades extraídas del texto, o las acciones que pueden estar realizando cada una de ellas.
  • Extracción de frases: con una combinación de las dos anteriores técnicas, se pueden crear patrones concretos para extraer elementos más largos de texto que nos puedan interesar. Por ejemplo, podemos buscar todos los Reales Decretos mencionados en un texto con un patrón del tipo {Real}{Decreto}{numero}.

Combinando las distintas técnicas mencionadas junto con otras, se puede por ejemplo analizar la opinión que ha dejado un cliente en nuestra web, y extraer de forma automática no sólo si es una opinión positiva o negativa, sino qué elementos se mencionan, e incluso cuáles de ellos se mencionan de forma positiva o negativa de forma individual.

En siguientes artículos iremos desgranando posibles casos de uso en sectores distintos, así como profundizando en las tecnologías que podemos utilizar para extraer el conocimiento de los recursos documentales de la organización.

 

Foto del artículo por Markus Spiske on Unsplash

¿Te interesa saber más? Contacta con nosotros


Volver al listado de noticias