Textos médicos a un clic
Sólo en Andalucía, durante el año 2007, los grupos adscritos al área de Ciencia y Tecnología de la Salud (CTS) del PAIDI publicaron, según datos facilitados por SICA, más de 6.600 textos relacionados con el ámbito sanitario, entre los que se encuentran tanto artículos, libros y capítulos de libros, así como actas de congresos. Un material que, en numerosas ocasiones, se suma a la ingente cantidad de información disponible en Internet a través de bases de datos especializadas en medicina, tales como Medline o Pubmed, suponiendo una dificultad tanto para encontrar material de calidad como para analizar el conjunto de textos disponibles.
Los investigadores Jacinto Mata y Manuel Jesús Maña |
Con el doble objetivo de filtrar la información relevante y de paliar la inabarcabilidad con el que en numerosas ocasiones se topan los profesionales de la medicina, investigadores de la Universidad Europea de Madrid (UEM) y de la Universidad de Huelva (UHU), encabezados por Manuel de Buenaga (UEM), trabajan en un proyecto titulado Sinamed: Diseño e Integración de Técnicas de Generación de Resúmenes y Categorización Automática de Textos para el Acceso a Información Bilingüe en el Ámbito Biomédico. Un estudio financiado por el Ministerio de Educación y Ciencia y la Unión Europea a través del Fondo Europeo de Desarrollo Regional, y que, en líneas generales, plantea una serie de técnicas asociadas al procesamiento del lenguaje natural y el acceso a la información, para facilitar a los médicos el acceso y la compresión de la numerosa información publicada en su área de trabajo.
"El médico es un ámbito en el que la sobrecarga de información que vivimos todos es aún mayor, el exceso de datos es muy alto, por lo que estar al día de lo que se publica es muy difícil, aún si el área de especialización es relativamente pequeña", afirma Manuel Maña, responsable del proyecto en la Onubense. Por ello, estos investigadores han planteado una serie de técnicas, que desarrollan desde el inicio del trabajo en 2005, y que van desde la clasificación de textos hasta la generación automática de resúmenes, el reconocimiento de entidades con nombre o la aplicación de esto a dispositivos móviles. Todo desde una perspectiva de investigación básica en la que la finalidad no es construir un software que se vaya a instalar en los hospitales, sino la experimentación. Sin embargo, no se descarta que del nuevo proyecto solicitado como continuación del actual puedan surgir aplicaciones concretas, "dependiendo de la madurez de las técnicas y del estudio, no sólo de la eficacia, sino también de la usabilidad", afirma Jacinto Mata, integrante del grupo de la UHU.
Desde un punto de vista técnico, para cada una de las herramientas citadas se ha establecido un marco de trabajo en el que se ha desarrollado un software prototipo, destinado a la experimentación, permitiendo además comparar y observar en qué nivel está la propuesta. En el caso concreto de los resúmenes de texto, por ejemplo, lo que los investigadores pretenden es, mediante algoritmos, identificar los conceptos haciendo uso de diccionarios biomédicos (más completos que los usuales y donde se relacionan palabras entre sí) y establecer vínculos entre las frases, que acaban por ser representados en forma de grafo. "Lo que hacemos es aplicar algoritmos parecidos a los que usan buscadores como Google para ordenar sus páginas, sólo que nosotros los aplicamos en ordenar las frases del documento", señala Manuel Maña.
De esta forma, los algoritmos diseñados en este proyecto están encaminados a cumplir una función, la de resumir, pero en dos situaciones distintas. Por un lado, los investigadores buscan la obtención de un resumen a partir de un único texto, de forma que el software experimental analiza e intenta extraer las frases más significativas del documento, las cuales conformarían finalmente el resumen. Por el otro, dado un conjunto de documentos relacionados, ya sea porque traten de una misma enfermedad o de un tratamiento concreto, la línea de investigación ha ido encaminada hacia la obtención de un único resumen. Para ello, la estrategia seguida es diferente a la del primer ámbito, realizándose un único resumen con la información repetida en el conjunto de documentos, así como un resumen para cada documento en el que se recoja la información distinta que aporta cada uno.
Dificultades y avances tecnológicos
Dejando a un lado la dificultad que supone para los experimentos el trabajar con los ordenadores de sobre mesa actuales que, según Jacinto Mata, hace que el proceso resulte costoso, lento e, incluso, inabordable, el principal reto al que estos investigadores de la UEM y de la Onubense se han enfrentado ha sido el de trabajar con un lenguaje natural, no informático. "Cualquier idioma sirve para comunicarse entre dos humanos", afirma Manuel Maña, quien destaca: "Cuando quieres tratar un texto, escrito en lenguaje natural, de forma automática, las complicaciones son muchas", siendo necesario abordar cuestiones concretas para poder avanzar en la materia.
Dispositivo portatil con acceso a resúmenes automáticos de textos |
Y es que, además de la estructura propia de la lengua, que obliga a usar algoritmos distintos en función del idioma que se trate, uno de los principales quebraderos de cabeza a la hora de tratar automáticamente un texto es la ambigüedad que la lengua presenta en todos sus niveles. "Una base de datos se crea utilizando un lenguaje de programación y pensando que al final habrá un algoritmo que tratará esos datos. Sin embargo, algunas de nuestras técnicas toman un informe de alta que un médico escribe pensando que un colega lo va a leer", señala el investigador.
Pese a todo, los avances que se han realizado en el proyecto, según los investigadores, se han dado en todos los ámbitos de trabajo. En el caso del reconocimiento de entidades con nombre, por ejemplo, se ha conseguido con éxito su aplicación en la identificación de nombres de genes en los textos. También en materia de clasificación se ha avanzado considerablemente, lográndose identificar textos donde se habla de interacciones de proteínas, así como la identificación de si se trata o no de una enfermedad dentro de un conjunto de enfermedades a partir del análisis automático de los informes de alta de los pacientes.
De manera especial destacan los investigadores la aplicación en dispositivos móviles, donde también se han obtenidos logros pero que pasará a segundo plano en el proyecto que actualmente se encuentra en trámites de concesión. En relación a esto, Manuel Jesús Maña destaca que cada vez en más hospitales el médico cuenta con herramientas como PDAs para acceder a la información relativa al paciente. "El médico puede necesitar acceder a la información en un punto distintos al ordenador de su despacho como, por ejemplo, desde la cama del enfermo cuando está pasando consulta", afirma el investigador. Por ello, la idea propuesta en el proyecto pasa porque el médico no sólo acceda al historial del paciente, sino que, si lo necesita, pueda conocer fácil y rápidamente si se ha publicado un nuevo caso clínico sobre esa enfermedad desde la misma habitación del usuario.
Más información: Manuel Jesús Maña López, Dpto de Ingeniería Electrónica, de Sistemas Informáticos y Automática, Universidad de Huelva, Tlf: 959 217 389, Email: manuel.mana AT diesia.uhu.es.
Fuente: J. García Orta – andaluciainvestiga.com