Lineas de Investigación del Trabajo Fin de Máster

Adquisición de Conocimiento e Inferencia Textual

Descripción

Gran parte del conocimiento humano está expresado en textos, tanto de manera explícita como implícita. El volumen de textos accesibles por medios electrónicos en la actualidad era inimaginable hace tan solo una década. Este área trata de desarrollar máquinas capaces de procesar millones de textos con el fin de capturar conocimiento, representar este conocimiento de manera natural pero a la vez manipulable por la máquina y sobre el que se puedan realizar inferencias que ayuden a procesar nuevos textos.

Profesor/es

Anselmo Peñas

Asignaturas recomendadas

31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
3107003- INTRODUCCIÓN A LA INVESTIGACIÓN EN PROCESAMIENTO DEL LENGUAJE NATURAL
31070052 MINERÍA DE TEXTOS
31080027 FUNDAMENTOS DEL PROCESAMIENTO LINGÜÍSTICO
31101061 MINERÍA DE DATOS

Análisis Computacional de la Personalidad

Descripción

Esta línea de investigación se centra en el desarrollo y aplicación de tecnologías avanzadas en el área de Procesamiento del Lenguaje Natural e Inteligencia Artificial para el análisis computacional de la personalidad y del comportamiento humano. En psicología, la Teoría de Rasgos es uno de los marcos conceptuales más relevantes para estudiar la personalidad. Esta teoría se centra en la medición de patrones habituales de comportamiento, pensamiento y emoción. La teoría indica que estos patrones son aspectos de la personalidad relativamente estables en el tiempo, que difieren entre individuos y tienden a manifestarse de forma consistente en distintos contextos.
Actualmente, el uso masivo de las redes sociales y los entornos digitales ha generado grandes volúmenes de datos textuales que reflejan interacciones humanas, percepciones, sentimientos, emociones y patrones de comunicación. Esta situación con los avances del Procesamiento del Lenguaje Natural, Aprendizaje Automático y modelos de Deep Learning, brindan nuevas oportunidades para analizar, modelar y contrastar estas teorías psicológicas desde el ámbito computacional.
Esta línea busca explorar la relación entre el lenguaje y la personalidad mediante técnicas de análisis de texto desde un nivel semántico, cognitivo y emocional, cuyo objetivo es detectar patrones conductuales y rasgos psicológicos en discurso digital.
Algunas áreas temáticas que se incluyen en esta línea son las siguientes:

Análisis del comportamiento humano en redes sociales.
Perfilado automático de rasgos de personalidad.
Análisis de la Triada Oscura de la personalidad (narcisismo, maquiavelismo y psicopatía).
Detección de comportamiento antisocial en línea (discursos de odio, agresión verbal, trolling, cyberbullying, sexting y grooming).
Análisis de emociones y sentimientos en discurso digital.
Detección de patrones lingüísticos asociados a salud mental (depresión, ansiedad, tendencia suicida, estrés, impulsividad).

Profesores

Miguel Ángel Rodríguez García, Lídice Victoria Haz López.

Asignaturas recomendadas

31101061 Minería de datos
31070052 Minería de textos
31070023 Representación de textos en espacios vectoriales y probabilísticos
31070017 Redes Neuronales para el Procesamiento del Lenguaje Natural

Aplicación de Tecnologías del Lenguaje al proceso de Enseñanza y Aprendizaje

Descripción

El objetivo de esta línea de investigación es la aplicación de sistemas inteligentes dentro del contexto del Procesamiento del Lenguaje Natural en el ámbito de la innovación educativa: soporte a la autoría, recopilación y reutilización de contenidos generados por la UNED, así como su analítica; y gestión de actividades y de procesos de (auto) evaluación, entre otras. El alumno/a que se presente como candidato para realizar este proyecto debe reunir los siguientes requisitos: buen expediente académico, nivel alto de inglés y conocimientos avanzados de programación. Para esta línea de investigación buscamos ante todo estudiantes a quienes les guste la investigación.

Profesor/es

Víctor Fresno y Álvaro Rodrigo.

Asignaturas Recmendadas

31101076 Descubrimiento de Información en textos
31080027 Fundamentos del Procesamiento Lingüístico
31101061 Minería de Datos
31070017 Redes Neuronales para el Procesamiento del Lenguaje Natural

Aplicaciones de la IA como asistente en exámenes de comprensión lectora

Descripción

Esta línea se centra en explorar el potencial de los modelos de inteligencia artificial para apoyar tanto la creación como la evaluación automáticas de pruebas de comprensión lectora. En este ámbito, la IA puede emplearse para analizar textos y generar automáticamente preguntas que evalúen distintos niveles de comprensión —literal, inferencial y crítica—, adaptando la dificultad según el perfil del estudiantado o del nivel educativo. Esta automatización no solo optimiza el diseño de los exámenes, sino que también permite personalizar la experiencia evaluativa y reducir el sesgo humano en la elaboración de preguntas.

Asimismo, esta línea contempla el desarrollo de modelos predictivos que sean capaces de estimar el nivel de dificultad de un examen o de sus preguntas individuales mediante el análisis lingüístico y semántico de los textos y las respuestas esperadas. Esta predicción, combinada con la generación automática de contenidos, abriría la puerta a sistemas adaptativos de evaluación que ajusten dinámicamente el nivel de dificultad según el rendimiento del estudiante, mejorando la validez y eficiencia de las pruebas de comprensión lectora. Esta línea busca integrar la IA como un asistente inteligente en el proceso completo de diseño, validación y aplicación de exámenes de comprensión lectora.

Profesores

Alberto Pérez García-Plaza
Alvaro Rodrigo Yuste

Asignaturas recomendadas

31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
3107003- INTRODUCCIÓN A LA INVESTIGACIÓN EN PROCESAMIENTO DEL LENGUAJE NATURAL
31070052 MINERÍA DE TEXTOS
31080027 FUNDAMENTOS DEL PROCESAMIENTO LINGÜÍSTICO
31101061 MINERÍA DE DATOS
31101019 ACCESO INTELIGENTE A LA INFORMACIÓN

Búsqueda y Validación de Respuestas

Descripción

Los sistemas de búsqueda de respuestas facilitan a los usuarios el acceso a la información contenida en grandes colecciones documentales como por ejemplo la Web. Sin embargo, este área tiene asociados diversos desafíos. Los modernos sistemas generativos han logrado mejorar los resultados, pero todavía quedan abiertos varios desafíos, como la generación automática de colecciones de evaluación y de entrenamiento, justificaciones de las respuestas devueltas, aplicaciones precisas de técnicas basadas en Retrieval Augmented Generation (RAG), etc. Dentro de esta línea se propone abordar este tipo de problemas haciendo uso de los últimos avances en grandes modelos de lenguaje.

Profesor/es

Alvaro Rodrigo

Asignaturas recomendadas

31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
3107003- INTRODUCCIÓN A LA INVESTIGACIÓN EN PROCESAMIENTO DEL LENGUAJE NATURAL
31070052 MINERÍA DE TEXTOS
31080027 FUNDAMENTOS DEL PROCESAMIENTO LINGÜÍSTICO
31101061 MINERÍA DE DATOS
31101019 ACCESO INTELIGENTE A LA INFORMACIÓN

Composición semántica: de vectores de palabras a representaciones vectoriales de fragmentos de textos

Descripción

Estamos viviendo un momento efervescente para el área de investigación en Procesamiento del Lenguaje Natural. Específicamente, en el campo semántico encontramos nuevos enfoques estadísticos y modelos basados en redes neuronales profundas que han mejorado notablemente los sistemas de tratamiento de información textual.

La mayoría de estos avances se han planteado desde un enfoque supervisado. Como es bien sabido y discutido en estos últimos años, el principal inconveniente de estas aproximaciones es que no permiten "entender" e "interpretar" la salida del sistema. Por el contrario, el enfoque no supervisado consiste en explotar las redes neuronales y técnicas de pre-entrenamiento para representar palabras u otras unidades lingüísticas en forma de vectores (word embeddings). El segundo paso es definir modelos de composición del lenguaje para representar y operar con unidades lingüísticas más complejas como frases, documentos.

Así pues, el principal objetivo en esta línea de investigación es, partiendo de las representaciones vectoriales semánticas de palabras individuales, estudiar modelos de composición que nos permitan extraer el contenido semántico de un fragmento de texto mayor que una palabra.

Profesores

Enrique Amigó y Víctor Fresno

Asignaturas recomendadas

31101076 DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS
31101019 ACCESO INTELIGENTE A LA INFORMACIÓN
31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL

Desarrollo de un sistema de detección automática de sexismo en tiempo real a partir de fuentes multimedia online

Descripción

El presente Trabajo Fin de Máster tiene como objetivo diseñar y desarrollar un sistema automatizado capaz de recopilar información de diferentes medios online—tales como redes sociales, portales de noticias, blogs o foros— y clasificar en tiempo real si el contenido detectado es sexista o no.

El sistema integrará un módulo de recolección de información (crawler) y un módulo de clasificación basado en inteligencia artificial (IA), capaz de procesar contenido textual, visual y audiovisual. De esta forma, se busca avanzar hacia un observatorio automatizado del sexismo en la red, capaz de proporcionar indicadores dinámicos sobre la presencia y evolución de este fenómeno en diferentes idiomas, países y plataformas.

El proyecto combina elementos de procesamiento del lenguaje natural (PLN), visión por computador y aprendizaje automático.

Profesores

Laura Plaza Morales

Jorge Carrillo-de-Albornoz Cuadrado

Asignaturas recomendadas

31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
3107003- INTRODUCCIÓN A LA INVESTIGACIÓN EN PROCESAMIENTO DEL LENGUAJE NATURAL
31080027 FUNDAMENTOS DEL PROCESAMIENTO LINGÜÍSTICO
31101324 MINERÍA INFORMACIÓN SOCIAL

Detección automática de fakenews en redes sociales

Descripción

La línea del Trabajo Fin de Máster (TFM) se orientará a la detección de información falsa, como fake news, y tareas relacionadas como stance detection, hyperpartisan news detection, detección de trolls, etc. Para ello, este TFM se encuadra dentro del campo de las tecnologías del lenguaje, con un gran auge en la actualidad, por lo que es necesario cursar asignaturas relacionadas con el procesamiento del lenguaje. Se explorarán diversos enfoques como el uso de texto y el modelado de perfiles de usuarios que respondan a la publicación de información falsa. Se requiere el conocimiento de técnicas de aprendizaje automático, valorándose sobre todo las técnicas de aprendizaje profundo (Deep Learning)

Profesor/es

Roberto Centeno y Álvaro Rodrigo.

Asignaturas recomendadas

31101061 Minería de datos
31101076 Descubrimiento de información en textos

Detección temprana de señales de problemas de salud mental

Descripción

Esta línea de investigación se centra en el desarrollo de técnicas de Procesamiento del Lenguaje Natural aplicado al dominio biomédico para la detección temprana de problemas de salud mental mediante el procesamiento de dato no estructurado de diversas fuentes.
Los trastornos de salud mental constituyen uno de los principales desafíos sanitarios y sociales del siglo XXI. Diversos estudios han puesto de manifiesto que la detección temprana de señales de alerta puede mejorar significativamente el pronóstico de estas patologías, facilitando intervenciones preventivas y tratamientos más eficaces.
El creciente volumen de información digital generado por los individuos ofrece nuevas oportunidades para el desarrollo de sistemas de detección temprana basados en inteligencia artificial. Dependiendo del enfoque adoptado, el trabajo podrá centrarse en diferentes fuentes de información, metodologías de análisis o patologías específicas, evaluando la capacidad de los modelos para identificar indicadores tempranos que puedan contribuir a la prevención, monitorización y apoyo a la toma de decisiones clínicas.
Además, el trabajo también se centra en abordar cuestiones fundamentales relacionadas con la explicabilidad de los modelos, la protección de la privacidad de los usuarios y las implicaciones éticas derivadas del uso de inteligencia artificial en el ámbito de la salud mental.

Profesores

Miguel Ángel Rodríguez García, Soto Montalvo Herranz.

Asignaturas recomendadas

31101061 Minería de datos
31070052 Minería de textos
31070023 Representación de textos en espacios vectoriales y probabilísticos
31070017 Redes Neuronales para el Procesamiento del Lenguaje Natural

Enriquecimiento automático de recursos multimedia

Descripción

El objetivo de los trabajos enmarcados en este área se orienta a la aplicación de técnicas que permitan encontrar y extraer información de recursos externos, tales como páginas web o repositorios semánticos, con el fin último de enriquecer recursos multimedia con contenidos adicionales. Desde esta perspectiva, el alumno deberá considerar, entre otras, el uso de estrategias y técnicas de IR para recuperar información relevante relacionada con el recurso que se desea enriquecer, técnicas de extracción de información y minería de texto que permitan procesar el conjunto de documentos recuperado, así como técnicas de clustering o agrupación que faciliten el descubrimiento de relaciones implícitas entre éstos. Finalmente, el alumno deberá evaluar científicamente su propuesta considerando aquellas medidas de evaluación más adecuadas al problema resuelto.

Profesor/es

Juan Manuel Cigarrán Recuero

Asignaturas recomendadas

31101019 ACCESO INTELIGENTE A LA INFORMACIÓN
31101023 MINERÍA DE LA WEB
31101042 MOTORES DE BÚSQUEDA WEB
31101061 MINERÍA DE DATOS
31101076 DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS
31101292 MODELOS COMPUTACIONALES DEL DISCURSO: SEMÁNTICA Y PRÁGMÁTICA

Evaluación de sistemas de generación de información estructurada

Descripción

Tradicionalmente se ha distinguido en el campo del procesamiento de lenguaje entre sistemas discriminativos y sistemas generativos. Los primeros incluyen sistemas que generan información estructurada como clasificación en categorías, ranking, plantillas, etc. El segundo se refiere a sistemas que generan texto. Sin embargo, con el auge de los modelos de lenguaje neuronales pre-entrenados a gran escala, se abre la posibilidad de sistemas que generen conocimiento estructurado más allá de un pequeño conjunto de categorías o una ordenación en un ranking. Por ejemplo, mediante servicios como ChatGPT, es posible pedir a un modelo que genere una estructura en SQL, o un conjunto de cláusulas lógicas dentro de un dominio restringido. Se encuentra en plena discusión en la comunidad científica la pregunta de hasta qué punto los modelos de lenguaje pre-entrenados a gran escala son capaces de generalizar, interpretar o realizar inferencias sobre este tipo de estructuras. El propósito de esta línea de investigación es estudiar todas la posibles dimensiones del problema y definir métricas de evaluación que sirvan de guía para el desarrollo de este tipo de sistemas.

Profesor/es

Enrique Amigó

Asignaturas recomendadas

31101076 DESCUBRIMIENTO DE INFORMACIÓN EN TEXTO
31101019 ACCESO INTELIGENTE A LA INFORMACIÓN
31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL

Evaluación del impacto del uso de información sensorial en sistemas de IA para la detección de sexismo en redes sociales

Descripción

El objetivo de este Trabajo Fin de Máster es analizar si la incorporación de información sensorial de los anotadores (como señales humanas como frecuencia cardiaca, sudoración, etc.) mejora la detección automática de sexismo en textos o contenidos provenientes de redes sociales y entornos digitales.

Para ello, el estudiante desarrollará un sistema de detección automática de sexismo basado en técnicas de aprendizaje profundo y comparará su rendimiento bajo diferentes configuraciones:

sin información sensorial,
con datos sensoriales integrados,
y con distintas combinaciones de representaciones multimodales o contextuales.

El trabajo se enmarca dentro de las líneas actuales de investigación en Inteligencia Artificial explicativa (XAI)y ética en IA, y pretende contribuir a un mejor entendimiento de cómo los datos que reflejan aspectos humanos o fisiológicos pueden influir en la capacidad de los modelos para reconocer sesgos y comportamientos discriminatorios.

Además, el trabajo tiene como objetivo participar en la serie de competiciones EXIST 2026, aplicando los resultados del análisis al desarrollo de un sistema competitivo y en la redacción de un artículo científico que presente los hallazgos obtenidos.

Profesores

Laura Plaza Morales

Jorge Carrillo-de-Albornoz Cuadrado

Asignaturas recomendadas

31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
3107003- INTRODUCCIÓN A LA INVESTIGACIÓN EN PROCESAMIENTO DEL LENGUAJE NATURAL
31080027 FUNDAMENTOS DEL PROCESAMIENTO LINGÜÍSTICO
31101324 MINERÍA INFORMACIÓN SOCIAL

Generación de datos sintéticos en el dominio biomédico

Descripción

Esta línea de investigación se centra en el desarrollo de técnicas de Procesamiento del Lenguaje Natural aplicado al dominio biomédico para la generación de datos sintéticos y su aplicación a alguna tarea de detección temprana de enfermedades o de señales de alerta.
La naturaleza sensible de la información sanitaria implica importantes restricciones éticas, legales y de privacidad, derivadas de normativas como el Reglamento General de Protección de Datos (RGPD). Además, muchos de los conjuntos de datos clínicos disponibles presentan problemas de escasez de muestras, presencia de eventos poco frecuentes, desequilibrio entre clases y limitada representatividad de determinados grupos poblacionales. Estos problemas en la distribución de los datos dificultan el entrenamiento, validación y despliegue de modelos predictivos.
Así, el objetivo de este TFM se centra en diseñar y desarrollar tecnologías que, basadas en técnicas punteras de Procesamiento del Lenguaje Natural, sean capaces de generar datos sintéticos, que se utilizarán de forma aislada o junto a datos reales para llevar a cabo una tarea concreta del dominio biomédico de la que ya se tienen datos anotados.

Profesores

Miguel Ángel Rodríguez García, Soto Montalvo Herranz.

Asignaturas recomendadas

31101061 Minería de datos
31070052 Minería de textos
31070023 Representación de textos en espacios vectoriales y probabilísticos
31070017 Redes Neuronales para el Procesamiento del Lenguaje Natural

Humanidades Digitales y Modelos de Lenguaje

Descripción

Las Humanidades digitales (HD) son un área de investigación en la que la multidisciplinariedad es tanto una ventaja como una desventaja. ¿Qué esperan los historiadores, los filósofos, los lingüistas de las herramientas informáticas? ¿Se conoce qué tipos de problemas de las HD pueden abordarse con éxito con las tecnologías del lenguaje en la web? ¿Qué aportan los modelos del lenguaje, la web semántica y los datos enlazados en abierto (LOD) a las HD?

Algunas de estas preguntas permitirán abordar y planificar un problema de investigación interesante para la realización del TFM (18 ECTS, 450h). Un buen análisis del estado del arte y la identificación de su tipología serán los contenidos de la primera etapa del trabajo (una tercera parte). Problemas abiertos y experimentaciones de interés son: uso de modelos del lenguaje para diferentes tareas como transcripción, anotación semántica automática o acceso a textos históricos, así como la evaluación de los resultados en términos de eficiencia y sostenibilidad. Además se trabajarán aspectos relacionados con la integración de recursos existentes de las HD en el LOD u otros temas de investigación relacionados que se acordarían por el estudiante y la profesora.

Profesor/es

Ana García Serrano

Asignaturas recomendadas

31101019 Acceso inteligente a la información
31101023 Minería de la web
31101042 Motores de búsqueda web
31101061 Minería de datos
31101076 Descubrimiento de información en textos
31101292 Modelos computacionales del discurso: semántica y pragmática

Influencia de las características demográficas de los anotadores en los sistemas de IA para la detección de sexismo en redes sociales

Descripción

El objetivo de este Trabajo Fin de Máster es analizar cómo las características demográficas de los anotadores (como edad, género, país, nivel educativo o bagaje cultural) influyen en el rendimiento y comportamiento de los sistemas de IA destinados a la detección de sexismo en redes sociales y entornos digitales.

Los sistemas de detección automática de sesgos o discursos discriminatorios suelen entrenarse con datos anotados por humanos. Sin embargo, las percepciones sobre qué se considera sexista pueden variar significativamente entre distintos grupos demográficos. Este trabajo busca evaluar empíricamente el impacto de esa diversidad de anotadores y explorar si incorporar dicha información en el entrenamiento de los modelos puede conducir a sistemas más justos, explicativos y alineados con las percepciones humanas reales.

Además, el trabajo tiene como objetivo participar en la serie de competiciones EXIST 2026, aplicando los resultados del análisis al desarrollo de un sistema competitivo y en la redacción de un artículo científicoque presente los hallazgos obtenidos.

Profesores

Laura Plaza Morales

Jorge Carrillo-de-Albornoz Cuadrado

Asignaturas recomendadas

31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
3107003- INTRODUCCIÓN A LA INVESTIGACIÓN EN PROCESAMIENTO DEL LENGUAJE NATURAL
31080027 FUNDAMENTOS DEL PROCESAMIENTO LINGÜÍSTICO
31101324 MINERÍA INFORMACIÓN SOCIAL

Metodologías para la orquestación de agentes en desarrollos formales

Descripción

Los agentes basados en grandes modelos de lenguaje (LLMs) muestran un gran potencial para realizar desarrollos formales, tanto código como demostraciones matemáticas. Sin embargo, en la actualidad existen dos limitaciones importantes para poder extender su uso: su respuesta no es completamente fiable, por una parte, y por otra, requieren ingentes recursos de cómputo. Esta línea de investigación intenta abordar de qué manera organizar los agentes en comunidades para que su resultado sea más robusto y fiable, tratando de reducir al máximo el número de interacciones con el usuario y el número de tokens generados. Idealmente, se buscaran casos de uso en el propio desarrollo de modelos más eficientes.

Profesores

Anselmo Peñas

Asignaturas recomendadas

APLICACIONES EN TECNOLOGÍAS DEL LENGUAJE (31070069)
FUNDAMENTOS DEL PROCESAMIENTO LINGÜÍSTICO (31080027)
INTRODUCCIÓN A LA INVESTIGACIÓN EN PROCESAMIENTO DEL LENGUAJE NATURAL (3107003-)
MINERÍA DE DATOS (31101061)
MINERÍA DE TEXTOS (31070052)
MINERÍA INFORMACIÓN SOCIAL (31101324)
REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL (31070017)
REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS (31070023)

Métricas de evaluación de texto libre

Descripción

En muchas de las tareas de procesamiento de lenguaje la salida del sistema se presenta en formato texto. En las décadas anteriores las tareas más comunes de este tipo fueron la traducción y la generación de resúmenes. Sin embargo, en los últimos años, con el desarrollo de modelos de lenguaje pre-entrenados a gran escala (GTP, Bert, etc.), se han multiplicado las tareas en las que el sistema ofrece una solución en formato de texto libre (asistentes virtuales, generadores de código de programación, consultas de conocimiento general, etc.) Básicamente, estos sistemas se pueden evaluar, bien mediante métricas basadas en solapamiento de palabras con un texto de referencia (ROUGE, BLEU, METEOR) o bien entrenando a su vez un sistema para predecir la similitud entre el texto generado y un texto correcto. Ambas soluciones tienen ventajas y desventajas. Esta línea de investigación se centra en desarrollar mecanismos de combinación de métricas para asegurar una evaluación más robusta.

Profesor/es

Enrique Amigó

Asignaturas recomendadas

31101076 DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS
31101019 ACCESO INTELIGENTE A LA INFORMACIÓN
31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL

Procesamiento del Lenguaje Natural para la extracción y análisis de conocimiento clínico y biomédico

Descripción

Esta línea de investigación se centra en el desarrollo de técnicas avanzadas de procesamiento del lenguaje natural para la extracción automática de conocimiento clínico a partir de textos biomédicos y fuentes no estructuradas. El énfasis recae en dominios de alta complejidad y relevancia social, como la salud mental o la comorbilidad entre condiciones físicas y psicológicas, donde los datos suelen ser escasos, dispersos o altamente especializados. Se abordan tanto metodologías de clasificación extrema y codificación automática de informes clínicos (p. ej. CIE-10, CIAP-2), como técnicas de detección temprana de riesgos para la salud mental en redes sociales, análisis de trayectorias clínicas y extracción de relaciones entre patologías. Se abordan los retos derivados de la escasez y fragmentación de datos mediante el desarrollo de modelos generativos capaces de crear datos sintéticos clínicamente plausibles, preservando la privacidad y mejorando el entrenamiento de sistemas de PLN. Esta línea también incorpora enfoques explicables y centrados en la interpretación clínica de los modelos para facilitar su integración en sistemas reales de apoyo a la decisión médica, así como el desarrollo y aplicación de técnicas de aprendizaje profundo y grandes modelos de lenguaje (LLMs) al dominio.

Algunas de las temáticas propuestas son las siguientes:

Codificación automática y explicable de informes clínicos.
Análisis de comorbilidad entre enfermedades de alto impacto y salud mental.
Detección de riesgos psicológicos y sociales en redes sociales mediante PLN.
Generación de explicaciones clínicas y extracción de evidencias textuales asociadas a predicciones.
Generación de texto clínico sintético para el entrenamiento de modelos en dominios de datos escasos.

Profesores

Andrés Duque, Lourdes Araujo y Juan Martínez Romo

Asignaturas recomendadas

31101061 Minería de datos
31070052 Minería de textos
31101305 Técnicas basadas en grafos aplicados al procesamiento del lenguaje natural
31070023 Representación de textos en espacios vectoriales y probabilísticos
31070017 Redes Neuronales para el Procesamiento del Lenguaje Natural

¿Quién lo escribió? Perfilado lingüístico automatizado en redes sociales

Descripción

La proliferación de las redes sociales ha llevado a muchos usuarios a mantener una presencia activa en múltiples plataformas (X/Twitter, Instagram, TikTok, Reddit, foros, etc.) para ampliar el alcance de sus publicaciones. Esto hace que una misma persona pueda gestionar distintos perfiles, incluso dentro de una misma red social, ya sea por motivos personales, profesionales o de anonimato.
La capacidad de relacionar perfiles aparentemente independientes resulta de gran interés en múltiples ámbitos: desde el análisis del impacto real de la comunicación de una organización o colectivo, hasta la detección de campañas coordinadas, cuentas falsas o perfiles que difunden información sesgada, manipuladora o dañina.
Se trata de una línea flexible en la que la persona que desarrolle el TFM puede proponer variantes o enfoques alternativos dentro del marco general del perfilado lingüístico y de la atribución de autoría, adaptándolos a sus intereses (tipo de red social, idioma, tipo de texto, técnicas de PLN, objetivos forenses o analíticos, etc.).
Esta línea se centra en proponer, implementar y evaluar métodos basados en Tecnologías del Lenguaje para modelar el estilo de escritura de los usuarios y extraer una huella lingüística que permita:

agrupar mensajes de distintas redes sociales que puedan haber sido escritos por una misma persona,
y, dado un nuevo mensaje, estimar qué usuario conocido es el autor más probable, generando un ranking de candidatos.

Durante el desarrollo del TFM se podrán explorar diferentes enfoques, como técnicas de estilometría, análisis de rasgos lingüísticos, modelos estadísticos y métodos modernos basados en representaciones semánticas y en modelos de lenguaje (embeddings, transformers, etc.), así como estrategias para combinar varias fuentes de evidencia.

La línea también está abierta a enfoques multimodales donde los rasgos lingüísticos podrían complementarse con otros extraídos de otro tipo de medios, como imágenes o vídeos, e incluso con el análisis del comportamiento de los usuarios (por ejemplo, la manera en la que publican).

Metodología:

Estudio del estado del arte.
Análisis y procesamiento de las colecciones.
Desarrollo y evaluación de distintos métodos
Análisis y conclusiones.

Resumen de los objetivos:

Aplicación de diversas técnicas de representación de textos para analizar la autoría de mensajes en redes sociales
Análisis de resultados sobre datos reales

Tecnologías potencialmente utilizables:

Procesamiento de texto: librerías nltk, spacy, etc.
Aprendizaje automático: sklearn, huggingface
Lenguaje de programación: Python.

Profesores

Alberto Pérez García-Plaza
Alvaro Rodrigo Yuste

Asignaturas recomendadas

Minería De Textos
Fundamentos del Procesamiento Lingüístico
Minería de Datos
Redes Neuronales para el Procesamiento del Lenguaje Natural

Descripción

Hoy en día, las mayores y más influyentes empresas del mundo son básicamente recomendados de contenidos (buscadores, comercio on-line, etc.) Esto ha traído como consecuencia efectos negativos a nivel social. Por un lado, la accesibilidad de los productos está sesgada hacia ciertos grupos. Por ejemplo, grandes marcas tienen más visibilidad que el gran número de pequeñas marcas en sistemas de recomendación de productos, o por ejemplo, artistas más populares tienen un exceso de visibilidad. Otro efecto es la polarización de opiniones derivada de la recomendación de contenidos de texto sesgados hacia las preferencias del usuario. Aunque a nivel institucional se están desarrollando leyes para controlar estos aspectos, resulta un reto. Uno de los principales motivos es que no existe un consenso en la comunidad en cuanto a cómo medir la justicia o la ausencia de sesgos en la recomendación de contenidos o productos. Existe incluso contradicción entre diferentes métricas. Esta línea de investigación cubre los siguientes dos objetivos (puede abordarse cada uno de ellos por separado). El primero es la generalización de métricas desde teoría de la información, entendiendo el problema en términos de semejanza e independencia entre distribuciones probabilísticas generadas por el sistema y distribuciones ideales sin sesgos. El segundo objetivo es más ambicioso. Se trata de estudiar la entropía (grado de desorden) como un indicador general de justicia o ausencia de sesgos independiente de los grupos de individuos, productos o los criterios de igualdad establecidos.

Profesor/es

Enrique Amigó

Asignaturas recomendadas

31101324 Minería información Social
31101076 Descubrimiento de información en textos
31101061 Minería de datos
31101305 Técnicas basadas en grafos aplicados al procesamiento del lenguaje
31101023 Minería de la web
31101019 Acceso inteligente a la información
3110131 Semántica y pragmática en la web

Sistemas de representación semántico-distribucional

Descripción

Recientemente, los modelos de lenguaje neuronales pre-entrenados a gran escala han supuesto un salto cualitativo muy importante en el desarrollo de sistemas en tecnologías de la lengua. Existe muchísima literatura en donde se estudian estos modelos desde su potencia de predicción en diferentes tareas como clasificación de textos, generación de resúmenes o respuestas, traducción automática, etc.
El inconveniente de la mayoría de los modelos estudiados es que funcionan como una caja negra, es decir, entre otras cosas, no permiten manipular u operar sobre fragmentos de información para la optimización o depuración de soluciones. Sin embargo, estos sistemas son además una potente herramienta de representación semántico-distribucional, en donde los textos se traducen a un espacio multi-dimensional donde se puede medir, comparar o agregar piezas de información. Disponer de estos mecanismos de representación y operadores mitiga el problema de la caja negra de los sistemas basados en modelos de lenguaje neuronales. Esta línea de investigación se centra en el desarrollo y evaluación de funciones que midan la cantidad de información, su similitud semántica, o que permitan combinar representación en base a generalización o especificación semántica.

Profesor/es

Enrique Amigó y Víctor Fresno

Asignaturas recomendadas

31101076 DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS
31101019 ACCESO INTELIGENTE A LA INFORMACIÓN
31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL

Sistemas multiagente basados en LLM

Descripción

Una posible línea de investigación para el TFM podría centrarse en el uso de sistemas multiagente basados en LLM para simular procesos de detección, evaluación y propagación de desinformación, especialmente en aquellos casos donde la clasificación depende de juicios subjetivos y no existe un ground truth claro. El trabajo podría explorar cómo agentes con distintos roles —por ejemplo, verificadores con distintos criterios, agentes con sesgos ideológicos controlados o perfiles de usuarios con diferentes niveles de alfabetización mediática— interactúan para evaluar la verosimilitud, sesgo o potencial dañino de un contenido textual. Entre las tareas de PLN que encajan en este enfoque destacan la detección de afirmaciones engañosas difícilmente verificables, la evaluación del grado de manipulación narrativa, o la identificación de narrativas potencialmente manipuladoras, la clasificación del grado de veracidad o sesgo de un texto, o la evaluación de la confiabilidad de fuentes. La investigación podría analizar qué dinámicas de debate o consenso entre agentes producen evaluaciones más estables y cómo definir métricas basadas en consenso, coherencia argumentativa o diversidad deliberativa para valorar la calidad de estas simulaciones en contextos sin respuestas objetivamente correctas.

Profesores

Roberto Centeno

Asignaturas recomendadas

31070017 Redes Neuronales para el Procesamiento del Lenguaje Natural
31080027 Fundamentos del Procesamiento Lingüístico
31101061 Minería de datos
31101076 Descubrimiento de información en texto
3107003- Introducción a la investigación en procesamiento del lenguaje natural

Visualización para el Procesamiento del Lenguaje Natural (Vis4NLP)

Descripción

La popularización de modelos del lenguaje basados en técnicas de aprendizaje profundo ha supuesto una verdadera revolución en la manera en la que los usuarios de aplicaciones informáticas acceden y procesan información. En la actualidad, uno de los principales retos que entraña el uso masivo de esta tecnología es la falta de transparencia y responsabilidad por parte de dichos modelos. Debido a su inherente complejidad, estos modelos son habitualmente tratados como 'cajas negras' opacas de las cuales poco o nada se sabe a la hora de comprender el proceso de toma de decisiones que lleva a obtener una salida en particular, así como posibles sesgos, introducidos en tiempo de entrenamiento, a los que dicho proceso puede estar sujeto.

Por tanto, es necesario desarrollar metodologías capaces de desentrañar las complejidades de los modelos de PLN, haciéndolos más transparentes y comprensibles tanto para los investigadores en la materia como para el público usuario en general. En esta línea, la visualización interactiva de la información se ha postulado recientemente como un valioso recurso para promocionar dicha apertura.

Bajo este prisma, no se trata sólo de presentar los datos de salida en un formato visualmente atractivo, sino de construir interfaces intuitivas que permitan a los usuarios, independientemente de su experiencia técnica, obtener información sobre cómo los modelos procesan el lenguaje, hacen predicciones y llegan a conclusiones. Por ejemplo, estas herramientas visuales, aplicadas a modelos como BERT, GPT y arquitecturas Transformer, han demostrado su utilidad ilustrando conceptos y procesos clave como son los mecanismos de atención, las funciones de activación de capas o la ingeniería de prompts, entre otros.

Otro aspecto significativo de esta línea de investigación involucra la aplicación de técnicas de visualización al campo del aprendizaje activo ("active learning") y los modelos de aprendizaje automático interactivos. Esto implica crear interfaces visuales que puedan ayudar en el entrenamiento y ajuste de modelos de PLN, permitiendo a los usuarios proporcionar retroalimentación interactiva, realizar ajustes y observar los impactos de estos cambios en tiempo real. Tal enfoque no sólo democratiza el uso del NLP al hacerlo más accesible para los no expertos, sino que también mejora la eficiencia y precisión de los modelos al incorporar el aprendizaje guiado por el usuario de manera efectiva, con importantes ventajas en el ahorro de recursos destinados al entrenamiento de estos modelos.

Finalmente, se incluyen en esta línea trabajos relacionados con la construcción de interfaces visuales orientadas al análisis de corpus textuales (analítica visual de textos) en un dominio de aplicación concreto (por ejemplo, financiero, humanístico, o jurídico) empleando modelos state-of-the-art o fine-tuned.

Profesor/es

Víctor Fresno y Alejandro Benito-Santos.

Asignaturas recomendadas

Especialidad: tecnologías del lenguaje en la web

31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
31080027 FUNDAMENTOS DEL PROCESAMIENTO LINGÜÍSTICO

Lineas de Investigación del Trabajo Fin de Máster

Lenguajes y Sistemas Informáticos

Líneas de Investigación

Descripción

Profesor/es

Asignaturas recomendadas

Descripción

Profesores

Asignaturas recomendadas

Descripción

Profesor/es

Asignaturas Recmendadas

Descripción

Asignaturas recomendadas

Descripción

Profesor/es

Asignaturas recomendadas

Descripción

Profesores

Asignaturas recomendadas

Descripción

Profesores

Asignaturas recomendadas

Descripción

Profesor/es

Asignaturas recomendadas

Descripción

Profesores

Asignaturas recomendadas

Descripción

Profesor/es

Asignaturas recomendadas

Descripción

Profesor/es

Asignaturas recomendadas

Descripción

Profesores

Asignaturas recomendadas

Descripción

Profesores

Asignaturas recomendadas

Descripción

Profesor/es

Asignaturas recomendadas

Descripción

Profesores

Asignaturas recomendadas

Descripción

Profesores

Asignaturas recomendadas

Descripción

Profesor/es

Asignaturas recomendadas

Descripción

Profesores

Asignaturas recomendadas

Descripción

Profesores

Asignaturas recomendadas

Descripción

Profesor/es

Asignaturas recomendadas

Descripción

Profesor/es

Asignaturas recomendadas

Descripción

Profesores

Asignaturas recomendadas

Descripción

Profesor/es

Asignaturas recomendadas