Lenguajes y Sistemas Informáticos
Líneas de Investigación del Trabajo Fin de Máster Universitario en Tecnologías del Lenguaje
La finalización con éxito de los estudios de máster conlleva desarrollar y completar un trabajo extenso o trabajo fin de Máster. Este es un trabajo que se debe tener presente desde el comienzo de los estudios. Es un trabajo que debe progresar con cada asignatura que se esté cursando, y no esperar a tener cursadas las asignaturas para buscar una temática y comenzar el trabajo. Todas las asignaturas tienen trabajos que, bien orientados, pueden hacer avanzar el trabajo fin de Máster. La idea es que desde el principio se tenga a una serie de profesores y algunas línea de trabajo como referentes para enfocar sus trabajos en cada asignatura de cara al trabajo fin de Máster. En los siguientes enlaces encontraréis las áreas generales en las que se dirigen trabajos fin de Máster, qué profesores las proponen, y qué conjunto de asignaturas son preferentes para esa línea de trabajo
Líneas de Investigación
Descripción
Gran parte del conocimiento humano está expresado en textos, tanto de manera explícita como implícita. El volumen de textos accesibles por medios electrónicos en la actualidad era inimaginable hace tan solo una década. Este área trata de desarrollar máquinas capaces de procesar millones de textos con el fin de capturar conocimiento, representar este conocimiento de manera natural pero a la vez manipulable por la máquina y sobre el que se puedan realizar inferencias que ayuden a procesar nuevos textos.
Profesor/es
Asignaturas recomendadas
- 31101019 Acceso inteligente a la información
- 31101023 Minería de la web
- 31101061 Minería de datos
- 31101076 Descubrimiento de información en textos
- 31101292 Modelos computacionales del discurso: semántica y prágmática
- 31101199 Métodos Probabilistas
- 31101305 Técnicas Basadas en Grafos Aplicados al Procesamiento del Lenguaje
Descripción
El objetivo de esta línea de investigación es la aplicación de sistemas inteligentes dentro del contexto del Procesamiento del Lenguaje Natural en el ámbito de la innovación educativa: soporte a la autoría, recopilación y reutilización de contenidos generados por la UNED, así como su analítica; y gestión de actividades y de procesos de (auto) evaluación, entre otras. El alumno/a que se presente como candidato para realizar este proyecto debe reunir los siguientes requisitos: buen expediente académico, nivel alto de inglés y conocimientos avanzados de programación. Para esta línea de investigación buscamos ante todo estudiantes a quienes les guste la investigación.
Profesor/es
Víctor Fresno y Álvaro Rodrigo.
Asignaturas Recmendadas
31101076 Descubrimiento de Información en textos
31080027 Fundamentos del Procesamiento Lingüístico
31101061 Minería de Datos
31070017 Redes Neuronales para el Procesamiento del Lenguaje Natural
Descripción
El objetivo de esta línea de trabajo es la aplicación de técnicas de procesamiento del lenguaje natural y de minería de textos en el dominio biológico y médico. Los textos de estos dominios poseen ciertas características que precisan de un tratamiento es: frecuencia de términos ambigüos, polisémicos y altamente especializado. En este contexto, ofrecemos realizar trabajos de fin de máster y tesis doctorales en temas como:
- Identificación de enfermedades y síntomas en foros.
- Monitorización de efectos adversos a fármacos en redes sociales.
- Identificación de relaciones entre genes en artículos científicos.
- Clasificación de artículos biomédicos.
- Identificación de alertas sanitarias en Twitter.
Profesor/es
Laura Plaza
Asignaturas recomendadas
- 31101019 Acceso inteligente a la información
- 31101023 Minería de la web
- 31101042 Motores de búsqueda web
- 31101061 Minería de datos
- 31101076 Descubrimiento de información en textos
Descripción
Los sistemas de búsqueda de respuestas facilitan a los usuarios el acceso a la información contenida en grandes colecciones documentales como por ejemplo la Web. Sin embargo, este área tiene asociados diversos desafíos. Es por ello que se ha trabajado en distintas líneas para tratar de mejorar el rendimiento global. Algunas áreas de interés son el correcto aprovechamiento de la información semántica. así como la mejora de resultados usando arquitecturas basadas en la generación y validación de respuestas, de la que Watson de IBM es un claro ejemplo.
Profesor/es
Alvaro Rodrigo
Asignaturas recomendadas
- 31101019 Acceso inteligente a la información
- 31101023 Minería de la web
- 31101061 Minería de datos
- 31101076 Descubrimiento de información en textos
- 31101292 Modelos computacionales del discurso: semántica y prágmática
- 31101199 Métodos Probabilistas
- 31101305 Técnicas Basadas en Grafos Aplicados al Procesamiento del Lenguaje
Descripción
Estamos viviendo un momento efervescente para el área de investigación en Procesamiento del Lenguaje Natural. Específicamente, en el campo semántico encontramos nuevos enfoques estadísticos y modelos basados en redes neuronales profundas que han mejorado notablemente los sistemas de tratamiento de información textual.
La mayoría de estos avances se han planteado desde un enfoque supervisado. Como es bien sabido y discutido en estos últimos años, el principal inconveniente de estas aproximaciones es que no permiten "entender" e "interpretar" la salida del sistema. Por el contrario, el enfoque no supervisado consiste en explotar las redes neuronales y técnicas de pre-entrenamiento para representar palabras u otras unidades lingüísticas en forma de vectores (word embeddings). El segundo paso es definir modelos de composición del lenguaje para representar y operar con unidades lingüísticas más complejas como frases, documentos.
Así pues, el principal objetivo en esta línea de investigación es, partiendo de las representaciones vectoriales semánticas de palabras individuales, estudiar modelos de composición que nos permitan extraer el contenido semántico de un fragmento de texto mayor que una palabra.
Profesores
Asignaturas recomendadas
- 31101076 DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS
- 31101019 ACCESO INTELIGENTE A LA INFORMACIÓN
- 31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
- 31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
Descripción
La línea del Trabajo Fin de Máster (TFM) se orientará a la detección de información falsa, como fake news, y tareas relacionadas como stance detection, hyperpartisan news detection, detección de trolls, etc. Para ello, este TFM se encuadra dentro del campo de las tecnologías del lenguaje, con un gran auge en la actualidad, por lo que es necesario cursar asignaturas relacionadas con el procesamiento del lenguaje. Se explorarán diversos enfoques como el uso de texto y el modelado de perfiles de usuarios que respondan a la publicación de información falsa. Se requiere el conocimiento de técnicas de aprendizaje automático, valorándose sobre todo las técnicas de aprendizaje profundo (Deep Learning)
Profesor/es
Roberto Centeno y Álvaro Rodrigo.
Asignaturas recomendadas
- 31101061 Minería de datos
- 31101076 Descubrimiento de información en textos
Descripción
La proliferación de las redes sociales ha llevado a sus usuarios a querer estar presentes en diferentes plataformas para incrementar la difusión de sus publicaciones. Esto nos lleva a que una misma persona termine utilizando diferentes perfiles, a veces incluso dentro de una misma red social.
Identificar los diferentes perfiles que puede estar utilizando un usuario es relevante para diferentes tareas, desde la medición del impacto de las contribuciones o publicaciones de un grupo u organización, hasta la identificación de perfiles que puedan estar generando cierto tipo de información sesgada o dañina.
El principal objetivo de este trabajo es proponer y evaluar distintos métodos para modelar el estilo de escritura de los usuarios, que permitan agrupar mensajes publicados en distintas redes sociales que hayan sido creados por un mismo usuario. También se estudiará su aplicabilidad para, dado un nuevo mensaje, ofrecer un ranking de los usuarios conocidos más probables que hayan podido escribir dicho mensaje.
Se podrán explorar diversas aproximaciones, no necesariamente todas, como las basadas en representaciones semánticas, análisis estilométrico, etc.
Metodología:
Estudio del estado del arte.
Análisis y procesamiento de las colecciones.
Desarrollo y evaluación de distintos métodos
Análisis y conclusiones.
Resumen de los objetivos:
Aplicación de diversas técnicas de representación de textos para analizar la autoría de mensajes en redes sociales
Análisis de resultados sobre datos reales
Tecnologías potencialmente utilizables:
Procesamiento de texto: librerías nltk, spacy, etc.
Aprendizaje automático: sklearn, huggingface
Lenguaje de programación: Python.
Profesores
Alberto Pérez García-Plaza
Alvaro Rodrigo Yuste
Asignaturas recomendadas
- Minería De Textos
- Fundamentos del Procesamiento Lingüístico
- Minería de Datos
- Redes Neuronales para el Procesamiento del Lenguaje Natural
Descripción
El objetivo de los trabajos enmarcados en este área se orienta a la aplicación de técnicas que permitan encontrar y extraer información de recursos externos, tales como páginas web o repositorios semánticos, con el fin último de enriquecer recursos multimedia con contenidos adicionales. Desde esta perspectiva, el alumno deberá considerar, entre otras, el uso de estrategias y técnicas de IR para recuperar información relevante relacionada con el recurso que se desea enriquecer, técnicas de extracción de información y minería de texto que permitan procesar el conjunto de documentos recuperado, así como técnicas de clustering o agrupación que faciliten el descubrimiento de relaciones implícitas entre éstos. Finalmente, el alumno deberá evaluar científicamente su propuesta considerando aquellas medidas de evaluación más adecuadas al problema resuelto.
Profesor/es
Juan Manuel Cigarrán Recuero
Asignaturas recomendadas
- 31101019 ACCESO INTELIGENTE A LA INFORMACIÓN
- 31101023 MINERÍA DE LA WEB
- 31101042 MOTORES DE BÚSQUEDA WEB
- 31101061 MINERÍA DE DATOS
- 31101076 DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS
- 31101292 MODELOS COMPUTACIONALES DEL DISCURSO: SEMÁNTICA Y PRÁGMÁTICA
Descripción
Tradicionalmente se ha distinguido en el campo del procesamiento de lenguaje entre sistemas discriminativos y sistemas generativos. Los primeros incluyen sistemas que generan información estructurada como clasificación en categorías, ranking, plantillas, etc. El segundo se refiere a sistemas que generan texto. Sin embargo, con el auge de los modelos de lenguaje neuronales pre-entrenados a gran escala, se abre la posibilidad de sistemas que generen conocimiento estructurado más allá de un pequeño conjunto de categorías o una ordenación en un ranking. Por ejemplo, mediante servicios como ChatGPT, es posible pedir a un modelo que genere una estructura en SQL, o un conjunto de cláusulas lógicas dentro de un dominio restringido. Se encuentra en plena discusión en la comunidad científica la pregunta de hasta qué punto los modelos de lenguaje pre-entrenados a gran escala son capaces de generalizar, interpretar o realizar inferencias sobre este tipo de estructuras. El propósito de esta línea de investigación es estudiar todas la posibles dimensiones del problema y definir métricas de evaluación que sirvan de guía para el desarrollo de este tipo de sistemas.
Profesor/es
Enrique Amigó
Asignaturas recomendadas
- 31101076 DESCUBRIMIENTO DE INFORMACIÓN EN TEXTO
- 31101019 ACCESO INTELIGENTE A LA INFORMACIÓN
- 31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
- 31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
Descripción
Existen numerosos elementos de información entre los que es posible establecer relaciones: palabras contiguas en un texto, palabras que pertenecen a un mismo documento, traducciones de palabras en distintos idiomas, etc. Estas relaciones pueden ser casuales o pueden representar una relación semántica real entre dos elementos, en función de los estadísticos que presenten. En esta línea de trabajo nos proponemos estudiar la forma de descubrir las relaciones significativas entre dichos elementos, lo que puede aplicarse a diversos problemas en el ámbito de procesamiento de lenguaje natural.
Profesor/es
Lourdes Araujo y Juan Martínez Romo.
Asignaturas recomendadas
- 31101061 MINERÍA DE DATOS
- 31101076 DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS
- 31101292 MODELOS COMPUTACIONALES DEL DISCURSO: SEMÁNTICA Y PRÁGMÁTICA
Descripción
Las Humanidades digitales (HD) es un área de investigación en la que la multidisciplinariedad es tanto una ventaja como una desventaja. ¿Qué esperan los historiadores, los filósofos, los lingüistas de las herramientas informáticas? ¿Se conoce qué tipos de problemas de las HD pueden abordarse con éxito con las tecnologías del lenguaje en la web? ¿Qué aporta la web semántica y los datos enlazados en abierto (LOD) a las HD? Algunas de estas preguntas permitirán abordar y planificar un problema de investigación interesante para la realización del TFM (30 ECTS, 750h). Un buen análisis del estado del arte y la identificación de su tipología serán los contenidos de la primera etapa del trabajo (una tercera parte). Problemas abiertos y experimentaciones de interés son: anotación semántica automática y acceso de textos históricos (TEI), así como su evaluación, la integración de recursos existentes de las HD en el LOD, la generación automática de recursos en LOD a partir de corpus existentes, u otros temas de investigación relacionados que se acordarían por el estudiante y la profesora.
Profesor/es
Ana García Serrano
Asignaturas recomendadas
- 31101019 Acceso inteligente a la información
- 31101023 Minería de la web
- 31101042 Motores de búsqueda web
- 31101061 Minería de datos
- 31101076 Descubrimiento de información en textos
- 31101292 Modelos computacionales del discurso: semántica y pragmática
Descripción
En muchas de las tareas de procesamiento de lenguaje la salida del sistema se presenta en formato texto. En las décadas anteriores las tareas más comunes de este tipo fueron la traducción y la generación de resúmenes. Sin embargo, en los últimos años, con el desarrollo de modelos de lenguaje pre-entrenados a gran escala (GTP, Bert, etc.), se han multiplicado las tareas en las que el sistema ofrece una solución en formato de texto libre (asistentes virtuales, generadores de código de programación, consultas de conocimiento general, etc.) Básicamente, estos sistemas se pueden evaluar, bien mediante métricas basadas en solapamiento de palabras con un texto de referencia (ROUGE, BLEU, METEOR) o bien entrenando a su vez un sistema para predecir la similitud entre el texto generado y un texto correcto. Ambas soluciones tienen ventajas y desventajas. Esta línea de investigación se centra en desarrollar mecanismos de combinación de métricas para asegurar una evaluación más robusta.
Profesor/es
Enrique Amigó
Asignaturas recomendadas
- 31101076 DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS
- 31101019 ACCESO INTELIGENTE A LA INFORMACIÓN
- 31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
- 31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
Descripción
Hoy en día, las mayores y más influyentes empresas del mundo son básicamente recomendados de contenidos (buscadores, comercio on-line, etc.) Esto ha traído como consecuencia efectos negativos a nivel social. Por un lado, la accesibilidad de los productos está sesgada hacia ciertos grupos. Por ejemplo, grandes marcas tienen más visibilidad que el gran número de pequeñas marcas en sistemas de recomendación de productos, o por ejemplo, artistas más populares tienen un exceso de visibilidad. Otro efecto es la polarización de opiniones derivada de la recomendación de contenidos de texto sesgados hacia las preferencias del usuario. Aunque a nivel institucional se están desarrollando leyes para controlar estos aspectos, resulta un reto. Uno de los principales motivos es que no existe un consenso en la comunidad en cuanto a cómo medir la justicia o la ausencia de sesgos en la recomendación de contenidos o productos. Existe incluso contradicción entre diferentes métricas. Esta línea de investigación cubre los siguientes dos objetivos (puede abordarse cada uno de ellos por separado). El primero es la generalización de métricas desde teoría de la información, entendiendo el problema en términos de semejanza e independencia entre distribuciones probabilísticas generadas por el sistema y distribuciones ideales sin sesgos. El segundo objetivo es más ambicioso. Se trata de estudiar la entropía (grado de desorden) como un indicador general de justicia o ausencia de sesgos independiente de los grupos de individuos, productos o los criterios de igualdad establecidos.
Profesor/es
Enrique Amigó
Asignaturas recomendadas
- 31101324 Minería información Social
- 31101076 Descubrimiento de información en textos
- 31101061 Minería de datos
- 31101305 Técnicas basadas en grafos aplicados al procesamiento del lenguaje
- 31101023 Minería de la web
- 31101019 Acceso inteligente a la información
- 3110131 Semántica y pragmática en la web
Descripción
Recientemente, los modelos de lenguaje neuronales pre-entrenados a gran escala han supuesto un salto cualitativo muy importante en el desarrollo de sistemas en tecnologías de la lengua. Existe muchísima literatura en donde se estudian estos modelos desde su potencia de predicción en diferentes tareas como clasificación de textos, generación de resúmenes o respuestas, traducción automática, etc.
El inconveniente de la mayoría de los modelos estudiados es que funcionan como una caja negra, es decir, entre otras cosas, no permiten manipular u operar sobre fragmentos de información para la optimización o depuración de soluciones. Sin embargo, estos sistemas son además una potente herramienta de representación semántico-distribucional, en donde los textos se traducen a un espacio multi-dimensional donde se puede medir, comparar o agregar piezas de información. Disponer de estos mecanismos de representación y operadores mitiga el problema de la caja negra de los sistemas basados en modelos de lenguaje neuronales. Esta línea de investigación se centra en el desarrollo y evaluación de funciones que midan la cantidad de información, su similitud semántica, o que permitan combinar representación en base a generalización o especificación semántica.
Profesor/es
Enrique Amigó y Víctor Fresno
Asignaturas recomendadas
- 31101076 DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS
- 31101019 ACCESO INTELIGENTE A LA INFORMACIÓN
- 31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
- 31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
Descripción
La popularización de modelos del lenguaje basados en técnicas de aprendizaje profundo ha supuesto una verdadera revolución en la manera en la que los usuarios de aplicaciones informáticas acceden y procesan información. En la actualidad, uno de los principales retos que entraña el uso masivo de esta tecnología es la falta de transparencia y responsabilidad por parte de dichos modelos. Debido a su inherente complejidad, estos modelos son habitualmente tratados como 'cajas negras' opacas de las cuales poco o nada se sabe a la hora de comprender el proceso de toma de decisiones que lleva a obtener una salida en particular, así como posibles sesgos, introducidos en tiempo de entrenamiento, a los que dicho proceso puede estar sujeto.
Por tanto, es necesario desarrollar metodologías capaces de desentrañar las complejidades de los modelos de PLN, haciéndolos más transparentes y comprensibles tanto para los investigadores en la materia como para el público usuario en general. En esta línea, la visualización interactiva de la información se ha postulado recientemente como un valioso recurso para promocionar dicha apertura.
Bajo este prisma, no se trata sólo de presentar los datos de salida en un formato visualmente atractivo, sino de construir interfaces intuitivas que permitan a los usuarios, independientemente de su experiencia técnica, obtener información sobre cómo los modelos procesan el lenguaje, hacen predicciones y llegan a conclusiones. Por ejemplo, estas herramientas visuales, aplicadas a modelos como BERT, GPT y arquitecturas Transformer, han demostrado su utilidad ilustrando conceptos y procesos clave como son los mecanismos de atención, las funciones de activación de capas o la ingeniería de prompts, entre otros.
Otro aspecto significativo de esta línea de investigación involucra la aplicación de técnicas de visualización al campo del aprendizaje activo ("active learning") y los modelos de aprendizaje automático interactivos. Esto implica crear interfaces visuales que puedan ayudar en el entrenamiento y ajuste de modelos de PLN, permitiendo a los usuarios proporcionar retroalimentación interactiva, realizar ajustes y observar los impactos de estos cambios en tiempo real. Tal enfoque no sólo democratiza el uso del NLP al hacerlo más accesible para los no expertos, sino que también mejora la eficiencia y precisión de los modelos al incorporar el aprendizaje guiado por el usuario de manera efectiva, con importantes ventajas en el ahorro de recursos destinados al entrenamiento de estos modelos.
Finalmente, se incluyen en esta línea trabajos relacionados con la construcción de interfaces visuales orientadas al análisis de corpus textuales (analítica visual de textos) en un dominio de aplicación concreto (por ejemplo, financiero, humanístico, o jurídico) empleando modelos state-of-the-art o fine-tuned.
Profesor/es
Víctor Fresno y Alejandro Benito-Santos.
Asignaturas recomendadas
Especialidad: tecnologías del lenguaje en la web
- 31070023 REPRESENTACIÓN DE TEXTOS EN ESPACIOS VECTORIALES Y PROBABILÍSTICOS
- 31070017 REDES NEURONALES PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL
- 31080027 FUNDAMENTOS DEL PROCESAMIENTO LINGÜÍSTICO