NO EXISTEN CAMBIOS
La guía de la asignatura ha sido actualizada con los cambios que aquí se mencionan.
NOMBRE DE LA ASIGNATURA |
MINERÍA DE TEXTOS |
CÓDIGO |
31110041 |
CURSO ACADÉMICO |
2024/2025 |
TÍTULOS DE MASTER EN QUE SE IMPARTE |
MÁSTER UNIVERSITARIO EN INGENIERÍA Y CIENCIA DE DATOS
|
TIPO |
CONTENIDOS |
Nº ECTS |
4 |
HORAS |
100 |
PERIODO |
SEMESTRE 1
|
IDIOMAS EN QUE SE IMPARTE |
CASTELLANO |
Esta asignatura tiene por objetivo estudiar técnicas que permiten transformar información textual no estructurada presente en documentos de distintas clases en datos estructurados fáciles de procesar, que contendrán información relevante y permitirán la extracción de conocimiento. Estos procesos tienen su base en las técnicas de procesamiento de lenguaje natural y aprendizaje automático, que permiten identificar y analizar los elementos informativos de los textos.
Contribución al perfil profesional: La minería de textos tiene muchas aplicaciones dentro de la ciencia de datos ya que hay que tener en cuenta que buena parte del volumen de datos que se maneja son datos no estructurados, texto libre. Esta asignatura permitirá capacitar a los estudiantes para la extracción de este tipo de información y su análisis en grandes volúmenes de documentos de diferentes dominios y de diferentes tipos, incluyendo páginas web, redes sociales, informes médicos, etc.
Se trata de una asignatura obligatoria que se imparte en el primer semestre el máster.
A la asignatura le corresponde 4 créticos ECTS, que equivalen a una estimación de 100 horas de trabajo.
Está relacionada con las siguientes asignaturas:
- Programación en entornos de datos
- Aprendizaje Automático I
En Minería de Textos se presentan librerías y arquitecturas de software específicas para el tratamiento de textos, de ahí su relación con la asignatura Programación en Entornos de Datos. Con respecto a Aprendizaje Automático I, la asignatura de Minería de Textos se centra en los algoritmos de aprendizaje automático aplicados al tratamiento de los textos.
Reseña del profesorado:
DELGADO MUÑOZ, AGUSTÍN DANIEL (coordinador de la asignatura)
Agustín D. Delgado es miembro del grupo de investigación NLP&IR de la UNED. Sus líneas de investigación se enmarcan en el Procesamiento del Lenguaje Natural y la Recuperación de Información. En particular, sus publicaciones han abordado la desambiguación de entidades nombradas mediante técnicas de clustering y métricas de evaluación de sistemas de clasificación. Además, es revisor de varias revistas con factor de impacto y congresos internacionales.
email: agustin.delgado@lsi.uned.es
RODRIGO YUSTE, ALVARO:
Alvaro Rodrigo forma parte del grupo de investigación NLP&IR de la UNED.
Investiga dentro del ámbito del Procesamiento del Lenguaje Natural, centrándose en la búsqueda de respuestas, habiendo participado en la organización de diversas tareas de evaluación internacional así como en el desarrollo de este tipo de sistemas. Además, también investiga en diversos métodos para la detección y mitigación de la desinformación.
Ha formado parte del comité de programa de diversos congresos y es revisor de diversas revistas y congresos internacionales.
email: alvarory@lsi.uned.es
Esta asignatura debe estudiarse simultáneamente a las asignaturas de:
- Programación en entornos de datos
- Aprendizaje Automático I
ya que se apoya en los conocimientos impartidos en dichas asignaturas.
Se recomienda que los interesados en cursar el Máster tengan un nivel de lectura en inglés suficiente como para entender contenidos técnicos en dicha lengua. Debido a la novedad de algunos de los contenidos propuestos para la asignatura, gran parte de la bibliografía, así como los recursos proporcionados al estudiante en el curso virtual pueden estar únicamente en inglés
La tutorización de los estudiantes tendrá lugar esencialmente a través de los foros de la plataforma.
En caso de necesitar contactar con el Equipo Docente por medios distintos al curso virtual, se utilizará preferentemente el correo electrónico, escribiendo a los dos profesores:
agustin.delgado@lsi.uned.es y alvarory@lsi.uned.es
También se puede contactar con el Equipo Docente en los siguientes horarios:
Agustín Daniel Delgado Muñoz
Atención al Estudiante: Jueves de 11:00 a 13:00 horas y de 15:00 a 17:00 horas.
Tfno.: 91 398 8652
Despacho 2.16;
E.T.S.I. Informática, UNED C/ Juan del Rosal, 16 28040 Madrid
Álvaro Rodrigo Yuste
Atención al Estudiante: Jueves de 11:00 a 13:00 horas y de 15:00 a 17:00 horas.
Tfno.: 91 398 9693
Despacho 2.03;
E.T.S.I. Informática, UNED C/ Juan del Rosal, 16 28040 Madrid
COMPETENCIAS BÁSICAS
CB6 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
CB7 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
CB8 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades. sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
CB9 - Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
CB10 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
COMPETENCIAS GENERALES
CG1 - Identificar los métodos apropiados para la solución de problemas asociados a la ciencia de datos y la analítica de información
CG3 - Desarrollar sistemas de gestión/almacenamiento/procesamiento de grandes volúmenes de datos de una manera eficiente y segura, teniendo en cuenta las normativas/legislaciones existentes
CG5 - Utilizar las habilidades de científico de datos y/o ingeniero de datos en entornos de trabajo multidisciplinares y ser capaz de distinguir/organizar las diferentes actividades de los roles en dicho entorno
COMPETENCIAS TRANSVERSALES
CT1 - Ser capaz de abordar y desarrollar proyectos innovadores en entornos científicos, tecnológicos y multidisciplinares.
CT2 - Ser capaz de tomar decisiones y formular juicios basados en criterios objetivos (datos experimentales, científicos o de simulación disponibles).
COMPETENCIAS ESPECÍFICAS
CE7 - Conocer y comprender las técnicas de procesamiento del lenguaje natural (NLP) y su aplicación en la extracción de información en textos
CE9 - Identificar y utilizar técnicas de desarrollo de algoritmos de manipulación de datos en entornos de gestión de datos masivos
Los resultados más relevantes que se pretende alcanzar con el estudio de esta asignatura son los siguientes:
- Identificar los distintos modelos de extracción de información y análisis de textos, así como las herramientas existentes para el procesamiento de textos.
- Aplicar la metodología de evaluación de sistemas de extracción de información en las fases de desarrollo/implantación de proyectos de procesamiento de textos.
- Discriminar y aplicar los procedimientos necesarios para la búsqueda, selección y manejo de recursos (bibliografía, software, etc.) relacionados con la materia.
Adicionalmente, se pretende que el estudiante alcance los siguientes subobjetivos asociados a los resultados de aprendizaje anteriores:
- Saber qué es la clasificación automática de textos, sus características y tipos.
- Saber utilizar las herramientas disponibles de clasificación automática de textos y tener criterios para seleccionar las más adecuadas.
- Saber qué es el clustering de textos, sus características y tipos.
- Saber utilizar las herramientas disponibles de clustering de textos y tener criterios para seleccionar las más adecuadas.
- Conocer diversas aplicaciones de la minería de textos.
Introducción al procesamiento del lenguaje natural.
En este tema se presentan diversas tareas básicas de procesamiento del lenguaje natural, que sirven de base para tratar otros problemas más complejos. Se presentan herramientas prácticas para abordar dichas tareas básicas.
Extracción de información en documentos.
En este tema se estudian técnicas encaminadas a identificar en un documento los datos relevantes para un problema considerado, así como su estructura y relaciones. Concretamente se abordan tareas relacionadas con la identificación de entidades, conceptos y sus relaciones en documentos.
Representación de documentos.
En este capítulo se proporciona una introducción a la representación automática de textos y a los modelos de representación más utilizados en minería de textos.
Clasificación y clustering.
En este capítulo se presentan la clasificación y clustering de documentos, se revisan las principales familias de algoritmos analizando sus características. Por último, se presentan algunas herramientas de libre distribución.
Aplicaciones.
Este capítulo presenta las características principales de algunas aplicaciones de actualidad de las técnicas de minería de textos.
Esta asignatura ha sido diseñada para la enseñanza a distancia. Por tanto, el sistema de enseñanza-aprendizaje estará basado en gran parte en el estudio independiente o autónomo del estudiante. Para ello, el estudiante contará con diversos materiales que permitirán su trabajo autónomo y la Guía de Estudio de la asignatura, que incluye orientaciones para la realización de las actividades prácticas. Asimismo, mediante la plataforma virtual de la UNED existirá un contacto continuo entre el equipo docente y los/as estudiantes, así como una interrelación entre los propios estudiantes a través de los foros, importantísimo en la enseñanza no presencial.
El estudio de esta asignatura se realizará a través de los materiales que el Equipo Docente publicará en el curso virtual.
La asignatura tiene un carácter eminentemente práctico. Se presentan contenidos fundamentales de campo del Procesamiento del Lenguaje Natural, centrándose en el uso de herramientas para abordar con facilidad problemas prácticos que se presentan al manejar información no estructurada. Estas técnicas son especialmente relevantes en los ámbitos en los que es necesario trabajar con grandes cantidades de información.
Se fomentará el uso de software libre siempre y cuando sea posible para la realización de las actividades y las practicas propuestas.
Los temas van acompañados de prácticas, en algunos casos obligatorias para aprobar la asignatura, que proporcionan al estudiante capacidad para abordar tareas de procesamiento del lenguaje en distintos ámbitos.
Las actividades formativas para el estudio de la asignatura son las siguientes:
- Estudios de contenidos (45 horas)
- Tutorías (8 horas)
- Actividades en la plataforma virtual (2 horas)
- Prácticas informáticas (40 horas)
- Otros trabajos y examen (5 horas)
- Total:100 horas
TIPO DE PRUEBA PRESENCIAL
|
Tipo de examen |
Tipo de examen |
Examen de desarrollo |
Preguntas desarrollo |
Preguntas desarrollo |
6 |
Duración |
Duración |
120 (minutos) |
Material permitido en el examen |
Material permitido en el examen |
Ninguno
|
Criterios de evaluación |
Criterios de evaluación |
Normas de valoración del examen:
- La nota del examen representa el 60% de la valoración final de la asignatura (el 40% restante corresponde a las prácticas obligatorias).
|
% del examen sobre la nota final |
% del examen sobre la nota final |
60 |
Nota mínima del examen para aprobar sin PEC |
Nota mínima del examen para aprobar sin PEC |
|
Nota máxima que aporta el examen a la calificación final sin PEC |
Nota máxima que aporta el examen a la calificación final sin PEC |
|
Nota mínima en el examen para sumar la PEC |
Nota mínima en el examen para sumar la PEC |
|
Comentarios y observaciones |
Comentarios y observaciones |
|
CARACTERÍSTICAS DE LA PRUEBA PRESENCIAL Y/O LOS TRABAJOS |
CARACTERÍSTICAS DE LA PRUEBA PRESENCIAL Y/O LOS TRABAJOS
|
Requiere Presencialidad |
Requiere Presencialidad |
Si |
Descripción |
Descripción |
La prueba presencial, tanto de febrero, como de septiembre, consta de 6 de cuestiones sobre el temario de la asignatura.
|
Criterios de evaluación |
Criterios de evaluación |
- La nota total del examen debe ser al menos de 3 sobre 6 para compensar con la nota de las prácticas.
- En caso de que solo se apruebe el examen o las prácticas en la convocatoria de febrero, se guarda la parte aprobada
|
Ponderación de la prueba presencial y/o los trabajos en la nota final |
Ponderación de la prueba presencial y/o los trabajos en la nota final |
|
Fecha aproximada de entrega |
Fecha aproximada de entrega |
|
Comentarios y observaciones |
Comentarios y observaciones |
|
PRUEBAS DE EVALUACIÓN CONTINUA (PEC) |
PRUEBAS DE EVALUACIÓN CONTINUA (PEC)
|
¿Hay PEC? |
¿Hay PEC? |
No |
Descripción |
Descripción |
Esta asignatura tiene Prácticas en lugar de PED.
|
Criterios de evaluación |
Criterios de evaluación |
|
Ponderación de la PEC en la nota final |
Ponderación de la PEC en la nota final |
|
Fecha aproximada de entrega |
Fecha aproximada de entrega |
|
Comentarios y observaciones |
Comentarios y observaciones |
|
OTRAS ACTIVIDADES EVALUABLES
|
¿Hay otra/s actividad/es evaluable/s? |
¿Hay otra/s actividad/es evaluable/s? |
Si,no presencial |
Descripción |
Descripción |
El trabajo del curso incluye la realización de dos prácticas obligatorias. El objetivo de estas prácticas es ayudar al alumno a la comprensión de los temas tratados, así como hacerle ver su aplicación.
El enunciado de las prácticas estará disponible en el curso virtual de la asignatura.
|
Criterios de evaluación |
Criterios de evaluación |
Las prácticas son corregidas por el equipo docente. Cada práctica, calificada de 0 a 10 supone un 20% de la nota de la asignatura. Así, la nota asignada podrá incrementar hasta un máximo de 4 puntos (2 por cada práctica) en la nota final de la asignatura. A modo de ejemplo se tendrán las siguientes correspondencias:
- Sobresaliente (10) -> 2
- Sobresaliente (9) -> 1.8
- Notable (7) -> 1.4
- Aprobado (5) -> 1
Se recuerda al estudiantado que no está permitido el uso de herramientas de Inteligencia Artificial Generativa (IAG) para la elaboración de trabajos académicos derivados del desarrollo de la asignatura, salvo indicación expresa por parte del Equipo Docente. En cualquier caso, sobre las posibilidades y límites en el uso de este tipo de herramientas en la UNED, puede consultarse la "Guía de uso de las herramientas de Inteligencia Artificial Generativa para el estudiantado" elaborada por el Vicerrectorado de Innovación Educativa y disponible en este sitio web: https://www.uned.es/universidad/inicio/institucional/areas-direccion/vicerrectorados/innovacion/iaeducativa.html
|
Ponderación en la nota final |
Ponderación en la nota final |
40% |
Fecha aproximada de entrega |
Fecha aproximada de entrega |
|
Comentarios y observaciones |
Comentarios y observaciones |
Las prácticas tendrán una fecha de entrega especificada en el enunciado y la entrega se realizará en la plataforma virtual.
Las fechas de entrega de las prácticas son aproximadamente en la primera midad de diciembre y a mediados de enero. La fecha exacta se anunciará en el entorno virtual.
En el curso virtual se facilitarán con el material de cada tema ejercicios de autoevaluación.
|
¿Cómo se obtiene la nota final?
|
Cada una de las prácticas y el examen deben aprobarse por separado. En este caso, la nota del examen representa el 60% de la valoración final de la asignatura y las prácticas el 40% restante.
Si no se ha superado alguna de las partes (examen o prácticas), la nota final de la asignatura se establece como 0.
|
LIBRO ACTUALMENTE NO PUBLICADO
ISBN(13):
Título: NATURAL LANGUAGE PROCESSING WITH PYTHON
Autor/es: Steven Bird;Edward Loper;Ewan Klein;
Editorial: sin publicar
|
|
LIBRO ACTUALMENTE NO PUBLICADO
ISBN(13):
Título: SPEECH AND LANGUAGE PROCESSING 3ª
Autor/es: James H. Martin;Jurafsky, Dan;
Editorial: sin publicar
|
|
La bibliografía básica no incluye algunos contenidos del curso. Por ello, en el entorno virtual de la asignatura se pondrá a disposición de los alumnos material de estudio complementario (presentaciones, artículos, recopilaciones y referencias a otro material disponible en la web).
Los libros propuestos se encuentran en Internet.
La plataforma de e-Learning Alf proporcionará el adecuado interfaz de interacción entre el alumno y sus profesores. Alf es una plataforma de e-Learning y colaboración que permite impartir y recibir formación, gestionar y compartir documentos, crear y participar en comunidades temáticas, así como realizar proyectos online.
Se ofrecerán las herramientas necesarias para que, tanto el equipo docente como el alumnado, encuentren la manera de compaginar tanto el trabajo individual como el aprendizaje cooperativo.