GID2017-1 | Estructuras de Datos y Algoritmos (INEDA) Proyecto 2019
GID2017-1 | Estructuras de Datos y Algoritmos (INEDA)
Proyecto 2019
Desarrollo de Tecnologías Aplicadas a la Evaluación de los Resultados de Aprendizaje Mediante la Identificación Automática de Elementos de Mayor Dificultad enAsignaturas de la UNED
Resumen
El objetivo de este proyecto fue diseñar una metodología para identificar automáticamente los elementos que resultan más complicados de aprender para los alumnos en las distintas asignaturas implicadas en el proyecto. Mediante esta metodología podremos analizar estadísticamente los diferentes temas que forman parte del temario de una asignatura y así optimizar los resultados de mejora obtenidos con la producción de nuevos materiales focalizando su temática en dichos elementos más costosos de aprender para el alumno. Se propuso desarrollar una metodología que identifique automáticamente los diferentes temas tratados a lo largo del curso y permita realizar un análisis estadístico de los resultados de pruebas de evaluación de cursos pasados relacionando aspectos y temas de las preguntas con los resultados. En este sentido la idea era diseñar e implementar un modelo generativo sobre el contenido de las asignaturas (por ejemplo LDA) para obtener de forma automática los diferentes elementos temáticos existentes. También utilizar técnicas como la extracción de frases clave para la identificación automática de estos elementos. Los resultados de ambos enfoques se combinarán en el diseño de una metodología conjunta. Estás técnicas se evaluaron sobre algunas de las asignaturas impartidas por el grupo para las que disponemos de información recogida a lo largo de los años. Sin embargo, el objetivo es diseñar una metodología exportable a cualquier otra asignatura universitaria. Los resultados obtenidos también fueron evaluados por alumnos mediante encuestas. Finalmente se diseñará un prototipo que permita mediante una aplicación Web el análisis de las asignaturas mediante la metodología introducida anteriormente.
Objetivos
- [OBJ.1] Dado que este trabajo es la continuacion de otro proyecto anterior en el que comenzamos esta línea de investigación, uno de los objetivos es mejorar el análisis estadístico que hemos llevado a cabo para la identificación de los temas más complejos teniendo en cuenta las ideas adquiridos en los diferentes congresos y revisiones de artículos en los que se ha presentado esta idea.
- [OBJ.2] El primer objetivo novedoso consiste en la detección automática de temas mediante modelos generativos aplicados al material bibiográfico y los exámenes de una asignatura.
- [OBJ.3] Otro objetivo es la detección de frases clave en el material de la asignatura para ayudar en la fase de detección automática de temas.
- [OBJ.4] Finalmente se propone la construcción de un prototipo que permita el uso sencillo e intuitivo del sistema generado para poder ser usado en otras asignaturas de forma automática.
Experiencia de Innovación
La metodología seguida consta de los siguientes puntos principales:
Preparación de datos: Una parte fundamental del proyecto es la preparación de un corpus de exámenes anotados manualmente para evaluar posteriormente el rendimiento del sistema automático de anotación de temas. Esta parte requiere, en primer lugar, establecer el conjunto de indicadores o etiquetas que se asignarán a las preguntas del examen para caracterizarlas. Entre las etiquetas consideradas se encuentran el o los temas de la asignatura a la que se refiere la pregunta, pero también otros aspectos como los conocimientos previos necesarios que no forman parte de la asignatura, como el costo algorítmico. En el proceso de etiquetado decidimos considerar la lista más exhaustiva para otro posible análisis futuro. Una vez establecidas las etiquetas consideradas más relevantes para el estudio, las preguntas de los exámenes recogidos de años anteriores se han etiquetado manualmente. La colección de preguntas, etiquetas y resultados de los estudiantes para cada una de ellas es un producto valioso resultante de este trabajo.
Sistema de Etiquetado Automático de Temas: Después de compilar este corpus de preguntas anotadas manualmente, el siguiente objetivo es construir un sistema que, basado en un modelo generativo, extraiga automáticamente un conjunto de temas de los exámenes de una asignatura. De esta manera, el sistema no necesitaría el establecimiento manual de etiquetas en cada una de las preguntas del examen. Concretamente, se ha utilizado el modelo LDA (Latent Dirichlet Allocation) a través de la biblioteca de python Gensim [13] para la modelización de los temas.
Sistema de Extracción de Frases Clave: Para extraer las frases clave, primero se ha llevado a cabo la aplicación de un etiquetado POS (Part-Of-Speech) a las palabras de cada pregunta. A partir de las etiquetas POS hemos definido una serie de patrones que recogen las expresiones más frecuentes compuestas de varias palabras en español. Posteriormente, hemos aplicado el modelo TF-IDF para seleccionar las frases clave más representativas.
Análisis estadísticos de los datos: En una segunda fase, utilizando la colección preparada, se han diseñado diversos análisis estadísticos, desarrollando programas para aplicarlos a los
datos de prueba. Los resultados de estos análisis se han estudiado detalladamente para alcanzar las conclusiones a las que ha dado lugar el proyecto.
Resultados obtenidos
La figura 1 muestra el resultado obtenido después de aplicar el sistema de extracción de etiquetado automático de datos. Se pueden observar los siete temas extraídos, cada uno representado por una nube de etiquetas. Estas nubes de etiquetas son a su vez las etiquetas asignadas manualmente a cada pregunta, por lo que esta figura representa el peso de cada etiqueta en un tema determinado. Como se puede ver, hay muy poco solapamiento entre los diferentes temas, cada uno representado por una cierta parte de la jerarquía de etiquetas.
Figura 1. Temas extraídos y representados cada uno por una nube de palabras formada por las etiquetas que componen cada tema.
Para tener otra perspectiva de los resultados obtenidos y teniendo en cuenta la jerarquía de las etiquetas, hemos tratado de ilustrar esta jerarquía y cómo los diferentes temas afectan a cada una de las partes de esta jerarquía. En la figura 2, podemos ver la jerarquía que forma el conjunto de etiquetas y el impacto de los temas en cada una de ellas. Puede verse que la mayoría de los temas se superponen con un solo tipo de pregunta, como los de "algoritmos greedy" (2), "programación dinámica" (3), "grafos" (4), "coste algorítmico" (5) y "hash" (6). El tema 1 afecta a dos partes del árbol como "grafos" y el algoritmo "divide y vencerás", aunque
esto se debe a que algunas cuestiones relacionadas con el "coste algorítmico" afectan a estos dos tipos de etiquetas. Por último, el tema 7 contiene preguntas sobre diversos esquemas algorítmicos como "divide y vencerás", "backtracking", "ramificación y poda" y "greedy".
Figura 2. Jerarquía de etiquetas y cómo los diferentes temas (cada uno representado por un color) afectan a cada una de las partes de esta jerarquía.
Por otro lado, como parte del sistema de extracción de frases clave hemos desarrollado un modelo que lleva a cabo esta tarea. Para evaluar dicho modelo, disponemos de un conjunto de preguntas de prueba anotadas manualmente con las etiquetas de los temas del curso. Específicamente, hemos anotado 20 exámenes diferentes y 120 preguntas recogidas en un período de seis años. Hemos utilizado métricas estándar en PLN: Precisión (P), Recall (R) y F-Score (F1). La precisión mide la tasa entre el número de resultados correctos calculados y el número de resultados calculados, mientras que el Recall es la tasa entre el número de resultados correctos calculados y el número de resultados en el “gold standard”.
La tabla 1 muestra el resultado de la identificación automática de las frases clave. En primer lugar, se observa que se obtienen resultados de alta calidad, tal vez con la excepción de las matrices de adyacencia. Los resultados globales de todas las etiquetas son altos, con una medida-F superior a 0,76. También hay una tendencia a obtener mejores resultados para las etiquetas más específicas que para las más generales. Así, los resultados para PRIM, KRUSKAL y DIJSTRA son mejores que los de GREEDY. Esto es de esperar, ya que las etiquetas más específicas se encuentran explícitamente en los textos de las preguntas, mientras que las más generales son inducidas desde la jerarquía.
Las etiquetas asignadas a las preguntas permiten el análisis de los resultados de los estudiantes. La tabla 1 muestra los resultados de los fracasos y éxitos de algunas etiquetas. Estos datos permiten, por ejemplo, identificar los temas más difíciles, la correlación entre los resultados obtenidos para diferentes temas, etc.
Tabla 1. Resultados para los temas considerados .
ETIQUETA | P | R | F |
COST | 0.5 | 0.82 | 0.62 |
THEORETICAL | 0.71 | 0.95 | 0.81 |
PRACTICAL | 0.88 | 0.56 | 0.68 |
DATA STR | 0.64 | 0.95 | 0.76 |
HEAPS | 0.82 | 1.00 | 0.90 |
GRAPHS | 0.44 | 0.88 | 0.59 |
SPA_TREE | 0.38 | 1.00 | 0.54 |
ARTICULATION | 1.00 | 1.00 | 1.00 |
COMPONENTS | 1.00 | 1.00 | 1.00 |
ADJ_LISTS | 0.75 | 1.00 | 0.85 |
ADJ_MATRICES | 0.25 | 1.00 | 0.40 |
BREADTH F SEARCH | 1.00 | 1.00 | 1.00 |
HASH | 1.00 | 1.00 | 1.00 |
SCHEME | 0.39 | 0.88 | 0.54 |
GREEDY | 0.75 | 0.96 | 0.84 |
DIJKSTRA | 0.92 | 1.00 | 0.96 |
SPECIAL | 0.40 | 1.00 | 0.57 |
KRUSKAL | 1.00 | 0.75 | 0.85 |
TASK_SCHE | 0.42 | 1.00 | 0.60 |
PRIM | 0.80 | 0.66 | 0.72 |
DIV & CONQUER | 0.93 | 0.77 | 0.84 |
QUICKSORT | 0.75 | 1.00 | 0.85 |
DYN PROG | 0.53 | 1.00 | 0.69 |
BACKTRACKING | 1.00 | 0.83 | 0.90 |
BRANCH & BOUND | 0.63 | 0.83 | 0.71 |
TOTAL | 0.72 | 0.91 | 0.77 |
Difusión y explotación
A continuación, se muestran las tres publicaciones resultado de este proyecto de innovación:
ISBN: 978-84-09-17979-4 / ISSN: 2340-1117
doi: 10.21125/edulearn.2020
Publisher: IATED
ISBN: 978-84-09-17979-4 / ISSN: 2340-1117
doi: 10.21125/edulearn.2020
Publisher: IATED