
Técnicas de Estadística para el Análisis Científico de Datos
Prof.: Hilario Navarro Veguillas
La necesidad de extraer conocimiento a partir de la información recogida en una base de datos se ha convertido en un factor común de la investigación científica actual. Sin duda, el elemento desencadenante de esta situación es el gran avance tecnológico que, por un lado, ha facilitado enormemente las tareas de obtención, almacenamiento y transmisión de datos, y por otro, ha proporcionado medios muy potentes para su tratamiento gráfico y computacional.
Ante este panorama, parece evidente que los investigadores y profesionales de cualquier área, que se enfrenten con frecuencia a este tipo de análisis, necesitarán una formación que les permita, al menos, una comunicación fluida con los expertos en el análisis de datos. En la percepción de este escenario está la raíz de este curso cuya actual edición presentamos.
En él se estudian técnicas estadísticas multivariantes como medio para el aprendizaje a partir de los datos. Se pretende que el alumno adquiera una "capacidad de maniobra" que le permita desplazarse con cierta soltura por un terreno cada vez más heterogéneo. Pensamos que esto no se consigue con la revisión de una vasta colección de técnicas "sueltas"; por el contrario, puede ser más efectivo el estudio detallado de una serie de técnicas “básicas”, descubriendo el engranaje que conecta los mecanismos de este tipo de metodología.
Con estas premisas, se hace un recorrido acorde con los créditos ECTS que el curso tiene asignados (El crédito europeo mide el volumen o carga total del trabajo de aprendizaje del estudiante para alcanzar los objetivos previstos en el Plan de Estudios, y se corresponde con una carga de trabajo de 25 a 30 horas). El desarrollo se centra en dos focos: los procedimientos basados en modelos —hasta hace poco tiempo la forma habitual de afrontar el análisis— y la “cultura” algorítmica, que está adquiriendo un gran desarrollo en las últimas décadas, apoyada en la rápida evolución de la tecnología informática. En el primero de los apartados se estudian técnicas para resolver problemas de clasificación, análisis de la varianza, agrupación de objetos y/o variables ("cluster"), etc., mientras que en el segundo se hace una introducción a los métodos que actualmente se utilizan para resolver los mismos problemas cuando las bases de datos no se ajustan estrictamente a las hipótesis iniciales —predictores cuantitativos y cualitativos, muchas más variables que unidades muestrales, etc. En este grupo se encuadran los métodos de particionamiento recursivo (CART), las versiones RIDGE y LASSO de la regresión, las máquinas de vector soporte (SVM) y los métodos de combinación de predictores/clasificadores como “bagging”, “boosting” y “random forests”. También se dedica un apartado especial a la metodología bayesiana, que proporciona alternativas muy válidas en las aplicaciones a problemas reales y a algunos ejemplos de modelos gráficos probabilísticos (Redes Bayesianas). Todo este conjunto permite al alumno tener una descripción rigurosa de las vías disponibles actualmente para enfrentarse a una amplia gama de problemas en cualquier área de investigación científica.
Para realizar este curso con garantías de éxito se precisa tener conocimientos de estadística univariante, tanto descriptiva como inferencial y un nivel de inglés “técnico” suficiente para la lectura de documentos como el que se presenta en este enlace.
No es necesario justificar el importante papel que los medios informáticos juegan tanto en las aplicaciones reales de la metodología que aquí se describe como en el propio aprendizaje de la misma. Aunque entre nuestros objetivos no figura el adiestramiento en el manejo de ningún paquete de programas, resulta casi imposible pensar en el estudio de esta materia sin una herramienta que nos asista en el aspecto computacional. En el curso no se impone ninguna norma al respecto. La experiencia de ediciones anteriores nos dicta que un porcentaje elevado de alumnos dispone, a nivel profesional, de alguno de los productos de software más usuales y lo que le falta es, precisamente, conocimiento para hacer un uso científico de los mismos. Sin embargo, aquellos alumnos que no tengan acceso a ningún "paquete estadístico", o simplemente lo prefieran, podrán realizar sus prácticas con , producto de libre distribución con licencia GNU; toda la información y medios para poner en funcionamiento este entorno informático se encuentran en internet.
Módulo I - Diseño y Organización del Análisis
1. Preliminares
2. Preparación de los datos
3. Iniciación al software estadístico
Módulo II - Muestras, Poblaciones y Modelos
(Elementos de las teorías matemáticas de la Probabilidad y de la Estadística útiles para justificar los procedimientos basados en Modelos)
4. Distribuciones de probabilidad multivariantes
5. Muestreo en poblaciones normales multivariantes
6. Métodos elementales de inferencia
Módulo III - Metodología Básica
(Técnicas de análisis para extraer información en bases de datos con o sin estructura de grupo predeterminada)
7. Análisis multivariante de la varianza (MANOVA)
8. Componentes principales y análisis factorial
9. Análisis discriminante y regresión logística
10. Análisis "cluster"
11. Análisis de la correlación canónica
Módulo IV - Otras Perspectivas en el Análisis de Datos
(Nuevas metodologías apoyadas sobre una gran potencia computacional y adecuadas para bases de datos complejas)
12. Las dos culturas
13. Modelos y métodos predictivos
14. Particionamiento recursivo: Árboles de regresión y clasificación
15. Métodos bayesianos
Para el estudio de esta materia el alumno deberá seguir el texto:
Multivariate Statistical Methods: A Primer (4th Edition)
Bryan F. J. Manly, Jorge A. Navarro Alberto
Chapman & Hall/CRC, Boca Raton, 2016.
ISBN 978-1-4987-2896-6. 253 pp..
Contenido:
The Material of Multivariate Analysis. Matrix Algebra. Displaying Multivariate Data.
Tests of Significance with Multivariate Data. Measuring and Testing Multivariate Distances.
Principal Components Analysis. Factor Analysis. Discriminant Function Analysis.
Cluster Analysis. Canonical Correlation Analysis. Multidimensional Scaling. Ordination. Epilogue.
Además, en la plataforma virtual se proporcionará:
-
Addenda, elaborada por el equipo docente, conteniendo el desarrollo de algunos temas relacionados con el programa.
-
Bases de datos .
-
Documentos complementarios (artículos, textos de acceso libre por internet, enlaces interesantes, etc.).
Dirección:
Dr. Hilario Navarro Veguillas,
Profesor Titular de Universidad. UNED.
Docencia: Modelos de Regresión (Grado en CC. Matemáticas, UNED); Análisis Multivariante (Grado en CC. Matemáticas, UNED); Análisis Estadístico Multivariante (Máster EEES de Matemáticas Avanzadas, UNED); Estadística Matemática en la Ciencia de Datos (Máster EEES de Matemáticas Avanzadas, UNED); Técnicas de Regularización en el Aprendizaje Estadístico (Trabajo Final del Máster EEES de Matemáticas Avanzadas, UNED); Trabajo Fin de Grado en CC. Matemáticas, UNED.
Líneas de Investigación: Métodos Estadísticos en el Análisis de Datos de Alta Dimensión. Nuevas Perspectivas en el Análisis de Datos Multivariantes. Modelos Gráficos Probabilísticos. Distribuciones Asimétricas.
Colaboradores:
Dra. Paloma Maín Yaque.
Líneas de Investigación: Inferencia Bayesiana: Procedimientos y Aspectos Computacionales. Sensibilidad y Robustez en Redes Bayesianas. Robustez de Modelos Multivariantes.
Temas de interés y trabajos publicados recientemente por miembros del grupo:
Teoría y métodos estadísticos para el análisis científico de datos con alta dimensión
Lucía Trilla-Fuertes, Angelo Gámez-Pozo, Jorge M. Arevalillo, Rocío López-Vacas, Elena López-Camacho, Guillermo Prado-Vázquez, Andrea Zapater-Moros, Mariana Díaz-Almirón, María Ferrer-Gómez, Hilario Navarro, Paolo Nanni, Pilar Zamora, Enrique Espinosa, Paloma Maín, Juan Ángel Fresno Vara. Bayesian networks established functional differences between breast cancer subtypes. PLOS ONE 15(6): e0234752. https://doi.org/10.1371/journal.pone.0234752 (2020)
Lucía Trilla-Fuertes, Angelo Gámez-Pozo, Elena López-Camacho, Guillermo Prado-Vázquez, Andrea Zapater-Moros, Rocío López-Vacas, Jorge M. Arevalillo, Mariana Díaz-Almirón, Hilario Navarro, Paloma Maín, Enrique Espinosa, Pilar Zamora, Juan Ángel Fresno Vara. Computational models applied to metabolomics data hints at the relevance of glutamine metabolism in breast cancer. BMC Cancer 20:307. https://doi.org/10.1186/s12885-020-06764-x (2020)
Lucia Trilla-Fuertes, Angelo Gámez-Pozo, Guillermo Prado-Vázquez, Andrea Zapater-Moros, Mariana Díaz-Almirón, Jorge M Arevalillo, María Ferrer-Gómez, Hilario Navarro, Paloma Maín, Enrique Espinosa, Álvaro Pinto, Juan Ángel Fresno Vara. Biological molecular layer classification of muscle-invasive bladder cancer opens new treatment opportunities. BMC Cancer. 19:636 (2019)
Guillermo Prado-Vázquez, Angelo Gámez-Pozo, Lucía Trilla-Fuertes, Jorge M. Arevalillo, Andrea Zapater-Moros, María Ferrer-Gómez, Mariana Díaz-Almirón, Rocío López-Vacas, Hilario Navarro, Paloma Maín, Jaime Feliú, Pilar Zamora, Enrique Espinosa, Juan Ángel Fresno Vara. A novel approach to triple-negative breast cancer molecular classification reveals a luminal immune-positive subgroup with good prognoses. Scientific Reports 9(1):1538 DOI: 10.1038/s41598-018-38364-y (2019)
Andrea Zapater-Moros, Angelo Gámez-Pozo, Guillermo Prado-Vázquez, Lucía Trilla-Fuertes, Jorge M. Arevalillo, Mariana Díaz-Almirón, Hilario Navarro, Paloma Maín, Jaime Feliú, Pilar Zamora, Enrique Espinosa and Juan Ángel Fresno Vara. Probabilistic graphical models relate immune status with response to neoadjuvant chemotherapy in breast cancer. Oncotarget, DOI/10.18632/oncotarget.25496 (2018)
Lucía Trilla-Fuertes, Angelo Gámez-Pozo, Jorge M. Arevalillo, Mariana Díaz-Almirón, Guillermo Prado-Vázquez, Andrea Zapater-Moros, Hilario Navarro, Rosa Aras-López, Irene Dapía, Rocío López-Vacas, Paolo Nanni, Sara Llorente-Armijo, Pedro Arias, Alberto M. Borobia, Paloma Maín, Jaime Feliú, Enrique Espinosa, Juan Ángel Fresno Vara. Molecular characterization of breast cancer cell response to metabolic drugs. Oncotarget, DOI/10.18632/oncotarget.24047 (2018)
Guillermo de Velasco, Lucia Trilla-Fuertes, Angelo Gamez-Pozo, Maria Urbanowicz, Gustavo Ruiz-Ares, Juan M. Sepúlveda, Guillermo Prado-Vazquez, Jorge M. Arevalillo, Andrea Zapater-Moros, Hilario Navarro, Rocio Lopez-Vacas, Ray Manneh, Irene Otero, Felipe Villacampa, Jesus M. Paramio, Juan Angel Fresno Vara, Daniel Castellano. Urothelial cancer proteomics provides both prognostic and functional information. Scientific Reports 7, Article number: 15819 (2017)
Angelo Gámez-Pozo, Lucía Trilla-Fuertes, Julia Berges-Soria, Nathalie Selevsek, Rocío López-Vacas, Mariana Díaz-Almirón, Paolo Nanni, Jorge M Arevalillo, Hilario Navarro, Jonas Grossmann, Francisco Gayá Moreno, Rubén Gómez Rioja, Guillermo Prado-Vázquez, Andrea Zapater-Moros, Paloma Main, Jaime Feliú, Purificación Martínez del Prado, Pilar Zamora, Eva Ciruelos, Enrique Espinosa, Juan Ángel Fresno Vara : Functional proteomics outlines the complexity of breast cancer molecular subtypes. Scientific Reports 7, Article number: 10100 (2017)
Angelo Gámez-Pozo, Julia Berges-Soria, Jorge M Arevalillo, Paolo Nanni, Rocío López Vacas, Hilario Navarro, Jonas Grossmann, Carlos A Castañeda, Paloma Main, Mariana Diaz-Almiron, Enrique Espinosa, Eva Ciruelos, Juan Ángel Fresno Vara: Combined label-free quantitative proteomics and microRNA expression analysis of breast cancer unravel molecular differences with clinical implications. Cancer Research 75: 2243-2253 (2015)
Jorge M. Arevalillo, Hilario Navarro: Exploring correlations in gene expression microarray data for maximum predictive-minimum redundancy biomarker selection and classification. Comp. in Bio. and Med. 43(10): 1437-1443 (2013)
Modelos gráficos probabilísticos: redes bayesianas gaussianas y modelos no paramétricos
M.A. Gómez-Villegas, Paloma Main, Hilario Navarro, R. Susi: Sensitivity to hyperprior parameters in Gaussian Bayesian networks. J. Multivariate Analysis 124: 214-225 (2014)
Traspasando la normalidad multivariante: asimetría y kurtosis
Arevalillo, J.M.; Navarro, H.: New Insights on the Multivariate Skew Exponential Power Distribution. Mathematica Slovaca , 73(2):529-44 (2023)
Arevalillo, J.M.; Navarro, H.: Skewness-Based Projection Pursuit as an Eigenvector Problem in Scale Mixtures of Skew-Normal Distributions. Symmetry , 13, 1056 (2021)
Arevalillo, J.M.; Navarro, H.: Skewness-Kurtosis Model-Based Projection Pursuit with Application to Summarizing Gene Expression Data. Mathematics, 9, 954 (2021)
Arevalillo, J.M., Navarro, H.: Data projections by skewness maximization under scale mixtures of skew-normal vectors. Advances in Data Analysis and Classification https://doi.org/10.1007/s11634-020-00388-6 (2020)
Arevalillo, J.M., Navarro, H.: A stochastic ordering based on the canonical transformation of skew-normal vectors. TEST https://doi.org/10.1007/s11749-018-0583-5 (2018)
Jorge M Arevalillo, Hilario Navarro: A note on the direction maximizing skewness in multivariate skew-t vectors. Statistics & Probability Letters 96. 328-332 (2015)
Main, P.; Arevalillo, J.; Navarro, H.: Local effect of asymmetry deviations from Gaussianity using information-based measures. In Proceedings of the 2nd Int. Electron. Conf. Entropy Appl., 15–30 November 2015; Sciforum Electronic Conference Series, Vol. 2, B002; doi:10.3390/ecea-2-B002 (2015)
M.A. Gómez-Villegas, Paloma Main, Hilario Navarro, R. Susi: Assessing the effect of kurtosis deviations from Gaussianity on conditional distributions. Applied Mathematics and Computation 219(21): 10499-10505 (2013)
Jorge M. Arevalillo, Hilario Navarro: A study of the effect of kurtosis on discriminant analysis under elliptical populations. J. Multivariate Analysis 107: 53-63 (2012)
Tutorización y Evaluación:
La modalidad del curso es "a distancia" y no tiene actividades presenciales obligatorias. La docencia se realiza a través de la plataforma aLF, propia de la UNED. Esto significa que, durante el periodo lectivo, el alumno podrá comunicarse con el profesor y con el resto de compañeros a través de un "curso virtual", en el que, además, dispondrá de una planificación, materiales didácticos complementarios, actividades recomendadas, etc.
La calificación se obtendrá, fundamentalmente, mediante Pruebas de Evaluación a Distancia. Dichas pruebas —el curso consta de tres— consistirán en la resolución de una serie de ejercicios propuestos por el equipo docente, que el alumno recibirá gradualmente a lo largo del curso. La calificación final será Apto/No Apto/No Presentado.
Como complemento al texto base, desde el curso virtual se facilitará el acceso a documentos teórico-prácticos y a conferencias impartidas por profesores y profesionales de prestigio reconocido en distintos ámbitos: medicina, economía, educación, ingeniería, etc. Algunos de los temas que hemos tratado en ediciones anteriores son:
El Análisis Multivariante en sus Comienzos: R.A. Fisher.
Gráficos para el Análisis de Datos.
Aplicaciones de Técnicas Multivariantes en el Sector Financiero.
Introducción a la Metodología Bayesiana.
Iniciación al Software Estadístico: SPSS, S-PLUS y R.
Análisis Discriminante y Clasificación de Observaciones.
Árboles de Regresión y Clasificación.
Introducción a las Redes Bayesianas.
El coste del curso asciende a 812 €. La duración es de un año académico —de Diciembre a Septiembre— y está diseñado para una dedicación correspondiente a 29 créditos ECTS. La superación del mismo da derecho a la obtención del título de Experto Universitario en
Técnicas de Estadística para el Análisis Científico de Datos,
como título propio de la UNED.
El plazo de matrícula establecido para esta edición es
del 5 de septiembre al 28 de noviembre de 2024
El curso está gestionado por la Fundación UNED; aquí encontrará la información necesaria para su matriculación. También podrá obtenerla en los siguientes contactos:
Fundación UNED
C/ Guzmán el Bueno, 133 - Edificio Germania,1ª planta
28003 - Madrid
Teléfonos: +34 913867275 / 1592
Correo electrónico: bsaez@fundacion.uned.es
https://www.fundacion.uned.es
Para solicitar cualquier información adicional puede dirigirse al director del curso.