En esta asignatura se impartirán los conceptos básicos para que los investigadores de humanidades puedan realizar investigaciones sobre sus corpora de texto. Estos trabajos de investigación pueden estar relacionados con la minería de textos (text mining), la atribución de autoría y otras cuestiones de interés para los estudios literarios computacionales, así como el procesamiento del lenguaje natural y el modelado de temas (topic modelling). Para ello utilizaremos R o Python (cuando sea necesario desde un punto de vista formativo), ambos lenguajes son de programación libres y gratuitos ampliamente empleados por la comunidad científica en múltiples campos y materias, desde la estadística a la lingüística forense, pasando por la filogénesis, la bioestadística, el análisis político, el marketing, el análisis de ideas, la autoría de fuentes, etc.
La estilometría nos permite el procesamiento automatizado de grandes cantidades de textos con un ordenador y acercarnos a nuevos paradigmas de investigación dentro del close reading o en el distant reading, ofreciéndonos un gran volumen de datos que pueden representarse visualmente, y que pueden ayudar a resolver cuestiones tan interesantes como las distintas manos o autores que intervienen en una obra, descubrir el autor de un texto anónimo, la frecuencia de un determinado tipo de palabras o recursos estilísticos para tratar determinados temas y tópicos, o cuál es la forma que sigue el relato. Es, sin duda, una asignatura con enormes perspectivas dentro de la investigación en el ámbito hispánico de las humanidades
COMPETENCIAS BÁSICAS Y GENERALES
CG1 - Administrar el trabajo en equipos multidisciplinares dedicados al ámbito de las Humanidades Digitales de forma eficiente, abordando los posibles conflictos de manera constructiva.
CG2 - Conocer e identificar las nuevas técnicas y herramientas digitales para su empleo en la práctica profesional e investigadora en el ámbito de las Humanidades Digitales.
CG3 - Describir y aplicar las tecnologías para la gestión y organización de la información y la documentación en el ámbito de las Humanidades Digitales.
CB6 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación
CB7 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
CB8 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
CB9 - Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
CB10 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
COMPETENCIAS ESPECÍFICAS
CE3 - Analizar y formalizar la información con herramientas digitales en el ámbito de las Humanidades Digitales.
CE5 - Desarrollar aplicaciones o proyectos originales e innovadores en el campo de las Humanidades Digitales de carácter profesional e investigador.
CE7 - Aplicar las tecnologías digitales en el tratamiento y la preservación de datos de diferente tipología en el ámbito de las Humanidades Digitales.
CE8 - Conocer y saber aplicar diferentes técnicas y tipos de representación de datos digitales y del resultado de su análisis, en el ámbito de las Humanidades Digitales.
CE9 - Utilizar bases de datos, archivos y centros documentales en línea para su consulta y aplicación a un análisis original y propio en el ámbito de las Humanidades Digitales.
Archer, Jodie & Matthew L. Jockers (2016). The Bestseller Code. Penguin Books, 2017.
Blatt, Ben (2017). Nabokov’s Favorite Word is Mauve: What the Numbers Reveal about the Classics, Bestsellers, and Our Own Writing. Londres: Simon & Schuster.
Booker, Christopher (2004). The Seven Basic Plots. Why we tell stories. Londres: Bloomsbury, 2017.
Burrows, John (2002). «‘Delta’: A Measure of Stylistic Difference and a Guide to Likely Authorship». Literary and Linguistic Computing, 17:3, 267 –287.
Calvo Tello, José & Juan Cerezo Soler (2018). «La conquista de Jerusalén ¿de Cervantes? Análisis estilométrico sobre autoría en el teatro del Siglo de Oro español». Digital Humanities Quarterly, 12: 1, 1–10. Accesible en línea
Eder, Maciej (2013). «Mind your corpus: systematic errors in authorship attribution». Literary and Linguistic Computing, 28:4, 603–614.
Eder, Maciej (2015). «Does size matter? Authorship attribution, small samples, big problem». Digital Scholarship in the Humanities, 30:2, 167–182.
Eder, Maciej (2017a). «Short samples in authorship attribution¿: a new approach». Digital Humanities 2017. Conference abstracts. McGill University & Université de Montréal. August 8-11, 2017.
Eder, Maciej (2017b). «Visualization in stylometry: Cluster analysis using networks». Digital Scholarship in the Humanities 32:1, 50–64.
Eder, Maciej & Jan Rybicki (2013). «Do birds of a feather really flock together, or how to choose training samples for authorship attribution». Digital Scholarship in the Humanities, 28: 2, 229–236.
Eder, Maciej et al. (2016). «Stylometry with R: A Package for Computational Text Analysis». The R Journal, 8:1, 107-121.
Evert, Stefan et al. (2017). «Understanding and explaining Delta measures for authorship attribution». Digital Scholarship in the Humanities, 32: June 2017, ii4–ii16.
Fradejas Rueda, José Manuel (2016). «Lingüística forense y crítica textual. El caso Ayala–Cervantes», Signa, 25, 193-220. DOI: httpss://doi.org/10.5944/signa.vol25.2016.16927
Fradejas Rueda, José Manuel (2016). «El análisis estilométrico aplicado a la literatura española: las novelas policiacas e históricas», Caracteres 5:2, 196-245. Accesible en línea.
Fradejas Rueda, José Manuel (2019). «Estilometría y la Edad Media castellana», en Nanette Rissler-Pipka (ed.), Theorien von Autorschaft und Stil in Bewegung: Stilistik und Stilometrie in der Romania, (Romanische Studien, Beiheft 6). Múnich: AVM.edition, 49-74. Accesible en línea.
Fradejas Rueda, José Manuel (2020). Cuentapalabras. Valladolid: Universidad. Accesible en línea.
Gago Jover, Francisco (ed.) (2015). «Comedia de Calisto y Melibea [Burgos: Fadrique de Basilea, 1499]», en Textos tempranos de Celestina. Digital Library of Old Spanish Texts. Hispanic Seminary of Medieval Studies. Accesible en línea.
García-Reydi, Alejandro (2019). «Deconstructing the Authorship of Siempre ayuda la verdad: A Play by Lope de Vega?», Neophilologus 103:4 (octubre), 493-510. DOI: httpss://doi.org/10.1007/s11061-019-09607-8
Hernández Lorenzo, Laura (2019a). «Fernando de Herrera y la autoría de Versos. Un primer acercamiento al drama textual desde la Estilometría», en Nanette Rissler-Pipka (ed.), Theorien von Autorschaft und Stil in Bewegung: Stilistik und Stilometrie in der Romania, (Romanische Studien, Beiheft 6). Múnich: AVM.edition, 75–90. Accesible en línea
Hernández-Lorenzo, Laura (2019b). «Poesía áurea, estilometría y fiabilidad: métodos supervisados de atribución de autoría atendiendo al tamaño de las muestras». Caracteres. Estudios culturales y críticos de la esfera digital, 8:1, 189-228. Accesible en línea
Hernández-Lorenzo, Laura (2022). «Stylistic Change in Early Modern Spanish Poetry Through Network Analysis (with an Especial Focus on Fernando de Herrera’s Role)». Neophilologus, 106, 397-417. DOI: httpss://doi.org/10.1007/s11061-021-09717-2
Hernández-Lorenzo, Laura (2022). La prosa de Gustavo Adolfo Bécquer en los límites de la poesía: Análisis estilométrico. apropos. Perspektiven auf die Romania, 9, 37-56. DOI: httpss://doi.org/10.15460/apropos.9.1875
Hernández-Lorenzo, Laura & Joanna Byszuk (2022). «Challenging Stylometry: The authorship of the baroque play La Segunda Celestina». Digital Scholarship in the Humanities. DOI: httpss://doi.org/10.1093/llc/fqac063
Jockers, Matthew L. (2013). Macroanalysis. Digital Methods and Literary History. Urbana: University of Illinois.
Jockers, Matthew L. (2014). Text Analysis with R for Students of Literature. Springer. Versión en línea, cerrada.
Jockers, Matthew L. (2015). «Syuzhet: Extract Sentiment and Plot Arcs from Text». Librería de R.
Kestemont, Mike (2014). «Function Words in Authorship Attribution. From Black Magic to Theory?» 3rd Workshop on Computational Linguistics for Literature (CLfL 2014) (January 2014), 59–66. https://aclweb.org/anthology//W/W14/W14-09.pdf
Kestemont, Mike et al. (2015). «Collaborative Authorship in the Twelfth Century: A Stylometric Study of Hildegard of Bingen and Guibert of Gembloux». Digital Scholarship in the Humanities, 30:2, 199-224.
Lutos¿awski, Wicenty (1898). «Principes de stylométrie appliqués à la chronologie des œuvres de Platon», Revue des Études Grecques, 11/41, 61-81.
Martínez, Guillermo (2019). Los crímenes de Alicia. Barcelona: Destino.
McEvoy, Brian et al. (2004). «The Longue Durée of genetic ancestry: multiple genetic marker systems and Celtic origins on the Atlantic facade of Europe», AJHG, 75:4 (octubre), 693-702. Accesible en línea.
Mendenhall, T. C. (1901). «A Mechanical solution of a literary problem», Popular Science Monthly 60 (diciembre), 97-105. Accesible en línea.
Mohammad, Saif (2011). «From Once Upon a Time to Happily Ever After: Tracking Emotions in Novels and Fairy Tales», en Proceedings of the ACL Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH) 2011, Portland. Accesible en línea
Mostaller, Frederick & David L. Wallace (1964). Inference and Disputed Authorship: The Federalist. Reading: Addison-Wesley.
Navaro Durán, Rosa (2019). María de Zayas y otros heterónimos de Castillo Solórzano. Barcelona: Universidad de Barcelona.
Orejudo, Antonio (2011). Un momento de descanso. Barcelona: Tusquets.
Pang, Bo & Lillian Lee (2008). «Opinion mining and sentiment analysis», Foundations and Trends in Information Retrieval, 2/1-2, 1-135. Accesible en línea.
Plutchik, Robert (1980). «A General psychoevolutionary theory of emotion», en Theories of Emotion, Academic Press, 3-33.
Rojo, Guillermo (2017). «Sobre la configuración estadística de los corpus textuales», Lingüística, 33/1, DOI: https://dx.doi.org/10.5935/2079-312x.20170008
Rumsey, Deborah J. (2013). Estadística para Dummies. Barcelona: Grupo Planeta.
Saiz, María et al. (2019). «Genetic structure in the paternal lineages of South East Spain revealed by the analysis of 17 Y-STRs», Scientific Reports 9, 5234. doi:10.1038/s41598-019-41580-9
Silge, Julia & David Robinso (2017). Text Mining with R: A Tidy Approach. Sebastopol: O’Reilly. Versión en línea.
Torruellla, Joan & Ramon Capsada (2013). «Lexical Statistics and Tipological Structures: A Measure of Lexical Richness», Procedia - Social and Behavioral Sciences, 95, 447-454. DOI: httpss://doi.org/10.1016/j.sbspro.2013.10.668
Vélez, Jorge Iván & Fernando Marmolejo-Ramos (2016). «Los secretos de Cien años de soledad: una aproximación estilomtérica para la investigación e psicolingüística», Revista Colombiana de Psicología, 25/2, 265-288. DOI: httpss://doi.org/10.15446/rcp.v25n2.50742
Winter, Bodo (2019). Statistics for Linguistics. An Introduction using R. New York: Routledge.