noticia
¿Razonan realmente las inteligencias artificiales? Un estudio de la UNED pone a prueba sus límites
Investigadores del Departamento de Lenguajes y Sistemas Informáticos de la UNED, Eva Sánchez, Guillermo Marco y Julio Gonzalo han publicado un artículo titulado Sobre los límites del razonamiento en LLM: evidencia de contaminación, traducción y modificación de respuestas en pruebas de opción múltiple. El trabajo propone una metodología innovadora para separar de forma sistemática dos capacidades que a menudo se confunden en la evaluación de la inteligencia artificial: recordar respuestas vistas previamente y razonar mediante la eliminación de alternativas incorrectas.
Del buscador a la IA: una confianza que conviene matizar

Esta investigación se produce en un escenario en el que millones de usuarios han sustituido el buscador tradicional por sistemas conversacionales. Para Eva Sánchez, una de las autoras del estudio, este cambio tiene implicaciones importantes.
“Cuando se usa un chatbot (ChatGPT, Gemini, Claude, etc.) para consultas que antes se hacían en un buscador, la respuesta puede generarse de dos maneras”, explica. “O bien el modelo contesta con la información que recuerda de su entrenamiento, o bien consulta internet antes de responder”.
En el primer caso, advierte, el sistema no tiene acceso a información reciente y es más propenso al error si la actualidad es relevante. En el segundo, el proceso es más fiable, pero no infalible. “Aunque sigue siendo posible que se invente la respuesta, es mucho más probable que sea correcta”, señala.
La ventaja frente al buscador clásico es evidente: la IA no solo localiza fuentes, sino que las selecciona y sintetiza. Pero esa misma capacidad introduce un riesgo añadido.
“Al mismo tiempo que es más avanzada, es menos fiable: si la veracidad de la respuesta es crítica, siempre hay que comprobarla”.
Benchmarks públicos: cuando el examen ya estaba estudiado
Uno de los ejes centrales del estudio es la crítica a los sistemas actuales de evaluación. Los benchmarks —conjuntos de preguntas y respuestas usados para medir el rendimiento de los modelos— suelen ser públicos y ampliamente difundidos.
Eva lo explica con una metáfora sencilla:
“Cuando los datos son públicos, el modelo es como un estudiante que ha visto las respuestas antes de examinarse. La evaluación mide su capacidad de memorizarlas, no su conocimiento real de la asignatura”.
Este fenómeno, conocido como data contamination, hace que los altos resultados en pruebas estándar no sean necesariamente una garantía de comprensión. Por eso, el estudio combina benchmarks públicos, como MMLU, con conjuntos privados diseñados por la UNED que los modelos no han podido ver durante su entrenamiento.
¿Piensan igual en español que en inglés?
El trabajo también aborda la generalización entre idiomas, una cuestión clave para contextos educativos y administrativos no anglófonos. Los resultados muestran una tendencia consistente:
“En todos nuestros experimentos encontramos una mayor fiabilidad en inglés que en español, aunque la diferencia varía mucho entre modelos y áreas de conocimiento”, señala la investigadora.
En los sistemas más avanzados la brecha se reduce, pero sigue siendo significativa en ciertas áreas. Además, hay un patrón claro:
“En disciplinas relacionadas con la cultura y la sociedad española, como derecho o geografía de España, todos los modelos tienden a contestar bastante peor”.
El hallazgo subraya que la fluidez lingüística no equivale a comprensión contextual profunda.
Cuando la respuesta correcta desaparece
El eje central de la investigación es la reformulación NOTO. En lugar de ofrecer la respuesta correcta entre las opciones, esta se sustituye por “Ninguna de las otras respuestas”. El efecto es inmediato.
“Responder a una pregunta de opción múltiple puede hacerse por simple reconocimiento de patrones”, explica Eva. “Pero sustituir la respuesta correcta por ‘ninguna de las otras’ obliga a comprobar que todas las demás opciones son incorrectas”.
Ese proceso exige un razonamiento eliminativo, más cercano al humano. Y ahí los modelos fallan.
“Las caídas de rendimiento son muy grandes, lo que sugiere que en muchos casos aparentan razonar, pero solo están reconociendo patrones familiares”, sentencia la experta. Incluso los modelos que lideran los rankings habituales suspenden. La conclusión es contundente: los benchmarks tradicionales pueden estar sobrestimando la capacidad real de razonamiento de la IA.
Más allá del tamaño: cómo mejorar el razonamiento artificial
Frente a la idea dominante de que la solución pasa por modelos cada vez más grandes, el estudio apunta en otra dirección.
“Nuestros resultados indican que no basta con hacer modelos más grandes”, afirma Eva. “Se necesitan estrategias de entrenamiento avanzadas, como el aprendizaje por refuerzo con recompensas verificables”.
Pero la mejora no depende solo del entrenamiento. También exige cambiar la forma de evaluar. “Es necesario repensar cómo medimos lo que los modelos realmente entienden, incorporando pruebas menos predecibles y más cercanas al uso real”.
El mensaje final del estudio es tan técnico como relevante para el público general: acertar no siempre significa entender. Y distinguir entre ambas cosas será crucial en una sociedad que delega cada vez más decisiones —académicas, profesionales y cotidianas— en sistemas de inteligencia artificial.
