ERRORES MÁS FRECUENTES
La correlación entre
dos mitades paralelas de un test NO es el coeficiente de fiabilidad
del test sino el coeficiente de fiabilidad de un test compuesto por n/2
elementos.
El coeficiente
de determinación de un test NO es igual al coeficiente de
fiabilidad del criterio al cuadrado sino a la correlación al cuadrado
entre las puntuaciones de los sujetos en el criterio y las puntuaciones
pronosticadas en el criterio mediante la recta de regresión:
donde
se debe de leer
como la correlación entre las puntuaciones en el criterio y las
puntuaciones pronosticadas en el mismo mediante la recta de regresión,
no como el coeficiente de fiabilidad del criterio, a pesar de que la
notación es la misma.
Si la fiabilidad
del test y del criterio son perfectas, la validez del test para pronosticar
el criterio NO tiene porqué ser también perfecta.
EXPLICACIÓN:
La validez de un test depende de:
-
la relación intrínseca que exista entre dicho test y el
criterio que se desea pronosticar.
Supongamos que se puede medir sin error la introversión y las
preferencias políticas de los sujetos.
Nunca obtendremos un coeficiente de validez perfecto -ni siquiera
alto- que nos permita hacer buenos pronósticos de las preferencias
políticas de un sujeto, a partir del conocimiento de su introversión:
si dos variables no están relacionadas, por mucho que las midamos
sin error no podremos predecir una a partir de la otra.
-
la precisión con la que se mida el criterio y la variable que
evalúa el test.
Cuando es baja la fiabilidad con la que se mide una variable, eso significa
que una gran parte de la variabilidad de las puntuaciones se debe al error
y no a la característica que estamos evaluando. Dado que el error
es aleatorio, si correlacionamos dos variables medidas de forma poco precisa
obtendremos un valor para dicha correlación más bajo de lo
esperable, puesto que el componente aleatorio de las variables no contribuye
a la correlación.
Supongamos que se desea predecir el rendimiento académico de
los alumnos al finalizar la educación obligatoria a partir de su
cociente intelectual (CI), pero el coeficiente de fiabilidad de ambas variables
es menor que 0'50. En este caso, obtendremos un coeficiente de validez
más bajo del real (se entiende por real el que expresa la
relación intrínseca o verdadera entre ambas variables), debido
a la magnitud de los errores de medida en test y criterio.
Cuando el número
de ítems de un test es pequeño y además impar, NO
es conveniente utilizar un método basado en dos mitades.
EXPLICACIÓN:
En esas circunstancias, resultaría muy difícil obtener
mitades paralelas o sencillamente tau-equivalentes (supuesto realizado
por estos métodos), máxime cuando el número total
de ítems del cuestionario es pequeño.
En efecto, si la prueba consta de 99 ítems puede ser irrelevante
que una mitad conste de 50 y la otra de 49, siempre que los ítems
sean paralelos. Sin embargo, si la prueba consta de 5 ítems, las
dos mitades (3/2) estarán bastante más desequilibradas que
en el caso anterior. En estas circunstancias, la mejor forma de proceder
sería calcular el coeficiente alfa.
Los métodos basados en dos mitades se pueden utilizar cuando
el número de items del cuestionario es par y resulta aconsejable
también disponer de un número elevado de elementos (en tal
caso, puede ser más fácil obtener mitades equivalentes).
Para determinar si se puede
utilizar -o no- la información proporcionada por un test para predecir
un criterio es necesario obtener un coeficiente de fiabilidad alto para
el test.
Esta afirmación es INCORRECTA.
En efecto, podemos medir con una gran precisión la estatura de
las personas, pero NUNCA podremos utilizar esta variable para predecir
con éxito su inteligencia.
El coeficiente de fiabilidad solo nos indica la precisión con
la que el test mide lo que en principio está diseñado para
medir pero, solo si lo que mide el test está relacionado
con el criterio que se desea conocer, se puede utilizar el test para predecir
el criterio: por muy alta que sea la fiabilidad de la prueba, si lo que
ésta mide no tiene nada que ver con el criterio a pronosticar, nunca
podremos utilizar con éxito el test para predecir el criterio. Se
trata de un problema de VALIDEZ, no de fiabilidad: no basta con medir con
precisión una variable, es fundamental que ésta se relacione
con la variable que deseamos conocer para poder hacer pronósticos.
Una cosa es el error de
estimación en el criterio de un sujeto y otra bien distinta el error
típico de estimación del criterio:
-
el error de estimación en el criterio es una medida INDIVIDUAL del
error y se define para cada sujeto como:
-
el error típico de estimación es una medida COLECTIVA del
error y se define para cada muestra de sujetos como:

Un eneatipo NUNCA
puede ser un valor decimal: la escala de eneatipos solo tiene nueve valores
posibles y son valores enteros (de 1 a 9).
La FORMA CORRECTA DE PROCEDER es redondear el valor decimal
obtenido al número entero más próximo .
Si una variable se
distribuye de forma normal, la escala típica .lineal y la escala
típica normalizada son idénticas.
Por tanto, si se desea expresar la puntuación de un sujeto en
la escala de eneatipos, no es necesario normalizar la distribución
de frecuencias y el eneatipo se puede calcular aplicando la siguiente fórmula:
Si la distribución de puntuaciones es normal ¿qué
sentido tiene normalizar la distribución?
Para calcular un eneatipo
hay que multiplicar la puntuación típica (NO la proporción
asociada a esa puntuación típica) por 2, sumar 5 y redondear
al valor entero más próximo:
y no 
Un ítem está
sesgado si la media obtenida en el mismo por distintos grupos de sujetos
es diferente.
Esta afirmación es INCORRECTA.
Supongamos que se construye una prueba para medir el rendimiento en
Matemáticas y que ésta se administra a dos muestras distintas:
una de alumnos del primer curso de la ESO y otra de alumnos del último
curso de la ESO.
En buena lógica, los alumnos del último curso obtendrán
(o eso sería lo previsible) una media más alta que la de
los alumnos del primer curso ya que se supone que sus conocimientos de
Matemáticas son sustancialmente mayores que los de los alumnos de
primero. El hecho de obtener distintas medias no indica que el ítem
está sesgado contra los alumnos de primero sino sencillamente que
el nivel de los alumnos del último curso en la variable que mide
el test -rendimiento en Matemáticas- es más alto que el de
los alumnos de primero.
Solamente se puede hablar de sesgo si, una vez igualados los sujetos
de los dos grupos examinados en la variable que mide la prueba, persisten
las diferencias entre ambos grupos: la comparación directa
de la media de los dos grupos nunca puede ser considerada como evidencia
de sesgo.
Ningún coeficiente
de correlación puede ser superior a la unidad en valor absoluto.
Esto significa que ni:
-
el coeficiente de fiabilidad del test
-
el índice de fiabilidad del test
-
el coeficiente de validez del test
-
el índice de discriminación del ítem
pueden ser mayores que uno.
El coeficiente beta
es una estimación del coeficiente alfa cuando hay que determinar
la fiabilidad de una batería de tests y éstos tienen distinta
longitud.
No obstante, en esa situación, también es
posible utilizar el coeficiente alfa. Veamos cómo.
Supongamos una batería formada por tres tests:
-
el test A con 20 ítems
-
el test B con 30 ítems
-
el test C con 25 ítems.
Para estimar la fiabilidad de esta batería se puede
proceder de dos formas distintas:
-
determinar el valor del coeficiente beta
-
determinar el valor del coeficiente alfa:

donde n=20+30+25 y no igual a 3 (esto sería correcto
solo si los tres tests tuvieran la misma longitud).
No se puede estudiar la
fiabilidad de un instrumento que mida un constructo de naturaleza cambiante.
Esta afirmación es INCORRECTA.
Sí se puede estudiar la fiabilidad de un instrumento que mida
un constructo de naturaleza cambiante, ahora bien, no con cualquier método.
De hecho, podríamos estimar la fiabilidad del instrumento con
cualquier método que requiera un única aplicación
de la prueba (métodos basados en la división del test en
dos mitades o métodos basados en la covarianza de los ítems)
pero nunca con un método que requiera dos administraciones
de la prueba (test-retest o formas paralelas).
En efecto, si el constructo que mide la prueba es de naturaleza cambiante,
eso significa que puede variar legítimamente de una ocasión
a otra. Cuando utilizamos el método del test-retest o el de las
formas paralelas, estamos asumiendo que los cambios operados en las puntuaciones
obtenidas en las dos ocasiones se deben a variaciones aleatorias
en los sujetos y no a variaciones en su nivel en el rasgo o constructo
que está midiendo el test.
En un escalograma de Guttman
el número de errores NUNCA puede ser impar, ya que el número
de errores se define como el número de cambios que hay que hacer
en el patrón empíricamente obtenido tras aplicar la escala
para obtener el patrón ideal. Obviamente, si hay que cambiar el
valor A por el valor B necesariamente habrá que cambiar a su vez
el valor B por el valor A: el número de errores no es el número
de unos o ceros descolocados sino el número de cambios a introducir
en el patrón empírico para obtener el patrón ideal.
No existe un ÚNICO
patrón ideal estándar, adecuado para todas las matrices de
datos sino que, para cada matriz de datos obtenida empíricamente
tras administrar una prueba a una muestra de sujetos, existe su correspondiente
patrón ideal.
¿Cómo se determina el patrón ideal correspondiente
a un determinado patrón empírico, a la matriz de datos obtenida
empíricamente tras administrar una prueba a una muestra de sujetos?
Calculando el patrón ideal de respuesta de cada sujeto de dicha
matriz empírica.
¿Cómo se calcula el patrón ideal de respuesta de
un sujeto al que se ha administrado una prueba? Supongamos que la prueba
consta de 10 preguntas y que las respuestas de este sujeto han sido las
siguientes: 1101111010.
-
Se determina su valor escalar, es decir, el número de items con
los que se ha mostrado de acuerdo (o el número de items que ha respondido
correctamente).
En el ejemplo el valor escalar de este sujeto sería 7.
-
Se determina el patrón ideal a partir del valor escalar del sujeto.
Cuando los datos se ajustan al modelo de Guttman, el valor escalar
del sujeto no solo indica el número de items que el sujeto ha respondido
correctamente sino a cuáles ha respondido correctamente y a cuáles
incorrectamente.
En el ejemplo, el valor escalar del sujeto es 7, esto es, ha respondido
correctamente a 7 ítems o preguntas. Ahora bien, si los datos se
ajustan perfectamente al modelo de Guttman, no habrá respondido
correctamente a 7 ítems cualesquiera sino a los siete primeros ítems
de la prueba. Por tanto, el patrón ideal de este sujeto sería
1111111000.
En un diferencial semántico,
la puntuación factorial se define como la MEDIA (no la suma)
de las puntuaciones escalares que definen el factor en cuestión.
En la Unidad Didáctica
Métodos de elaboración de escalas se denomina índice
de homogeneidad de un ítem a lo que en el texto Teoría
clásica de los tests se denominaba índice de discriminación:
Indice de homogeneidad = Indice de discriminación
= rj(X-j)