Análisis de Componentes Principales
El Análisis de Componentes Principales es un Método Estadístico que fue propuesto por Pearson (1901), y de forma independiente también por Hotelling (1933), y que consiste en describir la variación producida por la observación de p variables aleatorias X_i, en términos de un conjunto de nuevas variables incorreladas entre sí (denominadas Componentes Principales), cada una de las cuales sea combinación lineal de las variables originales.
Estas nuevas variables son obtenidas en orden de importancia, de manera
que la primera componente principal incorpora la mayor cantidad posible
de variación debida a las variables originales; la segunda componente
principal se elige de forma que explique la mayor cantidad posible de
variación que resta sin explicar por la primera componente principal,
sujeta a la condición de ser incorrelada con la primera componente
principal, y así sucesivamente.
Es decir, si representamos por CP_1, CP_2, ..., a las componentes
principales a determinar a partir de las p variables originales,
podemos llegar a determinar hasta p componentes principales, de manera
que sea
a) Var(CP_1) > Var(CP_2) > ... > Var(CP_p)
b) Correlación(CP_i,CP_j)=0 para todo par de
componentes.
c) V(CP_1)+ V(CP_2)+...+V(CP_p)= V(X_1)+V(X_2)+...+V(X_p)
El propósito del Análisis de Componentes Principales es ver si
las dos o tres primeras componentes principales
reúnen ya la mayor parte de la variación producida por las p variables
originales puesto que, de ser así,
considerando sólo estas dos o tres primeras, reduciremos
la dimensionalidad de los datos al considerar únicamente dos o tres
variables en lugar de p, y apenas perderemos información relevante.
Un ejemplo muy simple puede ser el de querer resumir la información obtenida al observar
en los individuos de la muestra las variables Sueldo Anual, Rendimientos
Patrimoniales, etc., las primeras componentes principales nos
darán un resumen de las variables observadas (en forma de
combinaciones lineales de variables originales) y, al ser incorreladas,
discriminarán mejor a los
individuos de la muestra en razón de sus características
económicas.
En el campo de la Biología, diversas variables observadas en los
animales se pueden reducir a unas pocas con el Análisis de Componentes
Principales. Aquí, la primera componente principal suele estar
relacionada con el tamaño y la segunda con la forma
de los animales.
En el campo de la Psiquiatría, la primera componente principal obtenida
tras el estudio de determinadas variables clínicas en pacientes
psiquiátricos, suele estar relacionada con la severidad de los
síntomas y la segunda componente principal con pautas seguidos
por éstos.
Y no siempre son las primeras componentes principales las de interés;
veremos
en este capítulo como podemos identificar datos anómalos, en un conjunto de
observaciones multivariantes, con la ayuda de las últimas componentes
principales.
En algunos casos, la obtención de las componentes principales
es el propósito del
estudio, como ocurría en los ejemplos anteriores, pero en muchas
ocasiones suele
ser el medio de reducir el número de variables originales para
realizar después un Análisis Estadístico determinado, como por
ejemplo
una Regresión Lineal Múltiple en la que originalmente habían sido
consideradas muchas covariables; esta segunda posibilidad es
especialmente útil si las variables originales están fuertemente
correladas. (De hecho, si éstas fueran
incorreladas ellas serían ya las componentes principales.)
No obstante, hacemos la observación de que, en Regresión, unas variables
son independientes y otra (u otras) dependientes; en el Análisis de
Componentes Principales todas la variables tienen la misma
consideración.