Análisis de Componentes Principales

El  Análisis de Componentes Principales es un Método Estadístico que fue propuesto por Pearson (1901), y de forma independiente también por Hotelling (1933), y que consiste en describir la variación producida por la observación de p variables aleatorias X_i, en términos de un conjunto de nuevas variables incorreladas entre sí (denominadas Componentes Principales), cada una de las cuales sea combinación lineal de las variables originales.

Estas nuevas variables son obtenidas en orden de importancia, de manera que la primera componente principal incorpora la mayor cantidad posible de variación debida a las variables originales; la segunda componente principal se elige de forma que explique la mayor cantidad posible de variación que resta sin explicar por la primera componente principal, sujeta a la condición de ser incorrelada con la primera componente principal, y así sucesivamente.

Es decir, si representamos por CP_1, CP_2, ..., a las componentes principales a determinar a partir de las p variables originales, podemos llegar a determinar hasta p componentes principales, de manera que sea

 a)   Var(CP_1) > Var(CP_2) > ... > Var(CP_p)

 b)   Correlación(CP_i,CP_j)=0  para todo par de componentes.

 c)    V(CP_1)+ V(CP_2)+...+V(CP_p)=  V(X_1)+V(X_2)+...+V(X_p)

El propósito del Análisis de Componentes Principales es ver si las dos o tres primeras componentes principales reúnen ya la mayor parte de la variación producida por las p variables originales puesto que, de ser así, considerando sólo estas dos o tres primeras, reduciremos la dimensionalidad de los datos al considerar únicamente dos o tres variables en lugar de p, y apenas perderemos información relevante.

Un ejemplo muy simple puede ser el de querer resumir la información obtenida al observar en los individuos de la muestra las variables Sueldo Anual, Rendimientos Patrimoniales, etc., las primeras componentes principales nos darán un resumen de las variables observadas (en forma de combinaciones lineales de variables originales) y, al ser incorreladas, discriminarán mejor a los individuos de la muestra en razón de sus características económicas.

En el campo de la Biología, diversas variables observadas en los animales se pueden reducir a unas pocas con el Análisis de Componentes Principales. Aquí, la primera componente principal suele estar relacionada con el  tamaño  y la segunda con la   forma  de los animales.

En el campo de la Psiquiatría, la primera componente principal obtenida tras el estudio de determinadas variables clínicas en pacientes psiquiátricos, suele estar relacionada con la  severidad de los síntomas y la segunda componente principal con  pautas seguidos por éstos.

Y no siempre son las primeras componentes principales las de interés; veremos en este capítulo como podemos identificar datos anómalos, en un conjunto de observaciones multivariantes, con la ayuda de las últimas componentes principales.

En algunos casos, la obtención de las componentes principales es el propósito del estudio, como ocurría en los ejemplos anteriores, pero en muchas ocasiones suele ser el medio de reducir el número de variables originales para realizar después un Análisis Estadístico determinado, como por ejemplo una Regresión Lineal Múltiple en la que originalmente habían sido consideradas muchas covariables; esta segunda posibilidad es especialmente útil si las variables originales están fuertemente correladas. (De hecho, si éstas fueran incorreladas ellas serían ya las componentes principales.) No obstante, hacemos la observación de que, en Regresión, unas variables son independientes y otra (u otras) dependientes; en el Análisis de Componentes Principales todas la variables tienen la misma consideración.