Aplicaciones en Bioinformática

                Uno de los campos en los que va a desarrollarse más la Estadística en un futuro inmediato es la denominada Bioinformática, disciplina que concierne no sólo a la Estadística sino también a otras áreas de investigación como la Informática  y que ha surgido por el proyecto del Genoma Humano y el rápido avance de la Biotecnología. Una de las primeras características de esta nueva disciplina es el tipo de datos que maneja: secuencias de genomas de muchas especies, micro-ordenaciones (microarrays) de células, polimorfirmos nucleótidos individuales (SNPs), etc.

              Con objeto de comparar dos tipos de células (por ejemplo, células cancerígenas y células sanas), el experimentador extrae el DNA de todas las células disponibles marcando las de un tipo (por ejemplo las cancerígenas) con fluorescencia cy5 (rojo) y las del otro tipo (las sanas) con fluorescencia cy3 (verde). Después, el microarray es expuesto a la mistura de las dos muestras de DNA anteriores por hibridación. Cuando el RNA de un gen es más abundante en la célula cancerígena que en la cálula normal, el array correspondiente a ese gen mostrará un color rojo. El tipo de datos de que dispondremos en un experimento así será  el de vectores de una determinada longitud, r, en donde r es el número de genes en el array, siendo cada uno de los componentes del vector una razón de intensidades de fluorescencias (cy5/cy3). Cuando se comparan más de dos tipos de células, los datos microarrays son matrices de dimensión rxs en donde cada columna corresponde a observaciones asociadas a un tipo de célula (célula linfoma, célula leucémica, célula normal, etc, o a un tratamiento y cada fila corresponde a un gen. Por tanto, este tipo de datos consistirá en secuencias de DNA, en donde observaremos cientos de genes en diferentes tipos de células.

                La cantidad de datos proporcionados por este tipo de experimentos (microarray experiments) es, por tanto, enorme. Primero es necesario realizar un proceso a bajo nivel, también denominado normalización (que no tienen nada que ver con conseguir que aquellos sigan una distribución normal) mediante el cual eliminemos sesgos sistemáticos debidos a condiciones experimentales imperfectas. Este proceso se realiza mediante la utilización de Métodos Robustos, en concreto, mediante la Estimación Robusta de Curvas.