Introducción y características del Data Mining

A pesar de la la gran difusión que este nombre ha adquirido en los últimos tiempos y aunque existen algunos aspectos específicos de lo que se ha venido denominado Data Mining, las técnicas que bajo este nombre se aplican, no son habitualmente novedosas ya que, la mayoría de ellas, han sido desarrolladas con anterioridad a la aparición de este término, en ocasiones denominado Minería de datos y que, en la mayoría de las ocasiones aunque no siempre, consistirá básicamente en un Análisis de Datos Multivariantes viniendo éstos recogidos en una matriz de datos de dimensión  n  por  p , en donde, como siempre, las  n  filas de esta matriz corresponden a los  n  individuos en los que se han observado  p variables.

Lo peculiar del Data Mining es que estas bases de datos son, por un lado, de tamaño gigantesco y, por otro, habitualmente, formadas por observaciones que no han sido obtenidas de forma aleatoria.

Así, son habitual objeto de aplicación de los métodos del Data Mining, las transacciones electrónicas, bien sean de tipo bursátil, o de datos bancarios, o producidas por tarjetas de crédito, o los grandes registros gubernamentales tales como los registros de tumores o, en otro campo de aplicación, las imágenes astronómicas o, recientemente, las bases de datos genéticos, o incluso un conjunto de documentos de texto puede ser considerado también como parte de una matriz de datos en donde la fila  i-ésima representa un documento determinado y, la columna j-ésima, una palabra de dicho documento, siendo el dato (i,j) el número de veces que aparece la palabra j-ésima en el documento i-ésimo.

Todas estas bases de datos suministran, en muchas ocasiones, cientos de miles de observaciones de donde se pretende extraer información útil, tal como encontrar relaciones escondidas, resumir los datos en una forma lo más simple posible, etc. Es decir, en suma, realizar un Análisis de Datos, pero en donde el número de éstos es tan grande que no es fácil realizar un Análisis de Datos habitual.

Como dijimos más arriba, un característica que suele presentarse con frecuencia en el Data Mining (aunque no siempre) es que los datos que se manejan no suelen haber sido extraídos de forma aleatoria, por lo que en Data Mining se suele hablar de datos observacionales en lugar de datos experimentales.

Una consecuencia de esto y de su gran volumen es cómo determinar su representatividad de la población de donde fueron obtenidos, de manera que podamos aplicar técnicas de Inferencia Estadística. Por eso, en muchas ocasiones, el Data Mining se limita a un estudio propio de la Estadística Descriptiva, no suponiendo ninguna distribución de probabilidad subyacente.

Lógicamente, dado el gran volumen de datos, el uso del ordenador se convierte en una herramienta muy valiosa en el Data Mining. Y, tanto es así, que la estructura de esta técnica ha sido realizada, principalmente, por informáticos que han utilizado algunos Métodos de la Estadística, pero que han desarrollado un armazón y una terminología propia de ellos, la cual seguiremos en muchas partes de este capítulo con objeto de que el lector pueda identificar los elementos habituales del Data Mining.