Introducción y características del Data Mining
A pesar de la la gran difusión
que este nombre ha adquirido en los últimos tiempos y aunque existen algunos
aspectos específicos de lo que se ha venido denominado Data Mining, las
técnicas que bajo este nombre se aplican, no son habitualmente novedosas ya que,
la mayoría de ellas, han sido desarrolladas con anterioridad a la aparición de
este término, en ocasiones denominado Minería de datos y que, en la
mayoría de las ocasiones aunque no siempre, consistirá básicamente en un
Análisis de Datos Multivariantes viniendo éstos recogidos en una matriz de datos
de dimensión n por p , en donde, como siempre,
las n filas de esta matriz corresponden a los n
individuos en los que se han observado p variables.
Lo peculiar del Data Mining es que estas bases de datos son, por un lado, de
tamaño gigantesco y, por otro, habitualmente, formadas por observaciones que
no han sido obtenidas de forma aleatoria.
Así, son habitual objeto de aplicación de los métodos del Data Mining, las
transacciones electrónicas, bien sean de tipo bursátil, o de datos bancarios, o
producidas por tarjetas de crédito, o los grandes registros gubernamentales
tales como los registros de tumores o, en otro campo de aplicación, las imágenes
astronómicas o, recientemente, las bases de datos genéticos, o incluso un
conjunto de documentos de texto puede ser considerado también como parte de una
matriz de datos en donde la fila i-ésima representa un documento
determinado y, la columna j-ésima, una palabra de dicho documento, siendo
el dato (i,j) el número de veces que aparece la palabra j-ésima en
el documento i-ésimo.
Todas estas bases de datos
suministran, en muchas ocasiones, cientos de miles de observaciones de donde se
pretende extraer información útil, tal como encontrar relaciones escondidas,
resumir los datos en una forma lo más simple posible, etc. Es decir, en suma,
realizar un Análisis de Datos, pero en donde el número de éstos es tan grande
que no es fácil realizar un Análisis de Datos habitual.
Como dijimos más arriba, un característica que suele presentarse con frecuencia
en el Data Mining (aunque no siempre) es que los datos que se manejan no suelen
haber sido extraídos de forma aleatoria, por lo que en Data Mining se suele
hablar de datos observacionales en lugar de datos experimentales.
Una consecuencia de esto y de su gran volumen es cómo determinar su
representatividad de la población de donde fueron obtenidos, de manera que
podamos aplicar técnicas de Inferencia Estadística. Por eso, en muchas
ocasiones, el Data Mining se limita a un estudio propio de la Estadística
Descriptiva, no suponiendo ninguna distribución de probabilidad subyacente.
Lógicamente, dado el gran volumen de datos, el uso del ordenador se convierte en
una herramienta muy valiosa en el Data Mining. Y, tanto es así, que la
estructura de esta técnica ha sido realizada, principalmente, por informáticos
que han utilizado algunos Métodos de la Estadística, pero que han desarrollado
un armazón y una terminología propia de ellos, la cual seguiremos en muchas
partes de este capítulo con objeto de que el lector pueda identificar los
elementos habituales del Data Mining.