Para ser sinceros, he de decir que cada vez me apasiona más este campo desde que completé mi curso de SAS en la Complutense. Antes de realizar el curso tuve forzosamente que leer y consultar muchos manuales tanto de estadística descriptiva (el de Peña es muy bueno) como de minería de datos (sería difícil escoger, pero me quedo con el de César Pérez) para prepararme y poder afrontar el curso con ciertas garantías. Y cuanto más leía más me gustaba. Es como si los números nos hablaran y nos susurraran relaciones entre variables que antes pasaban completamente desapercibidas, sintiendo, por un momento, el placer de descubrir lo secreto.
Hace unos pocos años la mayoría de los análisis estadísticos todavía se realizaban a mano. Hoy tenemos la suerte de contar con potentes programas informáticos que nos ayuden en esta tarea. Algunos de ellos son muy intuitivos y fáciles de manejar con tal de que el analista tenga unos conocimientos mínimos de estadística y domine la herramienta informática con la que trabaja.
Podemos
definir Dataminig como “el proceso de búsqueda y análisis de datos para revelar
información oculta y potencialmente valiosa para la organización” (Shaw, 2001).
La minería de datos también se define básicamente como la extracción no trivial de información
implícita, previamente desconocida y potencialmente útil, a partir de datos[1].
Pero, quizás, una definición más acertada es la que proporciona la U.S.
Government Accountability Office, que define la minería de datos como “la
aplicación de técnicas y tecnologías de bases de datos (como análisis y
modelado estadísticos), para descubrir patrones ocultos y sutiles relaciones en
los datos, y para inferir reglas que permitan la predicción de futuros
resultados (U.S. GAO, 2004). El origen del término está vinculado a que se
necesita remover mucha tierra (datos) para extraer algo de información útil
(metal). Como señala Mary DeRosa en su trabajo, esta es una poderosa
herramienta para los departamentos de Contraterrorismo (DeRosa, March 2004).
[1] En muchos cursos sobre minería de datos se
cuenta una bonita historia sobre una gran cadena estadounidense de
supermercados, Wal-Mart,
que realizó a finales de los años 90 un análisis de los hábitos de compra de
sus clientes. Sorprendentemente, descubrieron una correlación estadísticamente
significativa entre las compras de pañales y cerveza: los viernes por la
tarde, los hombres entre 25 y 35 años que compraban cerveza también compraban
pañales.
Después de un análisis detallado, este resultado se explica de forma bastante curiosa. Como los pañales son bastante voluminosos, las mujeres habitualmente mandaban a sus maridos a comprarlos. Los maridos y padres, jóvenes entre 25 y 35 años (rango medio de edad para tener niños tan pequeños), solían ir a la compra los viernes, algo reticentes, en el último momento posible. Estos pobres padres, con una vida social no demasiado boyante, a la vez que compraban pañales para sus bebés, aprovechaban para comprar cerveza, ya que no podrían salir a tomarlas al pub. También se cuenta que Wal-Mart utilizó este resultado para reubicar estos productos en lugares estratégicamente dispuestos: pusieron la cerveza cerca de los pañales. El resultado fue que los padres que habitualmente compraban cerveza después compraron todavía más, al estar tan cómodamente situada. Además, los que antes no compraban cerveza, empezaron a hacerlo al estar tan a mano, justo al lado a los pañales. Así, las ventas de cerveza tuvieron un aumento espectacular.
Después de un análisis detallado, este resultado se explica de forma bastante curiosa. Como los pañales son bastante voluminosos, las mujeres habitualmente mandaban a sus maridos a comprarlos. Los maridos y padres, jóvenes entre 25 y 35 años (rango medio de edad para tener niños tan pequeños), solían ir a la compra los viernes, algo reticentes, en el último momento posible. Estos pobres padres, con una vida social no demasiado boyante, a la vez que compraban pañales para sus bebés, aprovechaban para comprar cerveza, ya que no podrían salir a tomarlas al pub. También se cuenta que Wal-Mart utilizó este resultado para reubicar estos productos en lugares estratégicamente dispuestos: pusieron la cerveza cerca de los pañales. El resultado fue que los padres que habitualmente compraban cerveza después compraron todavía más, al estar tan cómodamente situada. Además, los que antes no compraban cerveza, empezaron a hacerlo al estar tan a mano, justo al lado a los pañales. Así, las ventas de cerveza tuvieron un aumento espectacular.
El
problema es que esta historia existe en diferentes versiones, a veces se habla
de 7 Eleven en
vez de Wal-Mart, otras veces se adorna con datos específicos de porcentajes de
incremento de ventas... Además no se conoce quiénes pudieron realizar esos
estudios y, de hecho, no existe documentación específica de ningún proyecto en
esta línea en ninguna de las dos organizaciones. Por todo ello, no hay más
remedio que pensar que se trata de una leyenda
urbana, un bonito mito del mundo
de la minería de datos.
No hay comentarios:
Publicar un comentario