EL SUSURRO CLANDESTINO

EL SUSURRO CLANDESTINO
"La Inducción sin abducción es ciega, la abducción sin inducción es vacía" "Jugar al juego por el bien del juego"

miércoles, 1 de febrero de 2012

DATAMINING

La estadística en general y la minería de datos en particular es un campo apasionante y la base del análisis cuantitativo. Algo con lo que debe estar necesariamente familiarizado cualquier analista que se precie de serlo. Por lo demás, profesionales de otros campos, como médicos, biólogos o sociólogos también deben saber moverse en este campo si quieren llevar adelante muchas de sus investigaciones. Por eso he creído conveniente abrir un espacio propio dedicado a esta temática en mi blog. 

Para ser sinceros, he de decir que cada vez me apasiona más este campo desde que completé mi curso de SAS en la Complutense. Antes de realizar el curso tuve forzosamente que leer y consultar muchos manuales tanto de estadística descriptiva (el de Peña es muy bueno) como de minería de datos (sería difícil escoger, pero me quedo con el de César Pérez) para prepararme y poder afrontar el curso con ciertas garantías. Y cuanto más leía más me gustaba. Es como si los números nos hablaran y nos susurraran relaciones entre variables que antes pasaban completamente desapercibidas, sintiendo, por un momento, el placer de descubrir lo secreto.

Hace unos pocos años la mayoría de los análisis estadísticos todavía se realizaban a mano. Hoy tenemos la suerte de contar con potentes programas informáticos que nos ayuden en esta tarea. Algunos de ellos son muy intuitivos y fáciles de manejar con tal de que el analista tenga unos conocimientos mínimos de estadística y domine la herramienta informática con la que trabaja.

Podemos definir Dataminig como “el proceso de búsqueda y análisis de datos para revelar información oculta y potencialmente valiosa para la organización” (Shaw, 2001). La minería de datos  también se define básicamente como la extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de datos[1]. Pero, quizás, una definición más acertada es la que proporciona la U.S. Government Accountability Office, que define la minería de datos como “la aplicación de técnicas y tecnologías de bases de datos (como análisis y modelado estadísticos), para descubrir patrones ocultos y sutiles relaciones en los datos, y para inferir reglas que permitan la predicción de futuros resultados (U.S. GAO, 2004). El origen del término está vinculado a que se necesita remover mucha tierra (datos) para extraer algo de información útil (metal). Como señala Mary DeRosa en su trabajo, esta es una poderosa herramienta para los departamentos de Contraterrorismo (DeRosa, March 2004).


[1] En muchos cursos sobre minería de datos se cuenta una bonita historia sobre una gran cadena estadounidense de supermercados, Wal-Mart, que realizó a finales de los años 90 un análisis de los hábitos de compra de sus clientes. Sorprendentemente, descubrieron una correlación estadísticamente significativa entre las compras de pañales y cerveza: los viernes por la tarde, los hombres entre 25 y 35 años que compraban cerveza también compraban pañales.
Después de un análisis detallado, este resultado se explica de forma bastante curiosa. Como los pañales son bastante voluminosos, las mujeres habitualmente mandaban a sus maridos a comprarlos. Los maridos y padres, jóvenes entre 25 y 35 años (rango medio de edad para tener niños tan pequeños), solían ir a la compra los viernes, algo reticentes, en el último momento posible. Estos pobres padres, con una vida social no demasiado boyante, a la vez que compraban pañales para sus bebés, aprovechaban para comprar cerveza, ya que no podrían salir a tomarlas al pub.
También se cuenta que Wal-Mart utilizó este resultado para reubicar estos productos en lugares estratégicamente dispuestos: pusieron la cerveza cerca de los pañales. El resultado fue que los padres que habitualmente compraban cerveza después compraron todavía más, al estar tan cómodamente situada. Además, los que antes no compraban cerveza, empezaron a hacerlo al estar tan a mano, justo al lado a los pañales. Así, las ventas de cerveza tuvieron un aumento espectacular.
El problema es que esta historia existe en diferentes versiones, a veces se habla de 7 Eleven en vez de Wal-Mart, otras veces se adorna con datos específicos de porcentajes de incremento de ventas... Además no se conoce quiénes pudieron realizar esos estudios y, de hecho, no existe documentación específica de ningún proyecto en esta línea en ninguna de las dos organizaciones. Por todo ello, no hay más remedio que pensar que se trata de una leyenda urbana, un bonito mito del mundo de la minería de datos.

No hay comentarios:

Publicar un comentario


Visit Esprintel