EL BUHO ANALÍTICO: METODOLOGÍA SEMMA

jueves, 2 de febrero de 2012

METODOLOGÍA SEMMA

El programa SAS Enterprise Miner utiliza la metodología SEMMA. Cada una de las iniciales hace referencia a cada una de las fases de un proyecto de minería de datos, que a su vez contienen diferentes nodos que el analista puede escoger en función de qué modelo (descriptivo o predictivo) quiera llevar a cabo.

SAMPLE: es la primera etapa del proyecto. En ella preparamos los datos para su posterior exploración. En esta etapa es común la utilización del nodo de partición (especialmente si quieren realizarse árboles de decisión o redes neuronales). Normalmente se suele utilizar un porcentaje de 70 para la muestra de entrenamiento y uno de 30 para la validación

EXPLORE: se trata de la exploración de los datos. Es una de las partes más trabajosas pero también la más bonita. Tenemos un nodo que nos ayudan a explorar gráficamente los datos, otro de selección de variables que nos ayuda a eliminar aquellos inputs que no tienen relación con la variable objetivo, incluso podemos hacer un "clustering" o una segmentación

MODIFY: cuando llegamos a esta parte ya empezamos a hablar en serio. Aquí nos centramos en la selección y transformación de variables y datos que servirán para la construcción de los modelos. Entre otras tareas a realizar destacan: la reducción de dimensión, imputación de valores "missing", "outliers", etc

MODEL: ha llegado la hora de escoger los modelos. La elección del modelo va a depender esencialmente de los datos que tenemos y del tipo de variables que tenemos y de obtener modelos fácilmente entendibles. Podemos escoger regresión, regresión logística, árboles de decisión, análisis factorial discriminante, redes neuronales... Podemos aplicar más de uno a la vez, y luego comparar los resultados obtenidos

ASSESS: después de todo el trabajo realizado llega el momento de comparar los modelos. Lo más sencillo es utilizar el análisis del diagrama ROC. La curva ROC es útil para comparar el comportamiento global de un modelo. El gráfico ROC enfrenta dos varibles: la sensibilidad y la especificidad. Lo ideal es que ambas categorías sean altas.

2 comentarios:

Carlos Rodriguez3 de octubre de 2012 a las 3:14
Excelente contenido, directo y al grano, muy bueno para ir entendiendo sobre el tema.
ResponderEliminar
Respuestas