SAMPLE: es la primera etapa del proyecto. En ella preparamos los datos para su posterior exploración. En esta etapa es común la utilización del nodo de partición (especialmente si quieren realizarse árboles de decisión o redes neuronales). Normalmente se suele utilizar un porcentaje de 70 para la muestra de entrenamiento y uno de 30 para la validación
EXPLORE: se trata de la exploración de los datos. Es una de las partes más trabajosas pero también la más bonita. Tenemos un nodo que nos ayudan a explorar gráficamente los datos, otro de selección de variables que nos ayuda a eliminar aquellos inputs que no tienen relación con la variable objetivo, incluso podemos hacer un "clustering" o una segmentación
MODIFY: cuando llegamos a esta parte ya empezamos a hablar en serio. Aquí nos centramos en la selección y transformación de variables y datos que servirán para la construcción de los modelos. Entre otras tareas a realizar destacan: la reducción de dimensión, imputación de valores "missing", "outliers", etc
MODEL: ha llegado la hora de escoger los modelos. La elección del modelo va a depender esencialmente de los datos que tenemos y del tipo de variables que tenemos y de obtener modelos fácilmente entendibles. Podemos escoger regresión, regresión logística, árboles de decisión, análisis factorial discriminante, redes neuronales... Podemos aplicar más de uno a la vez, y luego comparar los resultados obtenidos
ASSESS: después de todo el trabajo realizado llega el momento de comparar los modelos. Lo más sencillo es utilizar el análisis del diagrama ROC. La curva ROC es útil para comparar el comportamiento global de un modelo. El gráfico ROC enfrenta dos varibles: la sensibilidad y la especificidad. Lo ideal es que ambas categorías sean altas.
Excelente contenido, directo y al grano, muy bueno para ir entendiendo sobre el tema.
ResponderEliminarGracias Carlos. He tratado de hacer un resumen de la metodología que se utiliza en Minería de datos con SAS con algunos apuntes técnicos
Eliminar