Skip to content

Examen Final de minería de datos concurso de kaggle

Notifications You must be signed in to change notification settings

valencig/final-mineria

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

66 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Walmart Classification Problem: Trabajo final de Minería y Análisis de Datos

Contribuidores:

  • Daniela Pinto Veizaga
  • Javier Valencia Goujon
  • Mario Alberto Cruz García
  • Miguel Ávila del Bosque

Objetivo:

El presente repositorio busca resolver el problema descrito en Kaggle siguiendo la metodología CRISP-DM. Los entregables de cada etapa son:

  • Comprensión del negocio (R Markdown)

    • Antecedentes
    • Determinación del objetivo
    • Determinación de criterio de éxito (i.e. superar benchmark de modelos que utilizan datos sin preprocesar)
    • Plan del proyecto
  • Comprensión de los datos (R - Bash)

    • Reporte reproducible de recolección de datos: para la preparación de los datos, primeramente se descargaron desde la página de Kaggle con ayuda de bash.
    • Análisis exploratorio de datos: análisis exploratorio, curva ROC y PCA.
    • Univariado
    • Bivariado
    • Multivariado
  • Preparación de los datos (R - Bash)

    • Reporte reproducible de selección e integración de datos
    • Reporte reproducible de limpieza de datos (incluyendo imputación)
    • Reporte reproducible de ingeniería de características
  • Modelado (Python)

    • Diseño de prueba de modelo: logistic regression y gradient boosting
    • Selección de modelo (benchmark de modelos seleccionados): gradient boosting
    • Ajuste de hiperparámetros óptimo: magic loop, GridSearch y RandomSearch
  • Evaluación (Python)

    • Evaluación del modelo final contra el conjunto de prueba
    • Reentrenamiento final de modelo con datos de entrenamiento y prueba con hiperparámetros optimizados.
    • Generación y carga de datos de prueba en Kaggle (reporte de posición final en tablero)
  • Implantación (Python)

    • Desarrollo de web service en flask para predecir resultados a partir de nuevos datos
    • Reporte ejecutivo final con principales hallazgos e hitos del proyecto (5 minutos)

About

Examen Final de minería de datos concurso de kaggle

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •  

Languages