Etapas de desarrollo y ejecución
PROYECTOS DE CIENCIA DE
DATOS
1. Comprensión del Negocio
1. Identificación del problema o necesidad de negocio.
Ejemplo: Sector Salud (COVID-19 en Cali)
Problema abordado: Predicción de brotes de COVID-19 y distribución de recursos.
2. Definición de objetivos del proyecto.
Ejemplo: Sector Público (Recaudo Tributario en Bogotá)
Planeación destacada: Uso de ASUM-DM para guiar la planificación y ejecución.
3. Establecimiento de criterios de éxito.
Ejemplo: Sector productivo (Scoring de Crédito en un Banco)
impactos: Aumento de clientes potenciales sin modificar el nivel de riesgo.
2. Comprensión de los Datos
1. Recolección inicial de datos.
Ejemplo: Sector Académico (E-commerce)
Problema abordado: Mejora de la experiencia de compra multiproducto.
2. Evaluación de la calidad y relevancia de los datos.
Ejemplo: Sector Salud (COVID19 - Cali)
Paneación: Rrevisión de información de bases oficiales obtenidas de registros de salud
3. Exploración preliminar de los datos.
Ejemplo: Sector Público (Recaudo Tributario en Bogotá)
Impactos: mejora en procesos, con revisión de datos para preguntar a los expertos de una sección de la entidad para aclarar dudas
3. Preparación de los Datos
1. Limpieza de datos (tratamiento de valores faltantes, eliminación de outliers).
Ejemplo: Sector productivo(Scoring de Crédito en un Banco)
Problema abordado: Desarrollo de un modelo de scoring de crédito para aumentar utilidades sin modificar el riesgo.
2. Transformación de datos (normalización, codificación de variables categóricas).
Ejemplo: Sector Salud (COVID-19 en Cali)
Planeación destacada: Conformación de equipos multidisciplinarios de trabajo.
3. Enriquecimiento de datos (integración de fuentes de datos adicionales).
Ejemplo: Sector Público (Recaudo Tributario en Bogotá)
Impactos: Caracterización de obras y corrección de desviaciones en declaraciones.
4. Análisis exploratorio de los datos
1. Análisis estadístico descriptivo.
Ejemplo: Sector académico (E-commerce)
Problema abordado: Identificación de productos similares en resultados de compra.
2. Visualización de datos para identificar patrones y relaciones.
Ejemplo: Sector productivo (Scoring de Crédito en un Banco)
Planeación destacada: Evaluación de necesidades de infraestructura, definición de variables.
3. Detección de clusters y asociaciones
Ejemplo: Sector Público (Recaudo Tributario en Bogotá)
Impactos: Aumento del recaudo tributario, mejoras en procesos de fiscalización.
5. Modelación
1. Elección de técnicas de modelado apropiadas.
Ejemplo: Sector Salud (COVID-19 en Cali)
Problema abordado: Predicción de brotes de COVID-19 y distribución de recursos.
2. Desarrollo y entrenamiento de modelos.
Ejemplo: Sector académico (E-commerce)
Planeación destacada: Desarrollo y entrenamiento de modelos de machine learning.
3. Validación cruzada y ajuste de hiperparámetros.
Ejemplo: Sector productivo (Scoring de Crédito en un Banco)
Impactos: Aumento de clientes potenciales sin modificar el nivel de riesgo.
6. Evaluación
1. Evaluación del modelo con respecto a los criterios de éxito definidos.
Ejemplo: Sector Público (Recaudo Tributario en Bogotá)
Problema abordado: Mejora en el recaudo de impuestos y procesos de fiscalización.
2. Evaluación del modelo con respecto a los criterios de éxito definidos.
Ejemplo: Sector Público (Recaudo Tributario en Bogotá)
Problema abordado: Mejora en el recaudo de impuestos y procesos de fiscalización
3. Interpretación de los resultados y su relevancia para los objetivos de negocio.
Ejemplo: Sector Salud (COVID-19 en Cali)
Planeación destacada: Desarrollo de modelos predictivos, creación de tableros de visualización.
7. Despliegue
1. Preparación del modelo para producción (optimización, documentación).
Ejemplo: Sector productivo (Scoring de Crédito en un Banco)
Se creó el modelo pero se debía revisar internamente con diferentes tipos de acuerdo a las necesidades
2. Implementación del modelo en el entorno de producción.
Ejemplo: Sector académico(E-commerce)
Planeación destacada: Identificación de productos similares, desarrollo y entrenamiento de modelos de ML.
8. Retroalimentación y aprendizaje continúo
1. Recolección de retroalimentación de los usuarios y stakeholders.
2. Análisis del impacto del proyecto en los objetivos de negocio.