Etapas de desarrollo y ejecución
PROYECTOS DE CIENCIA DE
DATOS

1. Comprensión del Negocio

1. Identificación del problema o necesidad de negocio.

Ejemplo: Sector Salud (COVID-19 en Cali)

Problema abordado: Predicción de brotes de COVID-19 y distribución de recursos.

2. Definición de objetivos del proyecto.

Ejemplo: Sector Público (Recaudo Tributario en Bogotá)

Planeación destacada: Uso de ASUM-DM para guiar la planificación y ejecución.

3. Establecimiento de criterios de éxito.

Ejemplo: Sector productivo (Scoring de Crédito en un Banco)

impactos: Aumento de clientes potenciales sin modificar el nivel de riesgo.

2. Comprensión de los Datos

1. Recolección inicial de datos.

Ejemplo: Sector Académico (E-commerce)

Problema abordado: Mejora de la experiencia de compra multiproducto.

2. Evaluación de la calidad y relevancia de los datos.

Ejemplo: Sector Salud (COVID19 - Cali)

Paneación: Rrevisión de información de bases oficiales obtenidas de registros de salud

3. Exploración preliminar de los datos.

Ejemplo: Sector Público (Recaudo Tributario en Bogotá)

Impactos: mejora en procesos, con revisión de datos para preguntar a los expertos de una sección de la entidad para aclarar dudas

3. Preparación de los Datos

1. Limpieza de datos (tratamiento de valores faltantes, eliminación de outliers).

Ejemplo: Sector productivo(Scoring de Crédito en un Banco)

Problema abordado: Desarrollo de un modelo de scoring de crédito para aumentar utilidades sin modificar el riesgo.

2. Transformación de datos (normalización, codificación de variables categóricas).

Ejemplo: Sector Salud (COVID-19 en Cali)

Planeación destacada: Conformación de equipos multidisciplinarios de trabajo.

3. Enriquecimiento de datos (integración de fuentes de datos adicionales).

Ejemplo: Sector Público (Recaudo Tributario en Bogotá)

Impactos: Caracterización de obras y corrección de desviaciones en declaraciones.

4. Análisis exploratorio de los datos

1. Análisis estadístico descriptivo.

Ejemplo: Sector académico (E-commerce)

Problema abordado: Identificación de productos similares en resultados de compra.

2. Visualización de datos para identificar patrones y relaciones.

Ejemplo: Sector productivo (Scoring de Crédito en un Banco)

Planeación destacada: Evaluación de necesidades de infraestructura, definición de variables.

3. Detección de clusters y asociaciones

Ejemplo: Sector Público (Recaudo Tributario en Bogotá)

Impactos: Aumento del recaudo tributario, mejoras en procesos de fiscalización.

5. Modelación

1. Elección de técnicas de modelado apropiadas.

Ejemplo: Sector Salud (COVID-19 en Cali)

Problema abordado: Predicción de brotes de COVID-19 y distribución de recursos.

2. Desarrollo y entrenamiento de modelos.

Ejemplo: Sector académico (E-commerce)

Planeación destacada: Desarrollo y entrenamiento de modelos de machine learning.

3. Validación cruzada y ajuste de hiperparámetros.

Ejemplo: Sector productivo (Scoring de Crédito en un Banco)

Impactos: Aumento de clientes potenciales sin modificar el nivel de riesgo.

6. Evaluación

1. Evaluación del modelo con respecto a los criterios de éxito definidos.

Ejemplo: Sector Público (Recaudo Tributario en Bogotá)

Problema abordado: Mejora en el recaudo de impuestos y procesos de fiscalización.

2. Evaluación del modelo con respecto a los criterios de éxito definidos.

Ejemplo: Sector Público (Recaudo Tributario en Bogotá)

Problema abordado: Mejora en el recaudo de impuestos y procesos de fiscalización

3. Interpretación de los resultados y su relevancia para los objetivos de negocio.

Ejemplo: Sector Salud (COVID-19 en Cali)

Planeación destacada: Desarrollo de modelos predictivos, creación de tableros de visualización.

7. Despliegue

1. Preparación del modelo para producción (optimización, documentación).

Ejemplo: Sector productivo (Scoring de Crédito en un Banco)

Se creó el modelo pero se debía revisar internamente con diferentes tipos de acuerdo a las necesidades

2. Implementación del modelo en el entorno de producción.

Ejemplo: Sector académico(E-commerce)

Planeación destacada: Identificación de productos similares, desarrollo y entrenamiento de modelos de ML.

8. Retroalimentación y aprendizaje continúo

1. Recolección de retroalimentación de los usuarios y stakeholders.

2. Análisis del impacto del proyecto en los objetivos de negocio.

Retos en Ciencia de Datos - Maestría en Ciencia de Datos

David Aguilar

Bibliografía:
C. Schoer, F. Kruse y J. Gomez, «Applying CRISP-DM Process Model on Applying CRISP-DM Process Model,» Procedia Computer Science, nº 181, pp. 526-534, 2021.

G. S. Linoff y M. J. A. Berry, «Capítulo tres,» en Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, 3ra ed., Wiley, 2011.