Metodologia de Hefesto

CONCEPTO

HEFESTO es una metodología propia, cuya propuesta está fundamentada en una muy amplia investigación, comparación de metodologías existentes, experiencias propias en procesos de confección de almacenes de datos.

CARACTERISTICAS

Se basa en los requerimientos de los usuarios.

Utiliza modelos conceptuales y lógicos, los cuales son sencillos de interpretar y analizar.

Se aplica tanto para Data Warehouse como para Data Mart.

Es independiente de las estructuras físicas que contengan el DW y de su respectiva distribución.

FASES DE LA METODOLOGIA DE HEFESTO

FASE 1. ANALISIS DE REQUERIMIENTO

A) Identificar preguntas

OBJETIVOS PRINCIPALES

Obtener e identificar las necesidades de información clave de alto nivel

La idea central es, que se formulen preguntas complejas sobre el negocio, que incluyan variables de análisis que se consideren relevantes, ya que son estas las que permitirán estudiar la información desde diferentes perspectivas.

EJEMPLOS

entrevistas, cuestionarios, observaciones, etc.

CASO DE PRACTICO

Preguntas de negocio obtenidas fueron las siguientes:

Se desea conocer cuántas unidades de cada producto fueron vendidas a sus clientes en un periodo determinado

Se desea conocer cuál fue el monto total de ventas de productos a cada cliente en un periodo determinado

B) INDICADORES Y PERPECTIVAS

CONCEPTOS

se debe tener en cuenta que los indicadores, para que sean realmente efectivos son, en general, valores numéricos y representan lo que se desea analizar concretamente

EJMEPLO: Saldos, promedios, cantidades, sumatorias, fórmulas, etc.

CASO PRACTICO

En síntesis, los indicadores son:

**Unidades vendidas.

**Monto total de ventas.

Y las perspectivas de análisis son:

** Clientes.

**Productos.

**Tiempo.

C) MODELOS CONCEPTUAL

CONCEPTO

descripción de alto nivel de la estructura de la base de datos, en la cual la información es representada a través de objetos, relaciones y atributos.

REPRESENTACION GRAFICA

^

CASO PRACTICO

FASE 2. ANALISIS DE DATA SOURCES

hechos e indicadores

TIPOS DE HECHOS E INDICADORES

Hecho/s que lo componen, con su respectiva fórmula de cálculo

EJEMPLOS:

Hecho1 + Hecho2

Función de sumarización que se utilizará para su agregación

EJEMPLOS:

SUM, AVG, COUNT, etc

mapeo

objetivos:

es el de examinar los OLTP disponibles que contengan la información requerida, como así también sus características

identificar las correspondencias entre el modelo conceptual y las fuentes de datos.

caso practico

diagrama relacional

diagrama relacional

correspondencia

correspondencia

c)granularidad

Una vez que se han establecido las relaciones con los OLTP, se deben seleccionar los campos que contendrá cada perspectiva, ya que será a través de estos por los que se examinarán y filtrarán los indicadores.

se debe presentar a los usuarios los datos de análisis disponibles para cada perspectiva

d) Modelo Conceptual ampliado

concepto

En este paso, y con el fin de graficar los resultados obtenidos en los pasos anteriores, se ampliará el modelo conceptual, colocando bajo cada perspectiva los campos seleccionados y bajo cada indicador su respectiva fórmula de cálculo

Subtopic

Subtopic

caso practico

Modelo Conceptual ampliado.

Modelo Conceptual ampliado.

FASE 3. MODELO LOGICO DW

TIPOLOGIA

CONCEPTO

Se debe seleccionar cuál será el tipo de esquema que se utilizará para contener la estructura del depósito de datos, que se adapte mejor a los requerimientos y necesidades de l@s usuari@s. Es muy importante definir objetivamente si se empleará un esquema en estrella, constelación o copo de nieve, ya que esta decisión afectará considerablemente la elaboración del modelo lógico.

CASO PRACTICO

El esquema que se utilizará será en estrella, debido a sus características, ventajas y diferencias con los otros esquemas.

TABLAS DE DIMENSIONES

3 TIPOS DE ESQUEMAS

Se elegirá un nombre que identifique la tabla de dimensión.

Se añadirá un campo que represente su clave principal.

Se redefinirán los nombres de los campos si es que no son lo suficientemente intuitivos.

GRAFICAMENTE

ESQUEMA DE COPO DE NIEVE

cuando existan jerarquías dentro de una tabla de dimensión, esta tabla deberá ser normalizada

Jerarquía de ”GEOGRAFIA”.

Jerarquía de ”GEOGRAFIA”.

Entonces, al normalizar esta tabla se obtendrá:


Subtopic

Subtopic

CASO PRACTICO

Perspectiva “Clientes”

tabla de dimensión ”CLIENTE”

tabla de dimensión ”CLIENTE”

Perspectiva “Productos”

tabla de dimensión ”PRODUCTO”

tabla de dimensión ”PRODUCTO”

Perspectiva “Tiempo”

tabla de dimensión ”FECHA”

tabla de dimensión ”FECHA”

TABLAS DE HECHOS

ESQUEMAS

esquemas en estrella y copo de nieve,

Se definirá su clave primaria, que se compone de la combinación de las claves primarias de cada tabla de dimensión relacionada.

Se le deberá asignar un nombre a la tabla de hechos que represente la información analizada, área de investigación, negocio enfocado, etc.

Se crearán tantos campos de hechos como indicadores se hayan definido en el modelo conceptual y se les asignará los mismos nombres que estos.

esquemas constelación

Las tablas de hechos se deben confeccionar teniendo en cuenta el análisis de las preguntas realizadas por los usuarios

Cada tabla de hechos debe poseer un nombre que la identifique, contener sus hechos correspondientes y su clave debe estar formada por la combinación de las claves de las tablas de dimensiones relacionadas.

caso 1

Subtopic

Subtopic

obtendra

Subtopic

Subtopic

caso 2

Subtopic

Subtopic

obtendre

Subtopic

Subtopic

caso 3

Subtopic

Subtopic

caso practico

Subtopic

Subtopic

UNIONES

concepto

Para los tres tipos de esquemas, se realizarán las uniones correspondientes entre sus tablas de dimensiones y sus tablas de hechos.

caso practico

Subtopic

Subtopic

FASE 4. INTEGRACION DE DATOS

CARGA INICIAL

CARACTERISTICAS

debemos llevar adelante una serie de tareas básicas, tales como limpieza de datos, calidad de datos, procesos ETL, etc.

La realización de estas tareas pueden contener una lógica realmente compleja en algunos casos

evitar que el DW sea cargado con valores faltantes o anómalos

se trabaja con un esquema constelación, hay que tener presente que varias tablas de dimensiones serán compartidas con diferentes tablas de hechos

Primero se cargarán los datos de las dimensiones y luego los de las tablas de hechos

CASO PRACTICO

Carga Inicial.

Carga Inicial.

CARGA DIMENSIONAL CLIENTE

Subtopic

Subtopic

Carga de Dimensión PRODUCTO

Subtopic

Subtopic

Carga de Tabla de Hechos VENTAS

Subtopic

Subtopic

ACTUALIZACION

CONCEPTO

Cuando se haya cargado en su totalidad el DW, se deben establecer sus políticas y estrategias de actualización o refresco de datos

siguientes acciones

Especificar las tareas de limpieza de datos, calidad de datos, procesos ETL, etc., que deberán realizarse para actualizar los datos del DW.

Especificar de forma general y detallada las acciones que deberá realizar cada software.

CASO PRACTICO

políticas de Actualización

La información se refrescará todos los días a las doce de la noche.

Los datos de las tablas de dimensiones “PRODUCTO” y “CLIENTE” serán cargados totalmente cada vez.

Los datos de la tabla de dimensión “FECHA” se cargarán de manera incremental teniendo en cuenta la fecha de la última actualización.

Los datos de la tabla de hechos que corresponden al último mes (30 días) a partir de la fecha actual, serán reemplazados cada vez.

proceso ETL

Inicio: iniciará la ejecución de los pasos todos los días a las doce de la noche.

Establecer variables Fecha_Desde y Fecha_Hasta

Carga de Dimensión CLIENTE: a la serie de tareas que realiza este paso, se le antecederá un nuevo paso que borrará los datos de la dimensión CLIENTE.

Carga de Dimensión PRODUCTO: a la serie de tareas que realiza este paso, se le antecederá un nuevo paso que borrará los datos de la dimensión PRODUCTO

Carga de Dimensión FECHA: en este paso, en vez de recibir el valor de la variable "Fecha_Desde", se tomará la fecha del último registro cargado en la dimensión FECHA.