
Un data warehouse o depósito de datos es una colección de datos orientado a temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales.
Una data warehouse se crea al extraer datos desde una o más bases de aplicaciones operacionales. Los datos extraídos se transforman para eliminar inconsistencias y resumir si es necesario y luego son cargados en el data warehouse.
El data warehouse provee varios beneficios a las empresas que lo implementan, entre los que se destacan:
Soporta el procesamiento informático al proveer una plataforma sólida
Facilita la integración de sistemas de aplicación no integrados.
Organiza y almacena los datos que se necesitan para el procesamiento analítico informático sobre una amplia perspectiva de tiempo.
Sus principales características son las siguientes:
Orientado hacia la información relevante de la organización
Se diseña para consultar eficientemente información relativa a las actividades básicas de la organización, como ser compras ventas, producción
Datos Integrados
Integra datos recolectados de diferentes sistemas operacionales de la organización y/o fuentes externas.
Variable en el tiempo
Los datos son relativos a un período de tiempo y estos deben ser integrados periódicamente.
No volátil
Los datos que son almacenados no sufren de ninguna actualización solo son incrementados.
Fuentes de datos
Este componente es el que normalmente está presente originariamente en las organizaciones, y a partir del cual se realiza la captura
Extracción y transformación
Es responsable de que la información pueda moverse, con las transformaciones que sean necesarias
Servidor de datos
Los servicios que debe ofrecer incluyen un servicio de mantenimiento de datos y un servicio de distribución para exportar datos del data
Repositorio/Metadatos
Los metadatos son básicamente datos acerca de los que están contenidos en el data warehouse.
Herramientas de acceso
Sin las herramientas adecuadas de acceso y análisis, el data warehouse se puede convertir en una amalgama de datos sin ninguna utilidad.
Alto costo.
Inmediata ayuda para la toma de decisiones (Data Mart).
Alto costo de mantenimiento debido a cambios de necesidades,
Control de calidad de los datos.
Heterogeneidad e integración de datos.