fbpx
Wikipedia

Almacén de datos

En el contexto de la informática, un almacén de datos (del inglés data warehouse) Es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se usa para realizar informes (reports) y análisis de datos[1]​ y se considera un componente fundamental de la inteligencia empresarial.[2]​ Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos (especialmente OLAP, procesamiento analítico en línea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sea necesario.

Descripción de un Data Warehouse.

Definiciones de almacén de datos

Definición de Bill Inmon

Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define un data warehouse (almacén de datos) en términos de las características del repositorio de datos:

  • Orientado a temas.- Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.
  • Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen en esas variaciones.
  • No volátil.- La información no se modifica ni se elimina, una vez almacenado un dato, este se convierte en información de sólo lectura, y se mantiene para futuras consultas.
  • Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes.

Inmon defiende una metodología descendente (top-down) a la hora de diseñar un almacén de datos, ya que de esta forma se considerarán mejor todos los datos corporativos. En esta metodología los Data marts se crearán después de haber terminado el data warehouse completo de la organización.

Definición de Ralph Kimball

Ralph Kimball es otro conocido autor en el tema de los data warehouse, define un almacén de datos como: "Es un almacén de datos que extrae, limpia, conforma y entrega una fuente de datos dimensional para la consulta y el análisis".[3]​ También fue Kimball quien determinó que un data warehouse no era más que: "la unión de todos los Data marts de una entidad". Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un almacén de datos.

Una definición más amplia

Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas para analizarlos y generar información, así como las diferentes formas para realizar la gestión de datos son componentes esenciales de un almacén de datos. Muchas referencias a un almacén de datos utilizan esta definición más amplia. Por lo tanto, en esta definición se incluyen herramientas para extraer, transformar y cargar datos, herramientas para el análisis (inteligencia empresarial) y herramientas para gestionar y recuperar los metadatos.

Función de un almacén de datos

En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles para una organización, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en información útil para el usuario. Un almacén de datos debe entregar la información correcta a la gente indicada en el momento óptimo y en el formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de soporte a decisiones (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la operación del sistema.

En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas:

  • Integración de los datos provenientes de bases de datos distribuidas por las diferentes unidades de la organización y que con frecuencia tendrán diferentes estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un análisis comprensivo de toda la organización en el almacén de datos.
  • Separación de los datos usados en operaciones diarias de los datos usados en el almacén de datos para los propósitos de divulgación, de ayuda en la toma de decisiones, para el análisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podrían entorpecerse entre sí.

Periódicamente, se importan datos al almacén de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP) y de otros sistemas de software relacionados con el negocio para la transformación posterior. Es práctica común normalizar los datos antes de combinarlos en el almacén de datos mediante herramientas de extracción, transformación y carga (ETL). Estas herramientas leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso de transformación al almacén de datos (filtración, adaptación, cambios de formato, etc.) y escriben en el almacén.

Data marts

Los Data marts son subconjuntos de datos de un data warehouse para áreas específicas.

Entre las características de un data mart destacan:

  • Usuarios limitados.
  • Área específica.
  • Tiene un propósito específico.
  • Tiene una función de apoyo.

Cubos de información

Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen tres dimensiones, los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el data warehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada. El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional.

A la información de un cubo puede acceder el ejecutivo mediante "tablas dinámicas" en una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización, totales) de la información con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de información se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, este es una colección de datos que está formada por «dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar.

Dimensiones

Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de información complementaria necesaria para la presentación de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la información general complementaria a cada uno de los registros de la tabla de hechos.

Variables

También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman parte de la tabla de hechos. Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podrían ser: “productos”, “localidades” (o zonas), “el tiempo” (medido en días, horas, semanas, etc.), ...

Ejemplos

Ejemplos de variables podrían ser:

  • Beneficios
  • Gastos
  • Ventas

Ejemplos de dimensiones podrían ser:

  • producto diferentes tipos o denominaciones de productos
  • localidades o provincia, o regiones, o zonas geográficas
  • tiempo medido de diferentes maneras, por horas, por días, por meses, por años
  • tipo de cliente casado/soltero, joven/adulto/anciano
  • colores de una pieza rojo, azul, blanco

Según lo anterior, podríamos construir un cubo de información sobre el índice de ventas (variable a estudiar) en función del producto vendido, la provincia, el mes del año y si el cliente está casado o soltero (dimensiones). Tendríamos un cubo de 4 dimensiones.

Elementos que integran un almacén de datos

Metadatos

Uno de los componentes más importantes de la arquitectura de un almacén de datos son los metadatos. Se define comúnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cuál es la estructura de los datos que se van a almacenar y cómo se relacionan.

El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los datos son de interés para el usuario final, el metadato es de interés para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacén de datos es muy diferente al rol que cumple en los ambientes operacionales. En el ámbito de los data warehouse el metadato juega un papel fundamental, su función consiste en recoger todas las definiciones de la organización y el concepto de los datos en el almacén de datos, debe contener toda la información concerniente a:

  • Tablas
  • Columnas de tablas
  • Relaciones entre tablas
  • Jerarquías y Dimensiones de datos
  • Entidades y Relaciones

Funciones ETL

Los procesos de Extract, transform and load (ETL)[4]​ son importantes ya que son la forma en que los datos se guardan en un almacén de datos (o en cualquier base de datos). Implican las siguientes operaciones:

  • Extracción. Acción de obtener la información deseada a partir de los datos almacenados en fuentes externas.
  • Transformación. Cualquier operación realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de este a otra base de datos.
  • Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacén de datos objetivo normal.

Middleware

Middleware es un término genérico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas. Estos servicios funcionan como una capa de abstracción de software distribuida, que se sitúa entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). El middleware puede verse como una capa API, que sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se ejecutarán. De esta manera se ofrece una mejor relación costo/rendimiento que pasa por el desarrollo de aplicaciones más complejas, en menos tiempo.

La función del middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacén de datos.

Diseño de un almacén de datos

Para construir un Data Warehouse se necesitan herramientas para ayudar a la migración y a la transformación de los datos hacia el almacén. Una vez construido, se requieren medios para manejar grandes volúmenes de información. Se diseña su arquitectura dependiendo de la estructura interna de los datos del almacén y especialmente del tipo de consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organización o empresa, los cuales se describen a continuación:

  • Situación actual de partida - Cualquier solución propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura técnica existente y planeada de la compañía.
  • Tipo y características del negocio - Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organización y el soporte que representa la información dentro de todo su proceso de toma de decisiones.
  • Entorno técnico - Se debe incluir tanto el aspecto del hardware (mainframes, servidores, redes) así como aplicaciones y herramientas. Se dará énfasis a los Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cómo operan, etc.
  • Expectativas de los usuarios - Un proyecto de data warehouse no es únicamente un proyecto tecnológico, es una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad.
  • Etapas de desarrollo - Con el conocimiento previo, ya se entra en el desarrollo de un modelo conceptual para la construcción del data warehouse.
  • Prototipo - Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto final que será entregado a los usuarios.
  • Piloto - El piloto de un data warehouse es el primero, o cada uno de los primeros resultados generados de forma iterativa que se harán para llegar a la construcción del producto final deseado.
  • Prueba del concepto tecnológico - Es un paso opcional que se puede necesitar para determinar si la arquitectura especificada del data warehouse funcionará finalmente como se espera.

Almacén de datos espacial

Almacén de datos espacial es una colección de datos orientados al tema, integrados, no volátiles, variantes en el tiempo y que añaden la geografía de los datos, para la toma de decisiones. Sin embargo la componente geográfica no es un dato agregado, sino que es una dimensión o variable en la tecnología de la información, de tal manera que permita modelar todo el negocio como un ente holístico, y que a través de herramientas de procesamiento analítico en línea (OLAP), no solamente se posea un alto desempeño en consultas multidimensionales sino que adicionalmente se puedan visualizar espacialmente los resultados.

El almacén de datos espacial forma parte de un extensivo Sistema de Información Geográfica para la toma de decisiones, este al igual que los SIG, permiten que un gran número de usuarios accedan a información integrada, a diferencia de un simple almacén de datos que está orientado al tema, el Data warehouse espacial adicionalmente es Geo-Relacional, es decir que en estructuras relacionales combina e integra los datos espaciales con los datos descriptivos. Actualmente es geo-objetos, esto es que los elementos geográficos se manifiestan como objetos con todas sus propiedades y comportamientos, y que adicionalmente están almacenados en una única base de datos Objeto-Relacional.

Los Data Warehouse Espaciales son aplicaciones basadas en un alto desempeño de las bases de datos, que utilizan arquitecturas Cliente-Servidor para integrar diversos datos en tiempo real. Mientras los almacenes de datos trabajan con muchos tipos y dimensiones de datos, muchos de los cuales no referencian ubicación espacial, a pesar de poseerla intrínsecamente, y sabiendo que un 80% de los datos poseen representación y ubicación en el espacio, en los Data warehouse espaciales, la variable geográfica desempeña un papel importante en la base de información para la construcción del análisis, y de igual manera que para un Data warehouse, la variable tiempo es imprescindible en los análisis, para los Data warehouse espaciales la variable geográfica debe ser almacenada directamente en ella.

Ventajas e inconvenientes de los almacenes de datos

Ventajas

Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de ellas son:

  • Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a los usuarios finales
  • Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión tales como informes de tendencia, por ejemplo: obtener los ítems con la mayoría de las ventas en un área en particular dentro de los últimos dos años; informes de excepción, informes que muestran los resultados reales frente a los objetivos planteados a priori.
  • Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestión de relaciones con clientes.

Inconvenientes

Utilizar almacenes de datos también plantea algunos inconvenientes, algunos de ellos son:

  • A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacén de datos no suele ser estático. Los costos de mantenimiento son elevados.
  • Los almacenes de datos se pueden quedar obsoletos relativamente pronto.
  • A veces, ante una petición de información estos devuelven una información subóptima, que también supone una pérdida para la organización.
  • A menudo existe una delgada línea entre los almacenes de datos y los sistemas operacionales. Hay que determinar qué funcionalidades de estos se pueden aprovechar y cuáles se deben implementar en el data warehouse, resultaría costoso implementar operaciones no necesarias o dejar de implementar alguna que sí vaya a necesitarse.

Véase también

Notas y referencias

  1. spotlessdata.com
  2. Dedić, N. and Stanier C., 2016., "An Evaluation of the Challenges of Multilingualism in Data Warehouse Development" in 18th International Conference on Enterprise Information Systems - ICEIS 2016, p. 196.
  3. Kimball, Ralph (2004). «1». The Data Warehouse ETL Toolkit (en inglés). Wiley. p. 23. ISBN 0-764-57923-1. 
  •   Datos: Q193351

almacén, datos, contexto, informática, almacén, datos, inglés, data, warehouse, colección, datos, orientada, determinado, ámbito, empresa, organización, integrado, volátil, variable, tiempo, ayuda, toma, decisiones, entidad, utiliza, para, realizar, informes, . En el contexto de la informatica un almacen de datos del ingles data warehouse Es una coleccion de datos orientada a un determinado ambito empresa organizacion etc integrado no volatil y variable en el tiempo que ayuda a la toma de decisiones en la entidad en la que se utiliza Se usa para realizar informes reports y analisis de datos 1 y se considera un componente fundamental de la inteligencia empresarial 2 Se trata sobre todo de un expediente completo de una organizacion mas alla de la informacion transaccional y operacional almacenado en una base de datos disenada para favorecer el analisis y la divulgacion eficiente de datos especialmente OLAP procesamiento analitico en linea El almacenamiento de los datos no debe usarse con datos de uso actual Los almacenes de datos contienen a menudo grandes cantidades de informacion que se subdividen a veces en unidades logicas mas pequenas dependiendo del subsistema de la entidad del que procedan o para el que sea necesario Descripcion de un Data Warehouse Indice 1 Definiciones de almacen de datos 1 1 Definicion de Bill Inmon 1 2 Definicion de Ralph Kimball 1 3 Una definicion mas amplia 2 Funcion de un almacen de datos 3 Data marts 4 Cubos de informacion 4 1 Dimensiones 4 2 Variables 4 3 Ejemplos 5 Elementos que integran un almacen de datos 5 1 Metadatos 5 2 Funciones ETL 5 3 Middleware 6 Diseno de un almacen de datos 7 Almacen de datos espacial 8 Ventajas e inconvenientes de los almacenes de datos 8 1 Ventajas 8 2 Inconvenientes 9 Vease tambien 10 Notas y referenciasDefiniciones de almacen de datos EditarDefinicion de Bill Inmon Editar Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos define un data warehouse almacen de datos en terminos de las caracteristicas del repositorio de datos Orientado a temas Los datos en la base de datos estan organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre si Variante en el tiempo Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen en esas variaciones No volatil La informacion no se modifica ni se elimina una vez almacenado un dato este se convierte en informacion de solo lectura y se mantiene para futuras consultas Integrado La base de datos contiene los datos de todos los sistemas operacionales de la organizacion y dichos datos deben ser consistentes Inmon defiende una metodologia descendente top down a la hora de disenar un almacen de datos ya que de esta forma se consideraran mejor todos los datos corporativos En esta metodologia los Data marts se crearan despues de haber terminado el data warehouse completo de la organizacion Definicion de Ralph Kimball Editar Ralph Kimball es otro conocido autor en el tema de los data warehouse define un almacen de datos como Es un almacen de datos que extrae limpia conforma y entrega una fuente de datos dimensional para la consulta y el analisis 3 Tambien fue Kimball quien determino que un data warehouse no era mas que la union de todos los Data marts de una entidad Defiende por tanto una metodologia ascendente bottom up a la hora de disenar un almacen de datos Una definicion mas amplia Editar Las definiciones anteriores se centran en los datos en si mismos Sin embargo los medios para obtener esos datos para extraerlos transformarlos y cargarlos las tecnicas para analizarlos y generar informacion asi como las diferentes formas para realizar la gestion de datos son componentes esenciales de un almacen de datos Muchas referencias a un almacen de datos utilizan esta definicion mas amplia Por lo tanto en esta definicion se incluyen herramientas para extraer transformar y cargar datos herramientas para el analisis inteligencia empresarial y herramientas para gestionar y recuperar los metadatos Funcion de un almacen de datos EditarEn un almacen de datos lo que se quiere es contener datos que son necesarios o utiles para una organizacion es decir que se utiliza como un repositorio de datos para posteriormente transformarlos en informacion util para el usuario Un almacen de datos debe entregar la informacion correcta a la gente indicada en el momento optimo y en el formato adecuado El almacen de datos da respuesta a las necesidades de usuarios expertos utilizando Sistemas de soporte a decisiones DSS Sistemas de informacion ejecutiva EIS o herramientas para hacer consultas o informes Los usuarios finales pueden hacer facilmente consultas sobre sus almacenes de datos sin tocar o afectar la operacion del sistema En el funcionamiento de un almacen de datos son muy importantes las siguientes ideas Integracion de los datos provenientes de bases de datos distribuidas por las diferentes unidades de la organizacion y que con frecuencia tendran diferentes estructuras fuentes heterogeneas Se debe facilitar una descripcion global y un analisis comprensivo de toda la organizacion en el almacen de datos Separacion de los datos usados en operaciones diarias de los datos usados en el almacen de datos para los propositos de divulgacion de ayuda en la toma de decisiones para el analisis y para operaciones de control Ambos tipos de datos no deben coincidir en la misma base de datos ya que obedecen a objetivos muy distintos y podrian entorpecerse entre si Periodicamente se importan datos al almacen de datos de los distintos sistemas de planeamiento de recursos de la entidad ERP y de otros sistemas de software relacionados con el negocio para la transformacion posterior Es practica comun normalizar los datos antes de combinarlos en el almacen de datos mediante herramientas de extraccion transformacion y carga ETL Estas herramientas leen los datos primarios a menudo bases de datos OLTP de un negocio realizan el proceso de transformacion al almacen de datos filtracion adaptacion cambios de formato etc y escriben en el almacen Data marts EditarArticulo principal Data mart Los Data marts son subconjuntos de datos de un data warehouse para areas especificas Entre las caracteristicas de un data mart destacan Usuarios limitados Area especifica Tiene un proposito especifico Tiene una funcion de apoyo Cubos de informacion EditarArticulo principal Cubo OLAP Los cubos de informacion o cubos OLAP funcionan como los cubos de rompecabezas en los juegos en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones los primeros el juego tienen tres dimensiones los cubos OLAP tienen un numero indefinido de dimensiones razon por la cual tambien reciben el nombre de hipercubos Un cubo OLAP contendra datos de una determinada variable que se desea analizar proporcionando una vista logica de los datos provistos por el sistema de informacion hacia el data warehouse esta vista estara dispuesta segun unas dimensiones y podra contener informacion calculada El analisis de los datos esta basado en las dimensiones del hipercubo por lo tanto se trata de un analisis multidimensional A la informacion de un cubo puede acceder el ejecutivo mediante tablas dinamicas en una hoja de calculo o a traves de programas personalizados Las tablas dinamicas le permiten manipular las vistas cruces filtrados organizacion totales de la informacion con mucha facilidad Las diferentes operaciones que se pueden realizar con cubos de informacion se producen con mucha rapidez Llevando estos conceptos a un data warehouse este es una coleccion de datos que esta formada por dimensiones y variables entendiendo como dimensiones a aquellos elementos que participan en el analisis y variables a los valores que se desean analizar Dimensiones Editar Las dimensiones de un cubo son atributos relativos a las variables son las perspectivas de analisis de las variables forman parte de la tabla de dimensiones Son catalogos de informacion complementaria necesaria para la presentacion de los datos a los usuarios como por ejemplo descripciones nombres zonas rangos de tiempo etc Es decir la informacion general complementaria a cada uno de los registros de la tabla de hechos Variables Editar Tambien llamadas indicadores de gestion son los datos que estan siendo analizados Forman parte de la tabla de hechos Mas formalmente las variables representan algun aspecto cuantificable o medible de los objetos o eventos a analizar Normalmente las variables son representadas por valores detallados y numericos para cada instancia del objeto o evento medido En forma contraria las dimensiones son atributos relativos a las variables y son utilizadas para indexar ordenar agrupar o abreviar los valores de las mismas Las dimensiones poseen una granularidad menor tomando como valores un conjunto de elementos menor que el de las variables ejemplos de dimensiones podrian ser productos localidades o zonas el tiempo medido en dias horas semanas etc Ejemplos Editar Ejemplos de variables podrian ser Beneficios Gastos VentasEjemplos de dimensiones podrian ser producto diferentes tipos o denominaciones de productos localidades o provincia o regiones o zonas geograficas tiempo medido de diferentes maneras por horas por dias por meses por anos tipo de cliente casado soltero joven adulto anciano colores de una pieza rojo azul blancoSegun lo anterior podriamos construir un cubo de informacion sobre el indice de ventas variable a estudiar en funcion del producto vendido la provincia el mes del ano y si el cliente esta casado o soltero dimensiones Tendriamos un cubo de 4 dimensiones Elementos que integran un almacen de datos EditarMetadatos Editar Articulo principal Metadato Uno de los componentes mas importantes de la arquitectura de un almacen de datos son los metadatos Se define comunmente como datos acerca de los datos en el sentido de que se trata de datos que describen cual es la estructura de los datos que se van a almacenar y como se relacionan El metadato documenta entre otras cosas que tablas existen en una base de datos que columnas posee cada una de las tablas y que tipo de datos se pueden almacenar Los datos son de interes para el usuario final el metadato es de interes para los programas que tienen que manejar estos datos Sin embargo el rol que cumple el metadato en un entorno de almacen de datos es muy diferente al rol que cumple en los ambientes operacionales En el ambito de los data warehouse el metadato juega un papel fundamental su funcion consiste en recoger todas las definiciones de la organizacion y el concepto de los datos en el almacen de datos debe contener toda la informacion concerniente a Tablas Columnas de tablas Relaciones entre tablas Jerarquias y Dimensiones de datos Entidades y RelacionesFunciones ETL Editar Los procesos de Extract transform and load ETL 4 son importantes ya que son la forma en que los datos se guardan en un almacen de datos o en cualquier base de datos Implican las siguientes operaciones Extraccion Accion de obtener la informacion deseada a partir de los datos almacenados en fuentes externas Transformacion Cualquier operacion realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de este a otra base de datos Carga Consiste en almacenar los datos en la base de datos final por ejemplo el almacen de datos objetivo normal Middleware Editar Articulo principal Middleware Middleware es un termino generico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogeneas Estos servicios funcionan como una capa de abstraccion de software distribuida que se situa entre las capas de aplicaciones y las capas inferiores sistema operativo y red El middleware puede verse como una capa API que sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se ejecutaran De esta manera se ofrece una mejor relacion costo rendimiento que pasa por el desarrollo de aplicaciones mas complejas en menos tiempo La funcion del middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacen de datos Diseno de un almacen de datos EditarPara construir un Data Warehouse se necesitan herramientas para ayudar a la migracion y a la transformacion de los datos hacia el almacen Una vez construido se requieren medios para manejar grandes volumenes de informacion Se disena su arquitectura dependiendo de la estructura interna de los datos del almacen y especialmente del tipo de consultas a realizar Con este criterio los datos deben ser repartidos entre numerosos data marts Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organizacion o empresa los cuales se describen a continuacion Situacion actual de partida Cualquier solucion propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura tecnica existente y planeada de la compania Tipo y caracteristicas del negocio Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organizacion y el soporte que representa la informacion dentro de todo su proceso de toma de decisiones Entorno tecnico Se debe incluir tanto el aspecto del hardware mainframes servidores redes asi como aplicaciones y herramientas Se dara enfasis a los Sistemas de soporte a decisiones DSS si existen en la actualidad como operan etc Expectativas de los usuarios Un proyecto de data warehouse no es unicamente un proyecto tecnologico es una forma de vida de las organizaciones y como tal tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad Etapas de desarrollo Con el conocimiento previo ya se entra en el desarrollo de un modelo conceptual para la construccion del data warehouse Prototipo Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto final que sera entregado a los usuarios Piloto El piloto de un data warehouse es el primero o cada uno de los primeros resultados generados de forma iterativa que se haran para llegar a la construccion del producto final deseado Prueba del concepto tecnologico Es un paso opcional que se puede necesitar para determinar si la arquitectura especificada del data warehouse funcionara finalmente como se espera Almacen de datos espacial EditarAlmacen de datos espacial es una coleccion de datos orientados al tema integrados no volatiles variantes en el tiempo y que anaden la geografia de los datos para la toma de decisiones Sin embargo la componente geografica no es un dato agregado sino que es una dimension o variable en la tecnologia de la informacion de tal manera que permita modelar todo el negocio como un ente holistico y que a traves de herramientas de procesamiento analitico en linea OLAP no solamente se posea un alto desempeno en consultas multidimensionales sino que adicionalmente se puedan visualizar espacialmente los resultados El almacen de datos espacial forma parte de un extensivo Sistema de Informacion Geografica para la toma de decisiones este al igual que los SIG permiten que un gran numero de usuarios accedan a informacion integrada a diferencia de un simple almacen de datos que esta orientado al tema el Data warehouse espacial adicionalmente es Geo Relacional es decir que en estructuras relacionales combina e integra los datos espaciales con los datos descriptivos Actualmente es geo objetos esto es que los elementos geograficos se manifiestan como objetos con todas sus propiedades y comportamientos y que adicionalmente estan almacenados en una unica base de datos Objeto Relacional Los Data Warehouse Espaciales son aplicaciones basadas en un alto desempeno de las bases de datos que utilizan arquitecturas Cliente Servidor para integrar diversos datos en tiempo real Mientras los almacenes de datos trabajan con muchos tipos y dimensiones de datos muchos de los cuales no referencian ubicacion espacial a pesar de poseerla intrinsecamente y sabiendo que un 80 de los datos poseen representacion y ubicacion en el espacio en los Data warehouse espaciales la variable geografica desempena un papel importante en la base de informacion para la construccion del analisis y de igual manera que para un Data warehouse la variable tiempo es imprescindible en los analisis para los Data warehouse espaciales la variable geografica debe ser almacenada directamente en ella Ventajas e inconvenientes de los almacenes de datos EditarVentajas Editar Hay muchas ventajas por las que es recomendable usar un almacen de datos Algunas de ellas son Los almacenes de datos hacen mas facil el acceso a una gran variedad de datos a los usuarios finales Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decision tales como informes de tendencia por ejemplo obtener los items con la mayoria de las ventas en un area en particular dentro de los ultimos dos anos informes de excepcion informes que muestran los resultados reales frente a los objetivos planteados a priori Los almacenes de datos pueden trabajar en conjunto y por lo tanto aumentar el valor operacional de las aplicaciones empresariales en especial la gestion de relaciones con clientes Inconvenientes Editar Utilizar almacenes de datos tambien plantea algunos inconvenientes algunos de ellos son A lo largo de su vida los almacenes de datos pueden suponer altos costos El almacen de datos no suele ser estatico Los costos de mantenimiento son elevados Los almacenes de datos se pueden quedar obsoletos relativamente pronto A veces ante una peticion de informacion estos devuelven una informacion suboptima que tambien supone una perdida para la organizacion A menudo existe una delgada linea entre los almacenes de datos y los sistemas operacionales Hay que determinar que funcionalidades de estos se pueden aprovechar y cuales se deben implementar en el data warehouse resultaria costoso implementar operaciones no necesarias o dejar de implementar alguna que si vaya a necesitarse Vease tambien EditarAlmacen de datos espacial Area de stage o zona landing Cuadro de mando integral Data mart Esquema de la estrella Esquema del copo de nieve Inteligencia empresarial Mineria de datos espacial Mineria de datos Modelo de base de datos Cubos OLAP Sistema de gestion de base de datos Sistema gestor de base de datos orientado a columnas Sistemas de soporte a decisiones Sistemas de informacion ejecutiva Tabla de hechos Tabla de dimension Vision unica del clienteNotas y referencias Editar Exploring Data Warehouses and Data Quality spotlessdata com Dedic N and Stanier C 2016 An Evaluation of the Challenges of Multilingualism in Data Warehouse Development in 18th International Conference on Enterprise Information Systems ICEIS 2016 p 196 Kimball Ralph 2004 1 The Data Warehouse ETL Toolkit en ingles Wiley p 23 ISBN 0 764 57923 1 What is Big Data Ganczarski Joe Data Warehouse Implementations Critical Implementation Factors Study VDM Verlag 2009 ISBN 3 639 18589 7 ISBN 978 3 639 18589 8 Pyle Dorian Business Modeling and Data Mining Morgan Kaufmann 2003 ISBN 1 55860 653 X Datos Q193351Obtenido de https es wikipedia org w index php title Almacen de datos amp oldid 138409777, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos