Saltar al contenido principal
LibreTexts Español

11.5: Almacenes de Datos y Data Marts

  • Page ID
    61347
    • Anonymous
    • LibreTexts
    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Objetivos de aprendizaje

    Después de estudiar esta sección deberías poder hacer lo siguiente:

    1. Entender qué son los data warehouses y data marts y el propósito que sirven.
    2. Conocer los temas que deben abordarse para diseñar, desarrollar, implementar y mantener data warehouses y data marts.

    Dado que ejecutar análisis con datos transaccionales puede atascar un sistema, y dado que la mayoría de las organizaciones necesitan combinar y reformatear datos de múltiples fuentes, las empresas suelen necesitar crear repositorios de datos separados para su trabajo de informes y análisis, una especie de área de preparación desde la que convertir esos datos en información.

    Dos términos que escuchará para este tipo de repositorios son data warehouse y data mart. Un almacén de datos es un conjunto de bases de datos diseñadas para apoyar la toma de decisiones en una organización. Está estructurado para consultas y exploración rápidas en línea. Los almacenes de datos pueden agregar enormes cantidades de datos de muchos sistemas operativos diferentes.

    Un data mart es una base de datos enfocada en abordar las preocupaciones de un problema específico (por ejemplo, aumentar la retención de clientes, mejorar la calidad del producto) o unidad de negocio (por ejemplo, marketing, ingeniería).

    Los marts y almacenes pueden contener enormes volúmenes de datos. Por ejemplo, una empresa puede no necesitar mantener grandes cantidades de datos históricos de puntos de venta o transacciones en sus sistemas operativos, pero podría querer datos pasados en su data mart para que los gerentes puedan buscar patrones y tendencias que ocurren a lo largo del tiempo.

    Figura 11.2

    Los sistemas de información que soportan operaciones (como TPS) suelen ser independientes y los sistemas de información de “alimentación” se utilizan para análisis (como almacenes de datos y data marts).

    Los sistemas de información que soportan operaciones (como TPS) suelen ser independientes y los sistemas de información de “alimentación” se utilizan para análisis (como almacenes de datos y data marts).

    Es fácil para las empresas dejarse seducir por la demostración de un proveedor de software que muestra datos al alcance de su mano, presentados en bonitas gráficas. Pero como se mencionó anteriormente, obtener datos en un formato que pueda usarse para análisis es un trabajo duro, complejo y desafiante. Los grandes almacenes de datos pueden costar millones y tardar años en construirse. Cada dólar gastado en tecnología puede llevar a cinco a siete dólares más en consultoría y otros servicios (King, 2009).

    La mayoría de las empresas se enfrentarán a una compensación: ¿intentamos una integración a gran escala de toda la empresa o esfuerzos más específicos con pagos más rápidos? Las empresas en industrias de rápido movimiento o con negocios particularmente complejos pueden tener dificultades para completar proyectos amplios en el tiempo suficiente para obtener beneficios antes de que cambien las condiciones comerciales. La mayoría de los consultores ahora asesoran proyectos más pequeños con un alcance reducido impulsados por objetivos comerciales específicos (Rigby y Ledingham, 2004; King, 2009).

    Las empresas eventualmente pueden llegar a un almacén de datos unificado, pero puede llevar tiempo. Incluso el rey de la analítica Wal-Mart apenas está llegando a ese punto. En 2007, se informó que Wal-Mart contaba con setecientos mercados de datos diferentes y contrató a Hewlett-Packard para que le ayudara a unir los sistemas para formar un almacén de datos más integrado (Havenstein, 2007).

    El viejo dicho de la película Field of Dreams, “Si lo construyes, ellos vendrán”, no aguanta bien para proyectos de análisis de datos a gran escala. Este trabajo debe comenzar con una visión clara con objetivos enfocados en el negocio. Cuando los altos ejecutivos puedan ver los objetivos ilustrados en la recompensa potencial, podrán defender el esfuerzo, y los expertos coinciden, tener un campeón ejecutivo es un factor clave de éxito. Enfocarse en temas de negocios también impulsará la elección de tecnología, con la firma más capaz de enfocarse en los productos que mejor se adapten a sus necesidades.

    Una vez que una empresa tiene los objetivos comerciales y los pagos esperados claramente definidos, puede abordar los problemas más amplios necesarios para diseñar, desarrollar, implementar y mantener su sistema 1: /p>

    • Relevancia de datos. ¿Qué datos se necesitan para competir en análisis y cumplir con nuestros objetivos actuales y futuros?
    • Abastecimiento de datos ¿Podemos incluso obtener los datos que necesitaremos? ¿De dónde se pueden obtener estos datos? ¿Está disponible a través de nuestros sistemas internos? ¿Vía agregadores de datos de terceros? ¿Vía proveedores o socios de ventas? ¿Necesitamos establecer nuevos sistemas, encuestas y otros esfuerzos de recolección para adquirir los datos que necesitamos?
    • Cantidad de datos. ¿Cuántos datos se necesitan?
    • Calidad de los datos. ¿Se puede confiar en nuestros datos como precisos? ¿Está limpio, completo y razonablemente libre de errores? ¿Cómo se pueden hacer los datos más precisos y valiosos para el análisis? ¿Tendremos que 'fregar', calcular y consolidar los datos para que puedan ser utilizados?
    • Alojamiento de datos. ¿Dónde se alojarán los sistemas? ¿Cuáles son los requisitos de hardware y redes para el esfuerzo?
    • Gobernanza de datos. ¿Qué reglas y procesos se necesitan para gestionar los datos desde su creación hasta su retiro? ¿Hay problemas operativos (backup, recuperación ante desastres)? ¿Cuestiones legales? ¿Problemas de privacidad? ¿Cómo debe manejar la firma la seguridad y el acceso?

    Para alguna perspectiva sobre lo difícil que puede ser esto, considere que un ejecutivo de uno de los bancos más grandes de Estados Unidos alguna vez lamentó lo difícil que era conseguir que sus sistemas hicieran algo tan simple como distinguir adecuadamente entre hombres y mujeres. El almacén de datos centrado en el cliente de la compañía obtuvo datos de treinta y seis sistemas operativos separados: sistemas de cajeros bancarios, cajeros automáticos, sistemas de informes de préstamos estudiantiles, sistemas de préstamos para automóviles, sistemas de préstamos hipotecarios y más. Colectivamente estos sistemas heredados expresaban el género de diecisiete maneras diferentes: “M” o “F”; “m” o “f”; “Masculino” o “Femenino”; “MASCULINO” o “FEMENINO”; “1" para el hombre, “0" para la mujer; “0" para el hombre, “1" para la mujer y más, más diversos códigos para “desconocido”. La mejor matemática del mundo no sirve de nada si los valores utilizados no son buenos. Hay un dicho en la industria, “basura adentro, basura afuera”.

    e-Discovery: Apoyo a consultas legales

    El archivo de datos no es solo para análisis. En ocasiones la ley exige que las organizaciones se sumerjan en sus registros electrónicos. e-Discovery se refiere a identificar y recuperar información electrónica relevante para apoyar los esfuerzos de litigio. El descubrimiento electrónico es algo que una empresa debe tener en cuenta en sus planes de archivo y almacenamiento de datos. A diferencia de los análisis que prometen un impulso a los resultados finales, no hay ganancias en cumplir con la orden de un juez, es solo un costo hundido. Pero las organizaciones pueden verse obligadas por orden judicial a barrer sus bits, y el costo de descubrir datos de difícil acceso puede ser significativo, si no se planifica con anticipación.

    En un ejemplo reciente, se citó a la Oficina Federal de Supervisión de Empresas de Vivienda (OFHEO) para documentos en litigio que involucraban a las firmas hipotecarias Fannie Mae y Freddie Mac. A pesar de que la OFHEO no era parte en la demanda, la agencia tuvo que cumplir con la búsqueda, un esfuerzo que costó 6 millones de dólares, un 9 por ciento completo de su presupuesto anual total (Conry-Murray, 2009).

    Claves para llevar

    • Los almacenes de datos y data marts son repositorios para grandes cantidades de datos transaccionales que esperan análisis e informes.
    • Los grandes almacenes de datos son complejos, pueden costar millones y tardan años en construirse.

    Preguntas y ejercicios

    1. Enumere los problemas que deben abordarse para diseñar, desarrollar, implementar y mantener data warehouses y data marts.
    2. ¿Qué se entiende por “relevancia de datos”?
    3. ¿Qué se entiende por “gobierno de datos”?
    4. ¿Cuál es la diferencia entre un data mart y un data warehouse?
    5. ¿Por qué son necesarios los data marts y data warehouses? ¿Por qué una organización no puede simplemente consultar su base de datos transaccional?
    6. ¿Cómo puede algo tan simple como el género del cliente ser difícil de establecer para una organización grande en un almacén de datos?

    1 Puntos clave adaptados de Davenport y J. Harris, Competir en la analítica: La nueva ciencia de ganar (Boston: Harvard Business School Press, 2007).

    Referencias

    Conry-Murray, A., “El dolor del descubrimiento electrónico”, InformationWeek, 1 de junio de 2009.

    Havenstein, H., “HP Nabs Wal-Mart como cliente de almacenamiento de datos”, Computerworld, 1 de agosto de 2007.

    King, R., “Intelligence Software for Business”, podcast BusinessWeek, 27 de febrero de 2009.

    Rigby D. y D. Ledingham, “CRM Done Right”, Harvard Business Review, noviembre de 2004.


    This page titled 11.5: Almacenes de Datos y Data Marts is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Anonymous via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.