Saltar al contenido principal
LibreTexts Español

4.7: Almacén de datos

  • Page ID
    155563
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

    A medida que las organizaciones han comenzado a utilizar las bases de datos como pieza central de sus operaciones, la necesidad de comprender y aprovechar completamente los datos que están recopilando se ha vuelto cada vez más evidente. Sin embargo, analizar directamente los datos necesarios para las operaciones diarias no es una buena idea; no queremos gravar las operaciones de la compañía más de lo necesario. Además, las organizaciones también quieren analizar datos en un sentido histórico: ¿Cómo se comparan los datos que tenemos hoy con el mismo conjunto de datos esta vez el mes pasado o el año pasado? De estas necesidades surgió el concepto de almacén de datos.

    El concepto de almacén de datos es simple: extraer datos de una o más de las bases de datos de la organización y cargarlos en el almacén de datos (que en sí es otra base de datos) para su almacenamiento y análisis. No obstante, la ejecución de este concepto no es tan sencilla. Un almacén de datos debe diseñarse de manera que cumpla con los siguientes criterios:

    • Utiliza datos no operativos. Esto significa que el almacén de datos utiliza una copia de los datos de las bases de datos activas que la empresa utiliza en sus operaciones diarias, por lo que el almacén de datos debe extraer datos de las bases de datos existentes de forma regular y programada.
    • Los datos son variables en el tiempo. Esto significa que cada vez que se cargan datos en el almacén de datos, recibe una marca de tiempo, lo que permite comparaciones entre diferentes períodos de tiempo.
    • Los datos están estandarizados. Debido a que los datos en un almacén de datos suelen provenir de varias fuentes diferentes, es posible que los datos no utilicen las mismas definiciones o unidades. Por ejemplo, nuestra tabla Eventos en nuestra base de datos de Clubes Estudiantiles enumera las fechas de los eventos usando el formato mm/dd/aaaa (por ejemplo, 01/10/2013). Una tabla en otra base de datos podría usar el formato yy/mm/dd (por ejemplo, 13/01/10) para las fechas. Para que el almacén de datos coincida con las fechas, se tendría que acordar un formato de fecha estándar, y todos los datos cargados en el almacén de datos tendrían que ser convertidos para usar este formato estándar. Este proceso se llama extracción-transformación-carga (ETL).

    Hay dos escuelas primarias de pensamiento a la hora de diseñar un data warehouse: bottom-up y top-down. El enfoque de abajo hacia arriba comienza creando pequeños almacenes de datos, llamados data marts, para resolver problemas específicos del negocio. A medida que se crean estos data marts, se pueden combinar en un almacén de datos más grande. El enfoque de arriba hacia abajo sugiere que debemos comenzar por crear un almacén de datos para toda la empresa y luego, a medida que se identifican las necesidades específicas del negocio, crear data marts más pequeños a partir del almacén de datos.

    Behaviorism_1.gif
    Figura\(\PageIndex{1}\): Proceso de almacén de datos (arriba hacia abajo). Imagen de Soha jamil está licenciada bajo CC BY-SA 4.0

    Beneficios de los Almacenes de Datos

    Las organizaciones encuentran los almacenes de datos bastante beneficiosos por muchas razones:

    • Capacidad para integrar datos de múltiples sistemas formateados con diferentes software y compilarlos para obtener una visión más profunda.
    • El proceso de desarrollo de un almacén de datos obliga a una organización a comprender mejor los datos de lo que está recopilando actualmente y, igualmente importante, qué datos no se están recopilando.
    • Un almacén de datos proporciona una vista centralizada de todos los datos que se recopilan en toda la empresa y proporciona un medio para determinar datos inconsistentes.
    • Una vez que todos los datos son identificados como consistentes, una organización puede generar una versión de la verdad. Esto es importante cuando la empresa quiere reportar estadísticas consistentes sobre sí misma, como ingresos o números de empleados.
    • Al tener un almacén de datos, las instantáneas de los datos se pueden tomar a lo largo del tiempo. Esto crea un registro histórico de datos, lo que permite un análisis de tendencias.
    • Un almacén de datos proporciona herramientas para combinar datos, que pueden proporcionar nueva información y análisis.