4: Datos y bases de datos
- Page ID
- 154062
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Objetivos de aprendizaje
Al finalizar con éxito este capítulo, usted será capaz de:
- Describir las diferencias entre datos, información y conocimiento;
- Describir por qué se debe utilizar la tecnología de bases de datos para la administración de recursos
- Definir el término base de datos e identificar los pasos para crear una;
- Describir el papel de un sistema de gestión de bases de datos;
- Describir las características de un almacén de datos; y
- Definir la minería de datos y describir su papel en una organización.
Introducción
Ya te han presentado los dos primeros componentes de los sistemas de información: hardware y software. Sin embargo, esos dos componentes por sí mismos no hacen que una computadora sea útil. Imagínese si encendiera una computadora, iniciara el procesador de textos, pero no pudiera guardar un documento. Imagínese si abriera un reproductor de música pero no hubiera música para tocar. Imagina abrir un navegador web pero no había páginas web. Sin datos, ¡el hardware y el software no son muy útiles! Los datos son el tercer componente de un sistema de información.
Datos, Información y Conocimiento
Ha habido muchas definiciones y teorías sobre datos, información y conocimiento. Los tres términos a menudo se usan indistintamente, aunque son de naturaleza distinta. Definimos e ilustramos los tres términos desde la perspectiva de los sistemas de información.
Los datos son los hechos brutos, y pueden estar desprovistos de contexto o intención. Por ejemplo, un pedido de venta de computadoras es un dato. Los datos pueden ser cuantitativos o cualitativos. Los datos cuantitativos son numéricos, el resultado de una medición, conteo o algún otro cálculo matemático. Los datos cualitativos son descriptivos. “Rojo Rubí”, el color de un Ford Focus 2013, es un ejemplo de datos cualitativos. Un número también puede ser cualitativo: si te digo mi número favorito es 5, ese es dato cualitativo porque es descriptivo, no el resultado de una medición o cálculo matemático.
La información es datos procesados que poseen contexto, relevancia y propósito. Por ejemplo, las ventas mensuales calculadas a partir de los datos de ventas diarias recopilados del año pasado son información. La información generalmente implica la manipulación de datos brutos para obtener una indicación de magnitud, tendencias, en patrones en los datos para un propósito.
El conocimiento en un área determinada son creencias o percepciones humanas sobre las relaciones entre hechos o conceptos relevantes para esa área. Por ejemplo, la relación concebida entre la calidad de los bienes y las ventas es el conocimiento. El conocimiento puede ser visto como información que facilita la acción.
Una vez que hemos puesto nuestros datos en contexto, los hemos agregado y analizado, podemos utilizarlos para tomar decisiones para nuestra organización. Podemos decir que este consumo de información produce conocimiento. Este conocimiento puede ser utilizado para tomar decisiones, establecer políticas e incluso impulsar la innovación.
El conocimiento explícito generalmente se refiere al conocimiento que se puede expresar en palabras o números. En contraste, el conocimiento tácito incluye percepciones e intuiciones, y es difícil de transferir a otra persona por medio de comunicaciones simples.
Evidentemente, cuando se captura y almacena información o conocimiento explícito en computadora, se convertiría en datos si el contexto o intención está desprovisto.
El paso final en la escalera de la información es el paso del conocimiento (saber mucho sobre un tema) a la sabiduría. Podemos decir que alguien tiene sabiduría cuando puede combinar sus conocimientos y experiencia para producir una comprensión más profunda de un tema. A menudo lleva muchos años desarrollar sabiduría sobre un tema en particular, y requiere paciencia.
Big Data
Casi todos los programas de software requieren datos para hacer algo útil. Por ejemplo, si está editando un documento en un procesador de textos como Microsoft Word, el documento en el que está trabajando son los datos. El software de procesamiento de textos puede manipular los datos: crear un nuevo documento, duplicar un documento o modificar un documento. Algunos otros ejemplos de datos son: un archivo de música MP3, un archivo de video, una hoja de cálculo, una página web, una publicación en redes sociales y un libro electrónico.
Recientemente, el big data ha estado captando la atención de todo tipo de organizaciones. El término se refiere a conjuntos de datos tan masivamente grandes que las tecnologías de procesamiento de datos convencionales no tienen el poder suficiente para analizarlos. Por ejemplo, Walmart debe procesar millones de transacciones de clientes cada hora en todo el mundo. Almacenar y analizar esa gran cantidad de datos está más allá del poder de las herramientas tradicionales de administración de datos. Comprender y desarrollar las mejores herramientas y técnicas para administrar y analizar estos grandes conjuntos de datos es un problema que tanto los gobiernos como las empresas están tratando de resolver.
Bases de datos
El objetivo de muchos sistemas de información es transformar los datos en información con el fin de generar conocimiento que pueda ser utilizado para la toma de decisiones. Para ello, el sistema debe ser capaz de tomar datos, permitir que el usuario ponga los datos en contexto, y proporcionar herramientas de agregación y análisis. Una base de datos está diseñada para tal propósito.
¿Por qué Bases de Datos
Los datos son un recurso valioso en la organización. Sin embargo, muchas personas no saben mucho sobre la tecnología de bases de datos, pero utilizan herramientas que no son de base de datos, como la hoja de cálculo de Excel o el documento de Word, para almacenar y manipular datos comerciales, o bien utilizan bases de datos mal diseñadas para los procesos Como resultado, los datos son redundantes, inconsistentes, inexactos y corruptos. Para un conjunto de datos pequeño, el uso de herramientas que no son de base de datos, como la hoja de cálculo, puede no causar problemas graves. Sin embargo, para una organización grande, los datos corruptos podrían llevar a graves errores y consecuencias destructivas. Los defectos comunes en la gestión de recursos de datos se explican de la siguiente manera.
(1) Sin control de datos redundantes
Las personas a menudo mantienen datos redundantes para mayor comodidad. Los datos redundantes podrían hacer que el conjunto de datos sea inconsistente Utilizamos un ejemplo ilustrativo para explicar por qué los datos redundantes son dañinos. Supongamos que la oficina del registro tiene dos archivos separados que almacenan datos de los estudiantes: uno es la lista de estudiantes registrados que registra a todos los estudiantes que se han registrado y pagado la matrícula, y el otro es la lista de grado estudiantil que registra todos los estudiantes que han recibido calificaciones.
Como puede ver en las dos hojas de cálculo, este sistema de gestión de datos tiene problemas. El hecho de que “Estudiante 4567 es Mary Brown, y su especialidad es Finanzas” se almacena más de una vez. Tales ocurrencias se denominan redundancia de datos. Los datos redundantes suelen hacer que el acceso a los datos sea conveniente, pero puede ser dañino Por ejemplo, si Mary Brown cambia su nombre o su mayor, entonces todos sus nombres y mayores almacenados en el sistema deben cambiarse por completo. Para los sistemas de datos pequeños, tal problema parece trivial. Sin embargo, cuando el sistema de datos es enorme, hacer cambios en todos los datos redundantes es difícil si no imposible. Como resultado de la redundancia de datos, todo el conjunto de datos puede corromperse.
(2) Violación de la integridad de los datos
La integridad de los datos significa consistencia entre los datos almacenados. Utilizamos el ejemplo ilustrativo anterior para explicar el concepto de integridad de datos y cómo se puede violar la integridad de los datos si el sistema de datos es defectuoso. Puedes encontrar que Alex Wilson recibió una calificación en MKT211; sin embargo, no puedes encontrar a Alex Wilson en la lista de estudiantes. Es decir, los dos rosters no son consistentes. Supongamos que tenemos un control de integridad de datos para hacer cumplir las reglas, digamos, “ningún estudiante puede recibir una calificación a menos que se haya registrado y pagado la matrícula”, entonces tal violación de la integridad de los datos nunca podrá suceder.
(3) Confiar en la memoria humana para almacenar y buscar los datos necesarios
El tercer error común en la gestión de recursos de datos es el uso excedente de la memoria humana para la búsqueda de datos. Un humano puede recordar qué datos se almacenan y dónde se almacenan los datos, pero también puede cometer errores. Si un dato se almacena en un lugar no recordado, en realidad se ha perdido. Como resultado de confiar en la memoria humana para almacenar y buscar los datos necesarios, todo el conjunto de datos eventualmente se desorganiza.
Para evitar las fallas comunes anteriores en la gestión de recursos de datos, se debe aplicar la tecnología de bases de datos. Una base de datos es una colección organizada de datos relacionados. Se trata de una colección organizada, pues en una base de datos, todos los datos son descritos y asociados con otros datos. Para los efectos de este texto, sólo consideraremos bases de datos informatizadas.
Aunque no son buenas para reemplazar bases de datos, las hojas de cálculo pueden ser herramientas ideales para analizar los datos almacenados en una base de datos. Un paquete de hoja de cálculo se puede conectar a una tabla o consulta específica en una base de datos y usarse para crear gráficos o realizar análisis sobre esos datos.
Modelos de datos y bases de datos relacionales
Las bases de datos se pueden organizar de muchas maneras diferentes mediante el uso de diferentes modelos. El modelo de datos de una base de datos es la estructura lógica de los elementos de datos y sus relaciones. Ha habido varios modelos de datos. Desde la década de 1980, se ha popularizado el modelo de datos relacionales. Actualmente, los sistemas de bases de datos relacionales se utilizan comúnmente en organizaciones empresariales con pocas excepciones. Un modelo de datos relacionales es fácil de entender y usar.
En una base de datos relacional, los datos se organizan en tablas (o relaciones). Cada tabla tiene un conjunto de campos que definen la estructura de los datos almacenados en la tabla. Un registro es una instancia de un conjunto de campos en una tabla. Para visualizar esto, piense en los registros como las filas (o tuplas) de la tabla y los campos como las columnas de la tabla.
En el siguiente ejemplo, tenemos una tabla de datos del estudiante, con cada fila representando un registro de estudiante, y cada columna representa uno archivado del registro del estudiante. Un archivo especial o una combinación de campos que determina el registro único se llama clave primaria (o clave). Una clave suele ser el número de identificación único de los registros.
Diseñar una base de datos
Supongamos que una universidad quiere crear una Base de Datos Escolar para rastrear los datos. Después de entrevistar a varias personas, el equipo de diseño se entera de que el objetivo de implementar el sistema es dar una mejor visión del rendimiento y los recursos académicos de los estudiantes. A partir de esto, el equipo decide que el sistema debe realizar un seguimiento de los alumnos, sus calificaciones, cursos y aulas. Con esta información, el equipo de diseño determina que se deben crear las siguientes tablas:
- ESTUDIANTE: nombre del alumno, especialidad y correo electrónico.
- CURSO: título del curso, capacidad de inscripción.
- GRADO: esta tabla correlacionará ESTUDIANTE con CURSO, permitiéndonos tener a cualquier alumno dado para inscribir múltiples cursos y recibir una calificación por cada curso.
- AULA: ubicación del aula, tipo de aula y capacidad de aula
Ahora que el equipo de diseño ha determinado qué tablas crear, necesitan definir los elementos de datos específicos que contendrá cada tabla. Esto requiere identificar los campos que estarán en cada tabla. Por ejemplo, el título del curso sería uno de los campos de la tabla CURSO. Por último, dado que esta será una base de datos relacional, cada tabla debe tener un campo en común con al menos otra tabla (es decir, deben tener relaciones entre sí).
Se debe seleccionar una clave primaria para cada tabla en una base de datos relacional. Esta clave es un identificador único para cada registro de la tabla. Por ejemplo, en la tabla ESTUDIANTE, podría ser posible utilizar el nombre del alumno como una forma de identificar a un alumno. No obstante, es más que probable que algunos alumnos compartan el mismo nombre. La dirección de correo electrónico de un estudiante puede ser una buena opción para una clave primaria, ya que las direcciones de correo electrónico son únicas. Sin embargo, una clave primaria no puede cambiar, por lo que esto significaría que si los estudiantes cambiaban su dirección de correo electrónico tendríamos que eliminarlos de la base de datos y luego volver a insertarlos, no una propuesta atractiva. Nuestra solución es utilizar el ID de estudiante como la clave principal de la tabla ESTUDIANTE. También haremos esto para la mesa del CURSO y la mesa AULA. Esta solución es bastante común y es la razón por la que tienes tantos ID! La clave principal de la tabla puede ser solo un campo, pero también puede ser una combinación de dos o más campos. Por ejemplo, la combinación de StudId y CourseID la tabla GRADE puede ser la clave primaria de la tabla GRADE, lo que significa que un estudiante en particular recibe una calificación para un curso específico.
El siguiente paso del diseño de la base de datos es identificar y establecer las relaciones entre las tablas para que pueda juntar los datos de manera significativa. Una relación entre dos tablas se implementa mediante el uso de una clave externa. Una clave externa es un campo en una tabla que se conecta a los datos de clave primaria en la tabla original. Por ejemplo, ClassRoomID en la tabla CURSO es la clave externa que se conecta a la clave primaria ClassRoomID en la tabla AULA. Con este diseño, no solo tenemos una forma de organizar todos los datos que necesitamos y hemos relacionado con éxito toda la tabla para cumplir con los requisitos, sino que también hemos impedido que se ingresen datos inválidos en la base de datos. Puede ver el diseño final de la base de datos en la siguiente figura:
Normalización
Al diseñar una base de datos, un concepto importante a entender es la normalización. En términos simples, normalizar una base de datos significa diseñarla de manera que: 1) reduzca la redundancia de datos; y 2) asegure la integridad de los datos.
En el diseño de la Base de Datos Escolares, el equipo de diseño trabajó para lograr estos objetivos. Por ejemplo, para realizar un seguimiento de las calificaciones, una solución simple (e incorrecta) podría haber sido crear un campo Estudiante en la tabla CURSO y luego simplemente enumerar los nombres de todos los estudiantes allí. No obstante, este diseño significaría que si un estudiante toma dos o más cursos, entonces sus datos tendrían que ingresarse dos veces o más veces. Esto significa que los datos son redundantes. En cambio, los diseñadores resolvieron este problema introduciendo la tabla GRADE.
En este diseño, cuando un alumno se registra en el sistema escolar antes de tomar un curso, primero debemos agregar al alumno a la tabla ESTUDIANTE, donde se ingresa su identificación, nombre, especialidad y dirección de correo electrónico. Ahora agregaremos una nueva entrada para denotar que el alumno toma un curso específico. Esto se logra agregando un registro con el StudentD y el CourseID en la tabla GRADE. Si este estudiante toma un segundo curso, no tenemos que duplicar la entrada del nombre del estudiante, especialización y correo electrónico; en su lugar, solo necesitamos hacer otra entrada en la tabla GRADE de la identificación del segundo curso y la identificación del estudiante.
El diseño de la base de datos de la Escuela también facilita el cambio de diseño sin mayores modificaciones en la estructura existente. Por ejemplo, si se le pidiera al equipo de diseño que agregara funcionalidad al sistema para rastrear a los instructores que imparten los cursos, podríamos lograrlo fácilmente agregando una tabla PROFESOR (similar a la tabla ESTUDIANTE) y luego agregando un nuevo campo a la tabla CURSO para contener el ID de profesores.
Tipos de datos
Al definir los campos en una tabla de base de datos, debemos darle a cada campo un tipo de datos. Por ejemplo, el campo StudentName es cadena de texto, mientras que EnrollmentCapacity es número. La mayoría de las bases de datos modernas permiten almacenar varios tipos de datos diferentes. Algunos de los tipos de datos más comunes se enumeran aquí:
- Texto: para almacenar datos no numéricos que sean breves, generalmente bajo 256 caracteres. El diseñador de la base de datos puede identificar la longitud máxima del texto.
- Número: para almacenar números. Por lo general, hay algunos tipos de números diferentes que se pueden seleccionar, dependiendo de qué tan grande sea el número más grande.
- Booleano: un tipo de datos con sólo dos valores posibles, como 0 o 1, “true” o “false”, “yes” o “no”.
- Fecha/Hora: una forma especial del tipo de datos numéricos que puede interpretarse como un número o una hora.
- Moneda: una forma especial del tipo de datos numéricos que formatea todos los valores con un indicador de moneda y dos decimales.
- Texto de párrafo: este tipo de datos permite textos de más de 256 caracteres.
- Objeto: este tipo de datos permite el almacenamiento de datos que no se pueden ingresar a través del teclado, como una imagen o un archivo de música.
Hay dos razones importantes por las que debemos definir adecuadamente el tipo de datos de un campo. Primero, un tipo de datos le dice a la base de datos qué funciones se pueden realizar con los datos. Por ejemplo, si deseamos realizar funciones matemáticas con uno de los campos, debemos asegurarnos de decirle a la base de datos que el campo es un tipo de datos numéricos. Por ejemplo, podemos restar la capacidad del curso de la capacidad del aula para averiguar el número de asientos adicionales disponibles.
La segunda razón importante para definir el tipo de datos es para que se asigne la cantidad adecuada de espacio de almacenamiento para nuestros datos. Por ejemplo, si el campo StudentName se define como un tipo de datos Text (50), esto significa que se asignan 50 caracteres por cada nombre que queremos almacenar. Si el nombre de un estudiante tiene más de 50 caracteres, la base de datos lo truncará.
Sistemas de Gestión de Bases de
Para la computadora, una base de datos se parece a uno o más archivos. Para que los datos de la base de datos se almacenen, lean, cambien, agreguen o eliminen, un programa de software debe acceder a ellos. Muchas aplicaciones de software tienen esta capacidad: iTunes puede leer su base de datos para darte una lista de sus canciones (y reproducir las canciones); tu software de teléfono móvil puede interactuar con tu lista de contactos. Pero, ¿qué pasa con las aplicaciones para crear o administrar una base de datos? ¿Qué software puedes usar para crear una base de datos, cambiar la estructura de una base de datos o simplemente hacer análisis? Ese es el propósito de una categoría de aplicaciones de software llamada sistemas de gestión de bases de datos (DBMS).
Los paquetes DBMS generalmente proporcionan una interfaz para ver y cambiar el diseño de la base de datos, crear consultas y desarrollar informes. La mayoría de estos paquetes están diseñados para funcionar con un tipo específico de base de datos, pero generalmente son compatibles con una amplia gama de bases de datos.
Una base de datos que solo puede ser utilizada por un solo usuario a la vez no va a satisfacer las necesidades de la mayoría de las organizaciones. A medida que las computadoras se han conectado en red y ahora se unen en todo el mundo a través de Internet, ha surgido una clase de base de datos a la que pueden acceder dos, diez o incluso un millón de personas. Estas bases de datos a veces se instalan en una sola computadora para ser accedidas por un grupo de personas en una sola ubicación. Otras veces, se instalan sobre varios servidores en todo el mundo, destinados a ser accedidos por millones. En las empresas, los DBMS relacionales son construidos y soportados por compañías como Oracle, Microsoft SQL Server e IBM Db2. El MySQL de código abierto también es una base de datos empresarial.
Microsoft Access y Open Office Base son ejemplos de sistemas de administración de bases de datos personales. Estos sistemas se utilizan principalmente para desarrollar y analizar bases de datos de un solo usuario. Estas bases de datos no están destinadas a ser compartidas a través de una red o Internet, sino que se instalan en un dispositivo en particular y funcionan con un solo usuario a la vez. Apache OpenOffice.org Base (ver captura de pantalla) se puede utilizar para crear, modificar y analizar bases de datos en formato de base de datos abiertos (ODB). Access DBMS de Microsoft se utiliza para trabajar con bases de datos en su propio formato Microsoft Access Database. Tanto Access como Base tienen la capacidad de leer y escribir en otros formatos de base de datos también.
Lenguaje de consultas estructuradas
Una vez que tengas una base de datos diseñada y cargada con datos, ¿cómo harás algo útil con ella? La forma principal de trabajar con una base de datos relacional es usar Lenguaje de Consulta Estructurado, SQL (pronunciado “secuela” o simplemente declarado como S-Q-L). Casi todas las aplicaciones que trabajan con bases de datos (como los sistemas de gestión de bases de datos, que se analizan a continuación) hacen uso de SQL como una forma de analizar y manipular datos relacionales. Como su nombre lo indica, SQL es un lenguaje que se puede utilizar para trabajar con una base de datos relacional. A partir de un
simple solicitud de datos a una operación de actualización compleja, SQL es un pilar de programadores y administradores de bases de datos. Para darte una idea de cómo podría ser SQL, aquí tienes un par de ejemplos usando nuestra base de datos de School:
La siguiente consulta recuperará la especialización del estudiante John Smith de la tabla ESTUDIANTE:
SELECT StudentMajor FROM STUDENT WHERE StudentName = ‘John Smith’;
La siguiente consulta listará el número total de alumnos en la tabla ESTUDIANTE:
SELECT COUNT(*) FROM STUDENT;
SQL se puede incrustar en muchos lenguajes informáticos que se utilizan para desarrollar aplicaciones basadas en la web independientes de la plataforma. Una descripción en profundidad de cómo funciona SQL está más allá del alcance de este texto introductorio, pero estos ejemplos deberían darle una idea del poder de usar SQL para manipular bases de datos relacionales. Muchos DBMS, como Microsoft Access, permiten utilizar QBE (Query-by-Example), una herramienta de consulta gráfica, para recuperar datos a través de comandos visualizados. QBE genera SQL para usted, y es fácil de usar. En comparación con SQL, QBE tiene funcionalidades limitadas y no puede funcionar sin el entorno DBMS.
Otros tipos de bases de datos
El modelo de base de datos relacional es el modelo de base de datos más utilizado actualmente. Sin embargo, existen muchos otros modelos de bases de datos que proporcionan diferentes fortalezas que el modelo relacional. El modelo de base de datos jerárquica, popular en las décadas de 1960 y 1970, conectó los datos juntos en una jerarquía, permitiendo una relación padre/hijo entre los datos. El modelo centrado en documentos permitió un almacenamiento de datos más desestructurado al colocar datos en “documentos” que luego podrían ser manipulados.
Quizás el nuevo desarrollo más interesante es el concepto de NoSQL (de la frase “no solo SQL”). NoSQL surgió de la necesidad de resolver el problema de bases de datos a gran escala repartidas en varios servidores o incluso en todo el mundo. Para que una base de datos relacional funcione correctamente, es importante que solo una persona pueda manipular un dato a la vez, concepto conocido como bloqueo de registros. Pero con las bases de datos actuales a gran escala (piense en Google y Amazon), esto simplemente no es posible. Una base de datos NoSQL puede trabajar con datos de una manera más flexible, permitiendo un entorno más desestructurado, comunicando cambios en los datos a lo largo del tiempo a todos los servidores que forman parte de la base de datos.
Como se indicó anteriormente, el modelo de base de datos relacional no escala bien. El término escala aquí se refiere a una base de datos cada vez más grande, siendo distribuida en un mayor número de computadoras conectadas a través de una red. Algunas empresas buscan proporcionar soluciones de bases de datos a gran escala al alejarse del modelo relacional a otros modelos más flexibles. Por ejemplo, Google ahora ofrece el almacén de datos de App Engine, que se basa en NoSQL. Los desarrolladores pueden usar el almacén de datos de App Engine para desarrollar aplicaciones que accedan a los datos desde cualquier parte del mundo. Amazon.com ofrece varios servicios de bases de datos para uso empresarial, incluyendo Amazon RDS, que es un servicio de base de datos relacional, y Amazon DynamoDB, una solución empresarial NoSQL.
Barra lateral: ¿Qué son los metadatos?
El término metadatos puede entenderse como “datos sobre datos”. Ejemplos de metadatos de la base de datos son:
- número de registros
- tipo de datos de campo
- tamaño del campo
- descripción del campo
- valor predeterminado del campo
- reglas de uso.
Cuando se está diseñando una base de datos, se crea un “diccionario de datos” para contener los metadatos, definiendo los campos y la estructura de la base de datos.
Encontrar valor en los datos: Business Intelligence
Con el auge del Big Data y una miríada de nuevas herramientas y técnicas a su disposición, las empresas están aprendiendo a usar la información en su beneficio. El término inteligencia de negocios se utiliza para describir el proceso que utilizan las organizaciones para tomar los datos que están recopilando y analizarlos con la esperanza de obtener una ventaja competitiva. Además de usar sus propios datos, almacenados en almacenes de datos (ver más abajo), las empresas a menudo compran información de corredores de datos para obtener una comprensión general de sus industrias y la economía. Los resultados de estos análisis pueden impulsar estrategias organizacionales y proporcionar ventaja competitiva.
Visualización de datos
La visualización de datos es la representación gráfica de información y datos. Estas representaciones gráficas (como tablas, gráficos y mapas) pueden resumir rápidamente los datos de una manera que es más intuitiva y puede conducir a nuevos conocimientos y entendimientos. Así como una imagen de un paisaje puede transmitir mucho más que un párrafo de texto que intenta describirlo, la representación gráfica de los datos puede dar sentido rápidamente a grandes cantidades de datos. Muchas veces, la visualización de datos es el primer paso hacia un análisis y comprensión más profundos de los datos recopilados por una organización. Ejemplos de software de visualización de datos incluyen Tableau y Google Data Studio.
Almacenes de Datos
A medida que las organizaciones han comenzado a utilizar las bases de datos como pieza central de sus operaciones, la necesidad de comprender y aprovechar completamente los datos que están recopilando se ha vuelto cada vez más evidente. Sin embargo, analizar directamente los datos que se necesitan para las operaciones del día a día no es una buena idea; no queremos gravar las operaciones de la empresa más de lo que necesitamos. Además, las organizaciones también quieren analizar datos en un sentido histórico: ¿Cómo se comparan los datos que tenemos hoy con el mismo conjunto de datos esta vez el mes pasado, o el año pasado? De estas necesidades surgió el concepto de almacén de datos.
El concepto de almacén de datos es simple: extraer datos de una o más de las bases de datos de la organización y cargarlos en el almacén de datos (que en sí es otra base de datos) para su almacenamiento y análisis. No obstante, la ejecución de este concepto no es tan sencilla. Un almacén de datos debe diseñarse de manera que cumpla con los siguientes criterios:
- Utiliza datos no operativos. Esto significa que el almacén de datos está utilizando una copia de los datos de las bases de datos activas que la empresa utiliza en sus operaciones diarias, por lo que el almacén de datos debe extraer datos de las bases de datos existentes de forma regular y programada.
- Los datos son variables en el tiempo. Esto significa que cada vez que se cargan datos en el almacén de datos, recibe una marca de tiempo, lo que permite comparaciones entre diferentes períodos de tiempo.
- Los datos están estandarizados. Debido a que los datos en un almacén de datos suelen provenir de varias fuentes diferentes, es posible que los datos no utilicen las mismas definiciones o unidades. Por ejemplo, cada base de datos utiliza su propio formato para las fechas (por ejemplo, mm/dd/aa, o dd/mm/aa, o yy/mm/dd, etc.). Para que el almacén de datos coincida con las fechas actualizadas, habría que acordar un formato de fecha estándar y todos los datos cargados en el almacén de datos tendrían que ser convertidos para usar este formato estándar. Este proceso se llama extracción-transformación-carga (ETL).
Hay dos escuelas primarias de pensamiento a la hora de diseñar un data warehouse: bottom-up y top-down. El enfoque de abajo hacia arriba comienza por la creación de pequeños almacenes de datos, llamados data marts, para resolver problemas específicos de negocio. A medida que se crean estos data marts, se pueden combinar en un almacén de datos más grande. El enfoque de arriba hacia abajo sugiere que debemos comenzar por crear un almacén de datos para toda la empresa y luego, a medida que se identifican las necesidades específicas del negocio, crear marts de datos más pequeños a partir del almacén de datos.
Beneficios de los Almacenes de Datos
Las organizaciones encuentran los almacenes de datos bastante beneficiosos por varias razones:
- El proceso de desarrollo de un almacén de datos obliga a una organización a comprender mejor los datos que está recopilando actualmente y, igualmente importante, qué datos no se están recopilando.
- Un almacén de datos proporciona una vista centralizada de todos los datos que se recopilan en toda la empresa y proporciona un medio para determinar datos que son inconsistentes.
- Una vez que todos los datos son identificados como consistentes, una organización puede generar “una versión de la verdad”. Esto es importante cuando la empresa quiere reportar estadísticas consistentes sobre sí misma, como ingresos o número de empleados.
- Al tener un almacén de datos, las instantáneas de los datos se pueden tomar a lo largo del tiempo. Esto crea un registro histórico de datos, lo que permite un análisis de tendencias.
- Un almacén de datos proporciona herramientas para combinar datos, que pueden proporcionar nueva información y análisis.
Minería de datos y aprendizaje automático
La minería de datos es el proceso de análisis de datos para encontrar tendencias, patrones y asociaciones previamente desconocidos e interesantes para tomar decisiones. Generalmente, la minería de datos se realiza a través de medios automatizados contra conjuntos de datos extremadamente grandes, como un almacén de datos. Algunos ejemplos de minería de datos incluyen:
- Un análisis de las ventas de una gran cadena de abarrotes podría determinar que la leche se compra con mayor frecuencia al día siguiente de que llueve en ciudades con una población menor a 50,000.
- Un banco puede encontrar que los solicitantes de préstamos cuyas cuentas bancarias muestran patrones particulares de depósito y retiro no son buenos riesgos crediticios.
- Un equipo de béisbol puede encontrar que jugadores universitarios de béisbol con estadísticas específicas en bateo, pitcheo y fildeo hacen que los jugadores de Grandes Ligas sean más exitosos.
Un método de minería de datos que una organización puede usar para hacer estos análisis se llama aprendizaje automático. El aprendizaje automático se utiliza para analizar datos y construir modelos sin estar explícitamente programado para hacerlo. Existen dos ramas principales del aprendizaje automático: aprendizaje supervisado y aprendizaje no supervisado.
El aprendizaje supervisado ocurre cuando una organización tiene datos sobre la actividad pasada que ha ocurrido y quiere replicarlos. Por ejemplo, si quieren crear una nueva campaña de marketing para una línea de productos en particular, pueden mirar datos de campañas de marketing pasadas para ver cuál de sus consumidores respondió más favorablemente. Una vez realizado el análisis, se crea un modelo de aprendizaje automático que se puede utilizar para identificar a estos nuevos clientes. Se llama aprendizaje “supervisado” porque estamos dirigiendo (supervisando) el análisis hacia un resultado (en nuestro ejemplo: consumidores que responden favorablemente). Las técnicas de aprendizaje supervisado incluyen análisis como árboles de decisión, redes neuronales, clasificadores y regresión logística.
El aprendizaje no supervisado ocurre cuando una organización tiene datos y quiere comprender las relaciones entre diferentes puntos de datos. Por ejemplo, si un minorista quiere entender los patrones de compra de sus clientes, se puede desarrollar un modelo de aprendizaje sin supervisión para averiguar qué productos se compran con mayor frecuencia juntos o cómo agrupar a sus clientes por historial de compras. Se llama aprendizaje “no supervisado” porque no se espera un resultado específico. Las técnicas de aprendizaje no supervisadas incluyen reglas de agrupación y asociación.
Preocupaciones de privacidad
El creciente poder de la minería de datos ha causado preocupaciones para muchos, especialmente en el área de la privacidad. En el mundo digital actual, cada vez es más fácil que nunca tomar datos de fuentes dispares y combinarlos para hacer nuevas formas de análisis. De hecho, en torno a esta tecnología ha surgido toda una industria: los corredores de datos. Estas firmas combinan datos de acceso público con información obtenida del gobierno y otras fuentes para crear vastos almacenes de datos sobre personas y empresas que luego pueden vender. Este tema será tratado con mucho más detalle en el capítulo 12 —el capítulo sobre las preocupaciones éticas de los sistemas de información—.
Sidebar: ¿Qué es la ciencia de datos? ¿Qué es el análisis de datos?
El término “ciencia de datos” es un término popular destinado a describir el análisis de grandes conjuntos de datos para encontrar nuevos conocimientos. Durante los últimos años, ha sido considerado uno de los mejores campos de carrera para ingresar debido a su crecimiento explosivo y altos salarios. Si bien un científico de datos hace muchas cosas diferentes, su enfoque generalmente se centra en analizar grandes conjuntos de datos utilizando varios métodos de programación y herramientas de software para crear nuevos conocimientos para su organización. Los científicos de datos están capacitados en técnicas de aprendizaje automático y visualización de datos. El campo de la ciencia de datos cambia constantemente, y los científicos de datos están a la vanguardia del trabajo en áreas como la inteligencia artificial y las redes neuronales.
Gestión del Conocimiento
Terminamos el capítulo con una discusión sobre el concepto de gestión del conocimiento (KM). Todas las empresas acumulan conocimientos a lo largo de su existencia. Parte de este conocimiento está escrito o guardado, pero no de manera organizada. Gran parte de este conocimiento no está escrito; en cambio, se almacena dentro de las cabezas de sus empleados. La gestión del conocimiento es el proceso de creación, formalización de la captura, indexación, almacenamiento e intercambio del conocimiento de la compañía para beneficiarse de las experiencias y conocimientos que la compañía ha capturado durante su existencia.
Resumen
En este capítulo aprendimos sobre el papel que juegan los datos y las bases de datos en el contexto de los sistemas de información. Los datos están conformados por hechos del mundo. Si procesas datos en un contexto particular, entonces tienes información. El conocimiento se adquiere cuando la información se consume y se utiliza para la toma de decisiones. Una base de datos es una colección organizada de datos relacionados. Las bases de datos relacionales son el tipo de base de datos más utilizado, donde los datos se estructuran en tablas y todas las tablas deben estar relacionadas entre sí a través de identificadores únicos. Un sistema de gestión de bases de datos (DBMS) es una aplicación de software que se utiliza para crear y administrar bases de datos, y puede tomar la forma de un DBMS personal, utilizado por una persona, o un DBMS empresarial que puede ser utilizado por múltiples usuarios. Un almacén de datos es una forma especial de base de datos que toma datos de otras bases de datos en una empresa y los organiza para su análisis. La minería de datos es el proceso de búsqueda de patrones y relaciones en grandes conjuntos de datos. Muchas empresas utilizan bases de datos, almacenes de datos y técnicas de minería de datos para producir inteligencia de negocios y obtener una ventaja competitiva.
Preguntas de Estudio
- ¿Cuál es la diferencia entre datos, información y conocimiento?
- Explique con sus propias palabras cómo el componente de datos se relaciona con los componentes de hardware y software de los sistemas de información.
- ¿Cuál es la diferencia entre datos cuantitativos y datos cualitativos? ¿En qué situaciones podrían considerarse datos cualitativos el número 42?
- ¿Cuáles son las características de una base de datos relacional?
- ¿Cuándo tendría sentido usar un DBMS personal?
- ¿Cuál es la diferencia entre una hoja de cálculo y una base de datos? Enumere tres diferencias entre ellos.
- Describir lo que significa el término normalización.
- ¿Por qué es importante definir el tipo de datos de un campo al diseñar una base de datos relacional?
- Nombra una base de datos con la que interactúe frecuentemente. ¿Cuáles serían algunos de los nombres de campo?
- ¿Qué son los metadatos?
- Nombra tres ventajas de usar un almacén de datos.
- ¿Qué es la minería de datos?
- En sus propias palabras, explique la diferencia entre el aprendizaje supervisado y el aprendizaje no supervisado. Dar un ejemplo de cada uno (no del libro).
Ejercicios
- Revisar el diseño de la base de datos de la Escuela anteriormente en este capítulo. Revisando las listas de tipos de datos dadas, qué tipos de datos asignarías a cada uno de los campos en cada una de las tablas. ¿Qué longitudes asignarías a los campos de texto?
- Descarga Apache OpenOffice.org y usa la herramienta de base de datos para abrir el archivo “Student Clubs.odb” disponible aquí. Tómese un tiempo para aprender a modificar la estructura de la base de datos y luego ver si puede agregar los elementos requeridos para apoyar el seguimiento de los asesores de la facultad, como se describe al final de la sección Normalización en el capítulo. Aquí hay un enlace a la documentación de Primeros pasos.
- Usando Microsoft Access, descargue el archivo de base de datos de estadísticas integrales de béisbol del sitio web Seanlahman.com. (Si no tiene Microsoft Access, puede descargar aquí una versión abreviada del archivo que sea compatible con Apache Open Office). Revisar la estructura de las tablas incluidas en la base de datos. Cree tres experimentos diferentes de minería de datos que le gustaría probar y explique qué campos en qué tablas tendrían que analizarse.
- Haz algunas investigaciones originales y encuentra dos ejemplos de minería de datos. Resume cada ejemplo y luego escribe sobre lo que los dos ejemplos tienen en común.
- Realizar algunas investigaciones independientes sobre el proceso de inteligencia de negocios. Usando al menos dos fuentes académicas o profesionales, escriba un artículo de dos páginas dando ejemplos de cómo se está utilizando la inteligencia de negocios.
- Realizar algunas investigaciones independientes sobre las últimas tecnologías que se utilizan para la gestión del conocimiento. Usando al menos dos fuentes académicas o profesionales, escriba un artículo de dos páginas dando ejemplos de aplicaciones de software o nuevas tecnologías que se utilizan en este campo.