Saltar al contenido principal
LibreTexts Español

1.3: Representación Visual de Datos II - Variables Cuantitativas

  • Page ID
    149777
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Ahora supongamos que tenemos una variable poblacional y cuantitativa en la que nos interesa. Obtenemos una muestra, que podría ser grande o pequeña, y observamos los valores de la variable our para los individuos de esa muestra. Hay dos formas en las que tendemos a hacer imágenes de conjuntos de datos como esta: parcelas de tallo y hoja e histogramas.

    Parcelas de tallo y hoja

    Una forma algo anticuada de manejar una modesta cantidad de datos cuantitativos produce algo entre simplemente una lista de todos los valores de datos y una gráfica. No es una mala técnica de conocer en caso de que uno tenga que escribir un conjunto de datos a mano, pero muy tedioso —y bastante innecesario, si en su lugar se utilizan herramientas electrónicas modernas— si el conjunto de datos tiene más de un par de docenas de valores. El caso más fácil de esta técnica es donde los datos son todos números enteros en el rango\(0-99\). En ese caso, se puede quitar el lugar de las decenas de cada número —llamarlo tallo — y colocarlo en el lado izquierdo de una barra vertical, para luego alinear todos los lugares unos —cada uno es una hoja — a la derecha de ese tallo. Todo se llama trama de tallo y hoja o, a veces, solo un estemplot.

    Es importante no omitir ningún tallo que esté en el medio del conjunto de datos, incluso si no hay hojas correspondientes. También es una buena idea permitir hojas repetidas, si hay números repetidos en el conjunto de datos, para que la longitud de la fila de hojas dé una buena representación de la cantidad de datos que hay en ese grupo general de valores de datos.

    Ejemplo 1.3.1. Aquí hay una lista de los puntajes de 30 estudiantes en una prueba de estadística:\[\begin{matrix} 86 & 80 & 25 & 77 & 73 & 76 & 88 & 90 & 69 & 93\\ 90 & 83 & 70 & 73 & 73 & 70 & 90 & 83 & 71 & 95\\ 40 & 58 & 68 & 69 & 100 & 78 & 87 & 25 & 92 & 74 \end{matrix}\] Como dijimos, usando el lugar de las decenas (y el lugar de los cientos también, para el valor de los datos\(100\)) como el tallo y los que colocan como la hoja, obtenemos

    [tab:stemplot1]

    Vástago Hoja
    10 0
    9 0 0 0 2 3 5
    8 0 3 3 6 7 8
    7 0 0 1 3 3 3 4 6 7 8
    6 8 9 9
    5 8
    4 0
    3
    2 5 5

    Una buena característica que tienen las gráficas de tallo y hoja es que contienen todos los valores de datos, no pierden nada (a diferencia de nuestro siguiente método de visualización, por ejemplo).

    [Frecuencia] Histogramas

    La representación visual más importante de los datos cuantitativos es un histograma. Los histogramas en realidad se parecen mucho a una trama de tallo y hoja, excepto girados de lado y con la fila de números convertida en una barra vertical, como un gráfico de barras. La altura de cada una de estas barras sería cuántos

    Otra forma de decir eso es que estaríamos haciendo barras cuyas alturas estaban determinadas por cuántas puntuaciones había en cada grupo de diez. Tenga en cuenta que todavía hay una cuestión de en qué barra contaría un valor justo en el borde: por ejemplo, ¿el valor de datos\(50\) cuenta en la barra a la izquierda de ese número, o la barra a la derecha? En realidad no importa de qué lado, pero es importante indicar qué elección se está tomando.

    Ejemplo 1.3.2 Continuando con los datos de puntuación en el Ejemplo 1.3.1 y poniendo todos los valores de datos\(x\) satisfactorios\(20\le x<30\) en la primera barra, valores\(x\) satisfactorios\(30\le x<40\) en la segunda, valores\(x\) satisfactorios \(40\le x<50\)en el segundo, etc. —es decir, poner valores de datos en los bordes en la barra a la derecha— obtenemos la cifra

    Screen Shot 2020-01-16 at 9.41.07 AM.png

    En realidad, no hay razón para que las barras siempre tengan que tener diez unidades de ancho: es importante que todas sean del mismo tamaño y que como manejen los casos de borde (ya sea que la barra izquierda o derecha obtenga un valor de datos en el borde), pero podrían ser de cualquier tamaño. Llamamos a los rangos sucesivos de las\(x\) coordenadas que se juntan para cada barra los llamados bins o clases, y depende del estadístico elegir los bins, dónde comienzan y qué tan amplios son, muestra los datos mejor.

    Por lo general, cuanto menor es el tamaño del contenedor, más variación (precisión) se puede ver en las barras... pero a veces hay tanta variación que el resultado parece tener muchos saltos aleatorios hacia arriba y hacia abajo, como estáticos en la radio. Por otro lado, el uso de un tamaño de bin grande hace que la imagen sea más suave... pero a veces, es tan suave que queda muy poca información. Algo de esto se muestra en el siguiente

    Ejemplo 1.3.3. Continuando con los datos de puntaje en el Ejemplo 1.3.1 y ahora usando los bins con\(x\) satisfactorios\(10\le x<12\)\(12\le x<14\), entonces, etc., obtenemos el histograma con bins de ancho 2:

    Screen Shot 2020-01-16 at 9.43.05 AM.png

    Si usamos los bins con\(x\) satisfactorios\(10\le x<15\), entonces\(15\le x<20\), etc., obtenemos el histograma con bins de ancho 5:

    Screen Shot 2020-01-16 a las 9.44.18 AM.png

    Si usamos los bins con\(x\) satisfactorios\(20\le x<40\), entonces\(40\le x<60\), etc., obtenemos el histograma con bins de ancho 20:

    Screen Shot 2020-01-16 a las 9.45.14 AM.png

    Finalmente, si usamos los bins con\(x\) satisfactorios\(0\le x<50\), entonces\(50\le x<100\), y luego\(100\le x<150\), obtenemos el histograma con bins de ancho 50:

    Screen Shot 2020-01-16 at 9.46.31 AM.png

    [Frecuencia relativa] Histogramas

    Así como podríamos tener gráficos de barras con frecuencias absolutas (§2.1) o relativas (§2.2), podemos hacer lo mismo para los histogramas. Arriba, en §3.2, hicimos histogramas de frecuencia absoluta. Si, en cambio, dividimos cada uno de los recuentos utilizados para determinar las alturas de las barras por el tamaño total de la muestra, obtendremos fracciones o porcentajes — frecuencias relativas. Luego debemos cambiar la etiqueta en el\(y\) eje -y los números de marcas en el eje\(y\) -eje, pero de lo contrario el gráfico se verá exactamente igual (como lo hizo con los gráficos de barras de frecuencia relativa en comparación con los caracteres absolutos de barras de frecuencia).

    Ejemplo 1.3.4. Hagamos el histograma de frecuencia relativa correspondiente al histograma de frecuencia absoluta en el Ejemplo 1.3.2 basado en los datos del Ejemplo 1.3.1 — todo lo que tenemos que hacer es cambiar los números utilizados para hacer alturas de las barras en la gráfica dividiéndolas por el tamaño de la muestra, 30, y luego también cambiar el \(y\)-etiqueta del eje y números de marca de verificación.

    Screen Shot 2020-01-16 a las 9.49.16 AM.png

    Cómo hablar de histogramas

    Por supuesto, los histogramas nos dicen cuáles son los valores de los datos —la ubicación a lo largo del\(x\) valor de una barra es el valor de la variable— y cuántos de ellos tienen cada valor en particular — la altura de la barra indica cuántos valores de datos hay en ese bin. Esto también se le da un nombre técnico

    [def:distribution] Dada una variable definida en una población, o al menos en una muestra, la distribución de esa variable es una lista de todos los valores que la variable realmente toma y cuántas veces toma estos valores.

    La razón por la que nos gusta la versión visual de una distribución, su histograma, es que nuestra intuición visual puede entonces ayudarnos a responder preguntas generales y cualitativas sobre lo que esos datos deben estar diciéndonos. Las primeras preguntas que generalmente queremos responder rápidamente sobre los datos son

    • ¿Cuál es la forma del histograma?
    • ¿Dónde está su centro?
    • ¿Cuánta variabilidad [también llamada spread] muestra?

    Cuando hablamos de la forma general de un histograma, a menudo usamos los términos

    [def:symmskew] Un histograma es simétrico si la mitad izquierda es (aproximadamente) la imagen especular de la mitad derecha.

    Decimos que un histograma está sesgado a la izquierda si la cola del lado izquierdo es más larga que en la derecha. En otras palabras, el sesgo izquierdo es cuando la mitad izquierda del histograma —la mitad en el sentido de que el total de las barras en esta parte izquierda es la mitad del tamaño del conjunto de datos— se extiende más hacia la izquierda que la derecha hacia la derecha. Por el contrario, el histograma está sesgado a la derecha si la mitad derecha se extiende más hacia la derecha que la izquierda hacia la izquierda.

    Si la forma del histograma tiene un pico significativo, entonces decimos que es unimodal, mientras que si tiene varios de esos, decimos que es multimodal.

    A menudo es fácil señalar dónde se ve el centro de una distribución, pero es difícil ser preciso. Es particularmente difícil si el histograma es “ruidoso”, tal vez multimodal. De igual manera, al mirar un histograma, a menudo es fácil decir que está “bastante extendido” o “muy concentrado en el centro”, pero entonces es difícil ir más allá de este sentido general.

    La precisión en nuestra discusión del centro y la difusión de un conjunto de datos solo será posible en la siguiente sección, cuando trabajemos con medidas numéricas de estas características.


    This page titled 1.3: Representación Visual de Datos II - Variables Cuantitativas is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Jonathan A. Poritz via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.