Saltar al contenido principal
LibreTexts Español

1.5: Descripciones numéricas de datos, II: Medidas de propagación

  • Page ID
    149756
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Rango

    La medida más simple —y menos útil— de la dispersión de algunos datos es literalmente cuánto espacio ocupa el histograma en el\(x\) eje. Para definir esto, primero un poco de notación conveniente:

    DEFINICIÓN 1.5.1. Supongamos que\(x_1, \dots, x_n\) es algún dataset cuantitativo. Escribiremos\(x_{min}\) para los valores más pequeños y\(x_{max}\) para los mayores en el conjunto de datos.

    Con esto, podemos definir nuestra primera medida de propagación

    DEFINICIÓN 1.5.2. Supongamos que\(x_1, \dots, x_n\) es algún dataset cuantitativo. El rango de estos datos es el número\(x_{max}-x_{min}\).

    EJEMPLO 1.5.3. Usando nuevamente los datos de las puntuaciones de las pruebas estadísticas del Ejemplo 1.3.1, podemos leer de la gráfica de tallo y hoja que\(x_{min}=25\) y\(x_{max}=100\), por lo que el rango es\(75(=100-25)\).

    EJEMPLO 1.5.4. Trabajando ahora con los datos maquillados en el Ejemplo 1.4.2, que se puso en orden creciente en el Ejemplo 1.4.9, podemos ver eso\(x_{min}=-3.1415\) y\(x_{max}=17\), así es el rango\(20.1415(=17-(-3.1415))\).

    Lo que hay que notar aquí es que dado que la idea de valores atípicos es que están fuera del comportamiento normal del conjunto de datos, si hay algún valor atípico definitivamente serán a qué valor se llame\(x_{min}\) o\(x_{max}\) (o ambos). Entonces el rango es sumamente sensible a los valores atípicos: si hay algún valor atípico, el rango estará determinado exactamente por ellos, y no por lo que están haciendo los datos típicos.

    Cuartiles y el\(IQR\)

    Tratemos de encontrar un sustituto para el rango que no sea tan sensible a los valores atípicos. Queremos ver qué tan separados no están el máximo y el mínimo de todo el conjunto de datos, sino qué tan separados están los valores típicos más grandes en el conjunto de datos y los valores típicos más pequeños. ¿Cómo podemos medir estos típicos de mayor y menor tamaño? Una forma es definirlos en términos del valor típico —central— de la mitad superior de los datos y el valor típico de la mitad inferior de los datos. Aquí está la definición que usaremos para ese concepto:

    DEFINICIÓN 1.5.5. Imagínese que hemos puesto los valores de un conjunto\(\{x_1, \dots, x_n\}\) de datos de\(n\) números en orden creciente (o al menos no decreciente), así que eso\(x_1\le x_2\le \dots \le x_n\). Si\(n\) es impar, llame a los datos de la mitad inferior todos los valores\(\{x_1, \dots, x_{(n-1)/2}\}\) y los datos de la mitad superior todos los valores\(\{x_{(n+3)/2}, \dots, x_n\}\); si\(n\) es par, los datos de la mitad inferior serán los valores\(\{x_1, \dots, x_{n/2}\}\) y la mitad superior datos todos los valores\(\{x_{(n/2)+1}, \dots, x_n\}\).

    Entonces el primer cuartil, escrito\(Q_1\), es la mediana de los datos de la mitad inferior, y el tercer cuartil, escrito\(Q_3\), es la mediana de los datos de la mitad superior.

    Tenga en cuenta que el primer cuartil está a mitad de camino a través de la mitad inferior de los datos. Es decir, es un valor tal que una cuarta parte de los datos es menor. De igual manera, el tercer cuartil se encuentra a mitad de camino a través de la mitad superior de los datos, por lo que es un valor tal que tres cuartas partes de los datos son pequeños. De ahí los nombres “primero” y “tercer cuartil”.

    Podemos construir una medida insensible a los valores atípicos de propagación fuera de los cuartiles.

    DEFINICIÓN 1.5.6. Dado un conjunto de datos cuantitativo, su rango intercuartil o \(IQR\)se define por\(IQR=Q_3-Q_1\).

    EJEMPLO 1.5.7. Una vez más trabajando con los datos de las puntuaciones de las pruebas estadísticas del Ejemplo 1.3.1, podemos contar los conjuntos de datos de la mitad inferior y superior de la gráfica de tallo y hoja, siendo respectivamente\[\rm{Lower}=\{25, 25, 40, 58, 68, 69, 69, 70, 70, 71, 73, 73, 73, 74, 76\}\] y De\[\ \ \ \ \ \rm{Upper} = \{77, 78, 80, 83, 83, 86, 87, 88, 90, 90, 90, 92, 93, 95, 100\}\ .\] ello se deduce que, para estos datos,\(Q_1=70\) y\(Q_3=88\), así\(IQR=18(=88-70)\) .

    EJEMPLO 1.5.8. Trabajando nuevamente con los datos inventados en el Ejemplo 1.4.2, que se puso en orden creciente en el Ejemplo 1.4.9, podemos ver que los datos de la mitad inferior son\(\{-3.1415, .75\}\), la mitad superior es\(\{2, 17\}\)\(Q_1=-1.19575(=\frac{-3.1415+.75}{2})\),\(Q_3=9.5(=\frac{2+17}{2})\), y\(IQR=10.69575(=9.5-(-1.19575))\).

    Varianza y Desviación Estándar

    Hemos visto una medida cruda de propagación, como la medida cruda “modo” de tendencia central. También hemos visto una mejor medida de propagación, la\(IQR\), que es insensible a valores atípicos como la mediana (y construida a partir de medianas). Parece que, para llenar el triple paralelo de medidas, debería haber una medida de propagación que sea similar a la media. Intentemos construir uno.

    Supongamos que los datos son datos de muestra. Entonces, qué tan lejos\(x_i\) está un valor de datos en particular de la media de la muestra\(\overline{x}\) es justo\(x_i-\overline{x}\). Entonces, el desplazamiento medio de la media, la media de\(x_i-\overline{x}\), debería ser una buena medida de variabilidad, ¿no es así?

    Desafortunadamente, resulta que la media de\(x_i-\overline{x}\) es siempre 0. Esto se debe a que cuando\(x_i>\overline{x}\),\(x_i-\overline{x}\) es positivo\(x_i<\overline{x}\), mientras que cuando,\(x_i-\overline{x}\) es negativo, y resulta que los positivos siempre cancelan exactamente los negativos (a ver si se puede probar esto algebraicamente, no es difícil).

    Por lo tanto, necesitamos que los números sean\(x_i-\overline{x}\) positivos antes de tomar su media. Una forma de hacerlo es cuadrarlos a todos. Luego tomamos algo que es casi la media de estos números cuadrados para obtener otra medida de propagación o variabilidad:

    DEFINICIÓN 1.5.9. Dados los datos\(x_1, \dots, x_n\) de muestra de una muestra de tamaño\(n\), la varianza de la muestra se define como\[S_x^2 = \frac{\sum \left(x_i-\overline{x}\right)^2}{n-1} .\] Fuera de esto, luego definimos la desviación estándar de la muestra\[S_x = \sqrt{S_x^2} = \sqrt{\frac{\sum \left(x_i-\overline{x}\right)^2}{n-1}} .\]

    ¿Por qué tomamos la raíz cuadrada en esa muestra desviación estándar? La respuesta es que la medida que construimos debe tener la propiedad que si todos los números se hacen dos veces más grandes, entonces la medida del spread también debería ser el doble de grande. O, por ejemplo, si primero empezáramos a trabajar con datos medidos en pies y luego en algún momento decidimos trabajar en pulgadas, los números serían todos 12 veces más grandes, y tendría sentido que la medida del spread también fuera 12 veces más grande.

    La varianza no tiene esta propiedad: si todos los datos se duplican, la varianza aumenta en un factor de 4. O si todos los datos se multiplican por 12, la varianza se multiplica por un factor de 144.

    Sin embargo, si tomamos la raíz cuadrada de la varianza, volvemos a la buena propiedad de duplicar datos duplica la medida del spread, etc. Por esta razón, si bien hemos definido la varianza por sí sola y algunas calculadoras, computadoras y herramientas en línea dirán la varianza cada vez que les pides que computen estadísticas de 1 variable, en esta clase solo consideraremos la varianza un escalón en el camino a la medida real de propagación de datos, la desviación estándar.

    Una última cosa que debemos definir en esta sección. Por razones técnicas que no vamos a entrar ahora, la definición de desviación estándar es ligeramente diferente si estamos trabajando con datos de población y no datos de muestra:

    DEFINICIÓN 1.5.10. Dados los datos\(x_1, \dots, x_n\) de una población entera de tamaño\(n\), la varianza poblacional se define como\[\ \sigma X^2 = \frac{\sum \left(x_i-\mu X\right)^2}{n} .\] Fuera de esto, luego definimos la desviación estándar poblacional\[\ \sigma X = \sqrt{\sigma X^2} = \sqrt{\frac{\sum \left(x_i-\mu X\right)^2}{n}} .\]

    [Esta letra\(\ \sigma\) es la letra griega minúscula sigma, cuya mayúscula ha\(\ \Sigma\) visto en otra parte.]

    Ahora para algunos ejemplos. Observe que para calcular estos valores, siempre usaremos una herramienta electrónica como una calculadora o una hoja de cálculo que tenga incorporado un programa de varianza y desviación estándar; la experiencia demuestra que es casi imposible obtener todos los cálculos ingresados correctamente en una calculadora no estadística, por lo que deberemos ni siquiera lo intentas.

    EJEMPLO 1.5.11. Para los datos de puntuaciones de prueba estadística del Ejemplo 1.3.1, ingresándolos en una hoja de cálculo y usando VAR.S y STDEV.S para la varianza muestral y desviación estándar y VAR.P y STDEV.P para varianza poblacional y desviación estándar poblacional, obtenemos \[\begin{aligned} S_x^2 &= 331.98\\ S_x &= 18.22\\ \sigma X^2 &= 330.92\\ \sigma X &= 17.91\end{aligned}\]

    EJEMPLO 1.5.12. Del mismo modo, para los datos del Ejemplo 1.4.2, encontramos de la misma manera que\[\begin{aligned} S_x^2 &= 60.60\\ S_x &= 7.78\\ \sigma X^2 &= 48.48\\ \sigma X &= 6.96\end{aligned}\]

    Fortalezas y Debilidades de Estas Medidas de Difusión

    Ya dijimos que el rango es extremadamente sensible a los valores atípicos.

    El\(IQR\), sin embargo, se construye a partir de medianas, utilizadas de diferentes maneras, por lo que el \(IQR\)es insensible a los valores atípicos.

    La varianza, tanto muestra como población, se construye utilizando un proceso bastante parecido a una media, y de hecho también tiene la media misma en la fórmula definitoria. Dado que la desviación estándar en ambos casos es simplemente la raíz cuadrada de la varianza, se deduce que las varianzas muestrales y poblacionales y las desviaciones estándar son todas sensibles a los valores atípicos.

    Esta sensibilidad e insensibilidad diferente a los valores atípicos es la principal diferencia entre las diferentes medidas de propagación que hemos discutido en esta sección.

    Otra debilidad, en cierto sentido, del\(IQR\) es que existen varias definiciones diferentes en uso de los cuartiles, con base en si se incluye o no el valor de la mediana al dividir los datos. Estos se denominan, por ejemplo, CUARTILE.INC y QUARTILE.EXC en algunas hojas de cálculo. Entonces puede resultar confuso cuál usar.

    Una definición formal de valores atípicos — la\(1.5\,IQR\) regla

    Hasta el momento, hemos dicho que los valores atípicos son simplemente datos atípicos. Necesitamos una definición precisa que pueda ser revisada cuidadosamente. Lo que vamos a utilizar es una fórmula (bueno, en realidad dos formul æ) que describen esa idea de que un valor atípico está lejos del resto de datos.

    En realidad, dado que los valores atípicos deberían estar muy lejos ya sea en ser significativamente mayores que el resto de los datos o en ser significativamente más pequeños, deberíamos tomar un valor en el lado superior del resto de los datos, y otro en el lado inferior, como puntos de partida para esta lejana distancia. No podemos escoger el\(x_{max}\) y\(x_{min}\) como esos puntos de partida, ya que ellos mismos serán los valores atípicos, como hemos notado. Entonces usaremos nuestra idea anterior de un valor que es típico para la mayor parte de los datos, el cuartil\(Q_3\), y\(Q_1\) para la parte inferior correspondiente de los datos.

    Ahora tenemos que decidir qué tan lejos está lo suficientemente lejos de esos cuartiles para contar como un valor atípico. Si los datos ya tienen mucha variación, entonces un nuevo valor de datos tendría que estar bastante lejos para que podamos estar seguros de que no está ahí afuera solo por la variación ya en los datos. Entonces nuestra medida de lo suficientemente lejos debería ser en términos de una medida de propagación de los datos.

    Al mirar la última sección, vemos que solo el\(IQR\) es una medida de spread que es insensible a los valores atípicos —y definitivamente no queremos usar una medida que sea sensible a los valores atípicos, uno que se habría visto afectado por los mismos valores atípicos que estamos tratando de definir.

    Todo esto va de la mano en lo siguiente

    DEFINICIÓN 1.5.13. [La\(1.5\,IQR\) regla para valores atípicos] Comenzando con un conjunto de datos cuantitativos cuyo primer y tercer cuartiles son\(Q_1\)\(Q_3\) y y cuyo rango intercuartil es\(IQR\), un valor de datos \(x\)es [oficialmente, a partir de ahora] llamado un valor atípico si\(x<Q_1-1.5\,IQR\) o\(x>Q_3+1.5\,IQR\).

    Observe esto significa que no\(x\) es un valor atípico si satisface\(Q_1-1.5\,IQR\le x\le Q_3+1.5\,IQR\).

    EJEMPLO 1.5.14. Veamos si hubo algún valor atípico en el conjunto de datos de puntaje de prueba del Ejemplo 1.3.1. Encontramos los cuartiles y el IQR en el Ejemplo 1.5.7, por lo que a partir de la\(1.5\,IQR\) Regla, un valor de datos\(x\) será un valor atípico si\[x<Q_1-1.5\,IQR=70-1.5\cdot18=43\] o si\[x>Q_3+1.5\,IQR=88+1.5\cdot18=115\ .\] Mirando el stemplot en la Tabla 1.3.1, concluimos que los valores de datos\(25\),\(25\), y \(40\)son los valores atípicos en este conjunto de datos.

    EJEMPLO 1.5.15. Aplicando el mismo método a los datos del Ejemplo 1.4.2, usando los cuartiles e IQR del Ejemplo 1.5.8, la condición para un valor atípico\(x\) es\[x<Q_1-1.5\,IQR=-1.19575-1.5\cdot10.69575=-17.239375\] o\[x>Q_3+1.5\,IQR=9.5+1.5\cdot10.69575=25.543625\ .\] Dado que ninguno de los valores de datos satisface ninguna de estas condiciones, no hay valores atípicos en este conjunto de datos.

    El resumen de cinco números y las gráficas de caja

    Hemos visto que los resúmenes numéricos de datos cuantitativos pueden ser muy útiles para comprender rápidamente (algunas cosas sobre) los datos. Por lo tanto, es conveniente para un bonito paquete de varios de estos

    DEFINICIÓN 1.5.16. Dado un conjunto de datos cuantitativo\(\{x_1, \dots, x_n\}\), el resumen de cinco números 5 de estos datos es el conjunto de valores\[\left\{x_{min},\ \ Q_1,\ \ \mathrm{median},\ \ Q_3,\ \ x_{max}\right\}\]

    EJEMPLO 1.5.17. ¿Por qué no anotar el resumen de cinco números para los mismos datos de puntaje de prueba que vimos en el Ejemplo 1.3.1? Ya hemos hecho la mayor parte del trabajo, como calcular el mínimo y el máximo en el Ejemplo 1.5.3, los cuartiles en el Ejemplo 1.5.7 y la mediana en el Ejemplo 1.4.10, por lo que el resumen de cinco números es\[\begin{aligned} x_{min}&=25\\ Q_1&=70\\ \mathrm{median}&=76.5\\ Q_3&=88\\ x_{max}&=100\end{aligned}\]

    EJEMPLO 1.5.18. Y, para completar, el resumen de cinco números para los datos confeccionados en el Ejemplo 1.4.2 es\[\begin{aligned} x_{min}&=-3.1415\\ Q_1&=-1.9575\\ \mathrm{median}&=1\\ Q_3&=9.5\\ x_{max}&=17\end{aligned}\] donde obtuvimos el mínimo y el máximo del Ejemplo 1.5.4, la mediana del Ejemplo 1.4.9 y los cuartiles del Ejemplo 1.5.8.

    Como ya hemos visto varias veces, es agradable tener una versión tanto numérica como gráfica y visual de todo. El equivalente gráfico del resumen de cinco números es

    DEFINICIÓN 1.5.19. Dados algunos datos cuantitativos, una gráfica de caja [a veces gráfica de caja y bigotes] es una representación gráfica del resumen de cinco números, de la siguiente manera:

    • se dibuja un eje, etiquetado con la variable del estudio
    • marcas de verificación y números se ponen en el eje, lo suficiente para permitir que las siguientes características visuales se ubiquen numéricamente
    • se dibuja un rectángulo (la caja) paralelo al eje, que se extiende de valores\(Q_1\) a\(Q_3\) sobre el eje
    • se dibuja una línea de suma, paralela a los lados de la caja en las ubicaciones\(x_{min}\) y\(x_{max}\), en la coordenada del eje de la mediana de los datos
    • se dibujan líneas paralelas al eje desde el centro de lados de la caja en las ubicaciones\(x_{min}\) y\(x_{max}\) hacia fuera a las coordenadas del eje\(x_{min}\) y\(x_{max}\), donde estos bigotes terminan en “T” s.

    EJEMPLO 1.5.20. Una gráfica de caja para los datos de puntaje de prueba que comenzamos a usar en el Ejemplo 1.3.1 es fácil de hacer después de que encontramos el resumen de cinco números correspondiente en el Ejemplo 1.5.17:

    Screen Shot 2020-01-16 at 10.46.32 AM.png

    A veces es agradable hacer una versión del boxplot que sea menos sensible a los valores atípicos. Dado que los puntos finales de los bigotes son las únicas partes de la gráfica de caja que son sensibles de esta manera, son todo lo que tenemos que cambiar:

    DEFINICIÓN 1.5.21. Dados algunos datos cuantitativos, una gráfica de caja que muestre valores atípicos [a veces una gráfica de caja y bigotes que muestra valores atípicos] es una modificación menor de la gráfica de caja regular, como sigue

    • los bigotes solo se extienden hasta los valores de datos no atípicos más grandes y más pequeños
    • los puntos se ponen a lo largo de las líneas de los bigotes en las coordenadas del eje de cualquier valor atípico en el conjunto de datos

    EJEMPLO 1.5.22. Un diagrama de caja que muestra valores atípicos para los datos de puntaje de prueba que comenzamos a usar en el Ejemplo 1.3.1 es solo una pequeña modificación de la que acabamos de hacer en el Ejemplo 1.5.20

    Screen Shot 2020-01-16 a las 10.47.13 AM.png


    1.5: Descripciones numéricas de datos, II: Medidas de propagación is shared under a not declared license and was authored, remixed, and/or curated by LibreTexts.