2.3: Medidas de propagación

Última actualización
Guardar como PDF

Page ID: 110005

Maxie Inigo, Jennifer Jameson, Kathryn Kozak, Maya Lanzetta, & Kim Sonier
Coconino Community College

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

La ubicación del centro de un conjunto de datos es importante, pero también es importante cuánta variabilidad o dispersión hay en los datos. Si un profesor da un examen y te dice que la puntuación media fue del 75% eso podría hacerte feliz. Pero entonces si el maestro dice que el spread era de solo 2%, entonces eso significa que la mayoría de la gente tenía calificaciones alrededor del 75%. Entonces lo más probable es que tengas una C en el examen. Si en cambio te dicen que el spread era del 15%, entonces existe la posibilidad de que tengas una A en el examen. Por supuesto, también existe la posibilidad de que tengas una F en el examen. Por lo que el diferencial más alto puede ser bueno y puede ser malo. No obstante, sin esa información solo tienes parte de la imagen de las puntuaciones de los exámenes. Por lo que es útil averiguar la propagación o variabilidad.

Medidas de propagación o variabilidad: Estos valores describen qué tan extendido es un conjunto de datos.

Existen diferentes formas de calcular una medida del spread. Uno se llama el rango y otro se llama la desviación estándar. Veamos primero la gama.

Rango: Para encontrar el rango, reste el valor mínimo de datos del valor máximo de datos. Algunas personas dan el rango simplemente enumerando el valor mínimo de datos y el valor máximo de datos. Sin embargo, para los estadísticos el rango es un solo número. Así que realmente quieres calcular la diferencia.

Rango = máximo - mínimo

El rango es relativamente fácil de calcular, lo cual es bueno. No obstante, por esta simplicidad no cuenta toda la historia. Dos conjuntos de datos pueden tener el mismo rango, pero uno puede tener mucha más variabilidad en los datos mientras que el otro tiene mucho menos.

Ejemplo\(\PageIndex{1}\): Encontrar el rango

Encuentra el rango para cada conjunto de datos.

10, 20, 30, 40, 50

Rango = 50 - 10 = 40

10, 35, 36, 37, 50

Rango = 50 - 10 = 40

Observe que ambos conjuntos de datos de\(\PageIndex{1}\) Example tienen el mismo rango. Sin embargo, el de la parte b parece tener la mayor parte de los datos más cerca entre sí, excepto los extremos. Parece haber menos variabilidad en el conjunto de datos en la parte b que en el conjunto de datos de la parte a, por lo que necesitamos una mejor manera de cuantificar la propagación.

En lugar de mirar la diferencia entre el más alto y el más bajo, veamos la diferencia entre cada valor de datos y el centro. El centro que usaremos es la media. La diferencia entre el valor de los datos y la media se denomina desviación.

Desviación de la Media: valor de datos - media =\( x - \overline{x}\)

Para ver cómo funciona esto, usemos el conjunto de datos de Example\(\PageIndex{1}\). La media fue de aproximadamente 62.7°F

Tabla\(\PageIndex{1}\): Hallando las Desviaciones
\(x\)	\( x - \overline{x}\)
71	8.3
59	-3.7
69	6.3
68	5.3
63	0.3
57	-5.7
57	-5.7
57	-5.7
57	-5.7
65	2.3
67	4.3
Suma	0.3

Observe que la suma de las desviaciones es alrededor de cero. Si no hay redondeo de la media, entonces esto debería sumar exactamente a cero. Entonces, ¿qué significa eso? ¿Implica esto que en promedio los valores de los datos están a cero distancia de la media? No. Simplemente significa que algunos de los valores de datos están por encima de la media y algunos están por debajo de la media. Las desviaciones negativas son para valores de datos que están por debajo de la media y las desviaciones positivas son para valores de datos que están por encima de la media. Entonces necesitamos deshacernos del signo (positivo o negativo). ¿Cómo nos deshacemos de un signo negativo? La cuadratura de un número es una forma ampliamente aceptada de hacer que todos los números sean positivos. Así que cuadremos todas las desviaciones.

Desviaciones Cuadradas de la Media: Para encontrar estos valores, cuadrar las desviaciones de la media. También, se puede pensar en esto como la distancia cuadrada de la media.

Entonces, para el conjunto de datos, encontremos las desviaciones cuadradas.

Cuadro\(\PageIndex{2}\): Hallando las Desviaciones Cuadradas.
\( x \)	\( x - \overline{x}\)	\( (x - \overline{x})^{2}\)
71	8.3	68.89
59	-3.7	13.69
69	6.3	39.69
68	5.3	28.09
63	0.3	0.09
57	-5.7	32.49
57	-5.7	32.49
57	-5.7	32.49
57	-5.7	32.49
65	2.3	5.29
67	4.3	18.49
Suma	0.3	304.19

Ahora que tenemos la suma de las desviaciones cuadradas, debemos encontrar la media de estos valores. No obstante, al tratarse de una muestra, la forma normal de encontrar la media, sumando y dividiendo por\(n\), no estima correctamente el verdadero valor poblacional. Subestimaría el verdadero valor. Entonces, para calcular una mejor estimación, dividiremos por un número ligeramente menor,\(n-1\). Este extraño promedio se conoce como varianza muestral.

Varianza muestral: Esta es la suma de las desviaciones cuadradas de la media dividida por\(n-1\). El símbolo para la varianza de la muestra es\(s^2\) y la fórmula para la varianza de la muestra es:

\(s^2 = \dfrac{\sum (x - \overline{x})^2 }{n-1}\)

Para este conjunto de datos, la varianza de la muestra es

\(s^2 = \dfrac{304.19}{11-1} = \dfrac{304.19}{10} = 30.419\)

La varianza mide la distancia cuadrática promedio desde la media. Ya que queremos saber la distancia promedio de la media, tendremos que tomar la raíz cuadrada en este punto.

Desviación estándar de la muestra: Esta es la raíz cuadrada de la varianza. La desviación estándar es una medida de la distancia promedio que los valores de los datos son de la media. El símbolo para la desviación estándar de la muestra es y la fórmula para la desviación estándar de la muestra es

\(s = \sqrt{s^2} = \sqrt{\dfrac{\sum (x - \overline{x})^2 }{n-1}}\)

Así, para este conjunto de datos, la desviación estándar de la muestra es\(s = \sqrt{30.419} \approx 5.52 ^{\circ}F\).

Nota: Las unidades son las mismas que los datos originales.

Dado que la varianza de la muestra y la desviación estándar de la muestra se utilizan para estimar la varianza poblacional y la desviación estándar de la población, debemos definir los símbolos y fórmulas para esas también.

Varianza poblacional:\(\sigma^2= \dfrac{\sum (x - \mu)^2 }{N}\)

Desviación estándar poblacional:\(\sigma = \sqrt{\sigma ^2} = \sqrt{\dfrac{\sum (x - \mu)^2 }{N}}\)

Ejemplo\(\PageIndex{2}\): Encontrar el rango, la varianza y la desviación estándar

Se da una muestra aleatoria de tasas de desempleo para 10 condados de la UE para marzo de 2013

Tabla\(\PageIndex{3}\): Tasas de desempleo para los países de la UE
11.0	7.2	13.1	26.7	5.7	9.9	11.5	8.1	4.7	14.5

(Eurostat, n.d.)

Encuentra el rango, varianza y desviación estándar.

Dado que se trata de una muestra, entonces usaremos las fórmulas de estadísticas de muestra.

En Ejemplo\(\PageIndex{3}\), calculamos que la media era de 11.24%. El valor máximo es 26.7% y el valor mínimo es 4.7%. Entonces el rango es:

rango = 26.7 — 4.7 = 22.0%

Para encontrar la varianza y la desviación estándar, es más fácil usar una tabla que la fórmula. Sin embargo, la tabla sigue la fórmula, por lo que son lo mismo.

Tabla\(\PageIndex{4}\): Hallando la Varianza y Desviación Estándar
x	\(x - \overline{x}\)	\((x - \overline{x})^2\)
11.0	-0.24	0.0576
7.2	-4.04	16.3216
13.1	1.86	3.4596
26.7	15.46	239.0116
5.7	-5.54	30.6916
9.9	-1.34	1.7956
11.5	0.26	0.0676
8.1	-3.14	9.8596
4.7	-6.54	42.7716
14.5	3.26	10.6276
Suma	0	354.664

Varianza de la muestra:

\(s^2 = \dfrac{354.664}{10-1} = \dfrac{354.664}{9} \approx 39.40711111\)

Desviación estándar de muestra:

\(s = \sqrt{39.4071111} \approx 6.28 \%\)

Entonces, las tasas de desempleo para los países de la UE son aproximadamente de 11.24% con un diferencial promedio de alrededor de 6.28%. Dado que la desviación estándar de la muestra es bastante alta en comparación con la media, entonces existe una gran variabilidad en las tasas de desempleo para los países de la UE. Esto significa que los países de la UE tienen tasas que son mucho más bajas que la media y algunos que tienen tasas mucho más altas que la media.

Percentiles
Hay otros cálculos que podemos hacer para mirar el spread. A uno de esos se le llama percentil. Esto analiza qué valor de datos tiene un cierto porcentaje de los datos en o por debajo de él.

Percentiles: Un valor con k por ciento de los datos igual o inferior a este valor.

Por ejemplo, si un valor de datos está en el percentil 80, entonces el 80% de los valores de datos caen en o por debajo de este valor.

Vemos percentiles en muchos lugares de nuestras vidas. Si tomas alguna prueba estandarizada, tu puntaje se da como percentil. Si lleva a su hijo al médico, su estatura y peso se dan como percentiles. Si a su hijo se le hace la prueba para detectar problemas de superdotados o de conducta, la puntuación se da como un percentil. Si su hijo tiene una puntuación en una prueba superdotada que está en el percentil 92, entonces eso significa que 92% de todos los niños que tomaron la misma prueba superdotados obtuvieron la misma puntuación o menor que su hijo. Eso también significa que el 8% obtuvo la misma puntuación o mayor que su hijo. Esto puede significar que su hijo es superdotado.

Ejemplo\(\PageIndex{3}\): Interpretación de percentiles

Supongamos que tomaste el examen de matemáticas SAT y recibiste tu puntaje como percentil.

¿Qué significa una puntuación en el percentil 90?

El 90 por ciento de los puntajes fueron iguales o inferiores a tu puntuación (Hiciste lo mismo o mejor que el 90% de los examinados).

¿Qué significa una puntuación en el percentil 70?

El 70% de los puntajes fueron iguales o inferiores a su puntuación.

Si la prueba estuvo fuera de los 800 puntos y usted anotó en el percentil 80, ¿cuál fue su puntaje en la prueba?

¡No lo sabes! Todo lo que sabes es que anotaste igual o mejor que el 80% de las personas que tomaron la prueba. Si todos los puntajes fueran realmente bajos, aún podrías haber reprobado la prueba. Por otro lado, si muchos de los puntajes fueran altos podrías haber conseguido un 95% en la prueba.

Si tu puntaje estaba en el percentil 95, ¿eso significa que superaste la prueba?

No, solo significa que hiciste lo mismo o mejor que el 95% de las otras personas que tomaron la prueba. Podrías haber reprobado la prueba, pero aún así hiciste lo mismo o mejor que el 95% del resto de la gente.

Hay tres percentiles que se utilizan comúnmente. Son los cuartiles primero, segundo y tercero, donde los cuartiles dividen los datos en 25% secciones.

Primer cuartil (Q 1): percentil 25 (25% de los datos cae en o por debajo de este valor).
Segundo cuartil (Q 2 o M): percentil 50, también conocido como la mediana (50% de los datos cae en o por debajo de este valor.).
Tercer cuartil (Q 3): percentil 75 (75% de los datos cae en o por debajo de este valor.)

Para encontrar los cuartiles de un conjunto de datos:
Paso 1: Ordena el conjunto de datos desde el valor más pequeño hasta el valor más grande.
Paso 2: Encuentra la mediana (M o Q2).
Paso 3: Encuentra la mediana del 50% inferior de los valores de los datos. Este es el primer cuartil (Q1).
Paso 4: Encuentra la mediana del 50% superior de los valores de los datos. Este es el tercer cuartil (Q3).

Si juntamos los tres cuartiles con los valores máximo y mínimo, entonces tenemos cinco números que describen el conjunto de datos. A esto se le llama el resumen de cinco números.

Resumen de cinco números: El valor de datos más bajo conocido como el mínimo (Min), el primer cuartil (Q1), la mediana (M o Q2), el tercer cuartil (Q3) y el valor de datos más alto conocido como el máximo (Max).

También, como tenemos los cuartiles, podemos hablar de cuánta difusión hay entre los cuartiles 1 y 3. Esto se conoce como el rango intercuartílico.

Rango intercuartil (IQR): IQR = Q3 — Q1

Hay momentos en los que queremos mirar el resumen de cinco números en una representación gráfica. Esto se conoce como una trama de caja y bigotes o una trama de caja.

Parcela de caja: Trama del resumen de cinco números

Una gráfica de caja se crea estableciendo primero una escala (línea numérica) como guía para la gráfica de caja. Después, dibuja un rectángulo que abarque de Q1 a Q3 por encima de la recta numérica. Marque la mediana con una línea vertical a través del rectángulo. A continuación, dibuja puntos para los puntos mínimo y máximo a los lados del rectángulo. Por último, dibuja líneas desde los lados del rectángulo hacia los puntos.

Ejemplo\(\PageIndex{4}\): Encuentre el Resumen de Cinco Números y el IQR y Dibuje una Gráfica de Caja (Número Impar de Puntos de Datos)

Los primeros 11 días de mayo de 2013 en Flagstaff, AZ, tuvieron las siguientes temperaturas altas (en °F):

Tabla\(\PageIndex{5}\): Datos meteorológicos para Flagstaff, AZ, en mayo de 2013
71	59	69	68	63	57
57	57	57	65	67

(Tiempo Subterráneo, n.d.)

Encuentra el resumen de cinco números y el IQR y dibuja una trama de caja.

Para encontrar el resumen de cinco números, primero debes poner los números en orden de menor a mayor.

57, 57, 57, 57, 59, 63, 65, 67, 68, 69, 71

Entonces encuentra la mediana. El número 63 se encuentra en la mitad del conjunto de datos, por lo que la mediana es de 63°F. Para encontrar el Q1, mire los números por debajo de la mediana. Dado que 63 es la mediana, no se incluye eso en el listado de los números por debajo de la mediana. Para encontrar el tercer trimestre, mira los números por encima de la mediana. Dado que 63 es la mediana, no se incluye eso en el listado de los números por encima de la mediana.

Figura\(\PageIndex{6}\): Encontrar la mediana, Q 1 **y Q** 3

Al observar los números por debajo de la mediana, la mediana de esos es 57. Q1 = 57°F. Mirando los números por encima de la mediana, la mediana de esos es 68. Q3 = 68°F.

Ahora encuentra el mínimo y el máximo. El mínimo es 57°F y el máximo es 71°F. Así, el resumen de cinco números es:

Mín = 57°F

Q1 = 57°F

Med = Q2 = 63°F

Q3 = 68°F

Máx = 71°F.

Además, el IQR = Q3 — Q1 = 68 — 57 = 11°F

Finalmente, dibuje un diagrama de caja para este conjunto de datos de la siguiente manera:

Figura\(\PageIndex{7}\): Gráfica de caja

Temperaturas en °F en Flagstaff, AZ, a principios de mayo 2013

Observe que la mediana está básicamente en el centro de la caja, lo que implica que los datos no están sesgados. Sin embargo, el valor mínimo es el mismo que Q1, por lo que eso implica que podría haber un poco de sesgo, aunque no mucho.

Ejemplo\(\PageIndex{5}\): Encuentre el Resumen de Cinco Números y el IQR y Dibuje una Gráfica de Caja (Número Par de Puntos de Datos)

Los primeros 12 días de mayo de 2013 en Flagstaff, AZ, tuvieron las siguientes temperaturas altas (en °F):

Tabla\(\PageIndex{8}\): Datos meteorológicos para Flagstaff, AZ, en mayo de 2013
71	59	69	68	63	57
57	57	57	65	67	73

(Tiempo Subterráneo, n.d.)

Encuentra el resumen de cinco números y el IQR y dibuja una trama de caja.

Para encontrar el resumen de cinco números, primero debes poner los valores de datos en orden de menor a mayor. 57, 57, 57, 57, 59, 63, 65, 67, 68, 69, 71, 73

Entonces encuentra la mediana. Los números 63 y 65 están en la mitad del conjunto de datos, por lo que la mediana es\(\dfrac{63+65}{2} = 64 ^{\circ}F\).

Para encontrar el primer trimestre, mira los números por debajo de la mediana. Dado que el número 64 es la mediana, incluye todos los números por debajo de 64, incluyendo el 63 que utilizó para encontrar la mediana.

Para encontrar el tercer trimestre, mira los números por encima de la mediana. Dado que el número 64 es la mediana, incluyes todos los números por encima de 64, incluyendo el 65 que usaste para encontrar la mediana.

Figura\(\PageIndex{9}\): Encontrar la mediana, Q 1 **y Q** 3.

Al observar los números por debajo de la mediana (57, 57, 57, 57, 59, 63), la mediana de esos es\(\dfrac{57+57}{2} = 57 ^{\circ}F\). Q1 = 57°F Observando los números por encima de la mediana (65, 67, 68, 69, 71, 73), la mediana de esos es\(\dfrac{68+69}{2} = 68.5 ^{\circ}F\). Q3 = 68.5°F.

Ahora encuentra el mínimo y el máximo. El mínimo es 57°F y el máximo es 73°F.

Así, el resumen de cinco números es:

Mín = 57°F

Q1 = 57°F

Med = Q2 = 64°F

Q3 = 68.5°F

Máx. = 73°F.

Además, el IQR = Q3 — Q1 = 68.5 — 57 = 11.5°F

Finalmente, dibuje un diagrama de caja para este conjunto de datos de la siguiente manera:

Figura\(\PageIndex{10}\): Gráfica de caja

Temperaturas en °F en Flagstaff, AZ, a principios de mayo 2013

Observe que la mediana está básicamente en el centro de la caja, por lo que eso implica que los datos no están sesgados. Sin embargo, el valor mínimo es el mismo que Q1, por lo que eso implica que podría haber un poco de sesgo, aunque no mucho.

Es importante entender cómo encontrar todas las estadísticas descriptivas a mano y también mediante el uso de una calculadora.

Ejemplo\(\PageIndex{6}\): Encontrar los estadísticos descriptivos usando la calculadora TI-83/84

Los primeros 11 días de mayo de 2013 en Flagstaff, AZ, tuvieron las siguientes temperaturas altas (en °F):

Tabla\(\PageIndex{11}\): Datos meteorológicos para Flagstaff, AZ, en mayo de 2013
71	59	69	68	63	57
57	57	57	65	67

(Tiempo Subterráneo, n.d.)

Encuentre las estadísticas descriptivas para este conjunto de datos utilizando la calculadora TI-83/84.

Primero hay que poner los datos en la calculadora. Para ello, presione STAT. El botón STAT se encuentra en la tercera fila de botones, junto a las teclas de flecha.

Una vez que presione STAT, verá la siguiente pantalla:

Elija 1:Editar... y verá lo siguiente:

Figura\(\PageIndex{13}\): Ventana de edición

Nota: Si ya hay datos en la lista 1 (L1), entonces debes mover el cursor hacia arriba a L1 usando las teclas de flecha. A continuación, presione borrar y entrar. Esto debería borrar todos los datos de la lista 1 (L1).

Ahora escriba todos los datos en la lista 1 (L1):

Figura\(\PageIndex{14}\): Datos mecanografiados en L1

Nota: La figura\(\PageIndex{14}\) solo muestra los últimos seis puntos de datos ingresados, pero se han ingresado todos los datos.

A continuación, presione STAT nuevamente y pase a CALC usando el botón de flecha derecha. Verás lo siguiente:

Elija 1:1 -Var Stats. Esto pondrá 1-Var Stats en tu pantalla de inicio. Escriba L1 (2nd 1), y la calculadora mostrará lo siguiente:

Figura\(\PageIndex{16}\): 1-Var Stat en la pantalla de inicio

En este punto presione ENTRAR, y verá lo siguiente: (Use el botón de flecha hacia abajo para ver el resto de los resultados.)

Figura\(\PageIndex{17}\): Resultados de 1-Var Stat

Por lo tanto, la media es\(\overline{x} = 62.7^{\circ}F\), la desviación estándar es\(s = 5.515^{\circ}F\), y el resumen de cinco números es Min = 57°F, Q1 = 57°F, Med = Q2 = 63°F, Q3 = 68°F, Max = 71°F. Puedes encontrar el rango restando el max y el min. Puedes encontrar IQR restando Q3 y Q1, y puedes encontrar la varianza al cuadrar la desviación estándar. No se puede encontrar el modo en la calculadora. Tenga en cuenta que la calculadora le da la desviación estándar de la población\(\sigma = 5.259^{\circ}F\). Observe que es diferente al valor para\(s\), ya que se calculan de manera diferente. El valor que la calculadora le da para la desviación estándar de la población no es el valor verdadero real. La calculadora te da ambos valores porque no sabe si ingresaste una muestra o una población. Se puede ignorar la desviación estándar poblacional\(\sigma\) en casi todos los casos.