Saltar al contenido principal
LibreTexts Español

2.7: Medidas de la difusión de los datos

  • Page ID
    150791
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Una característica importante de cualquier conjunto de datos es la variación en los datos. En algunos conjuntos de datos, los valores de datos se concentran estrechamente cerca de la media; en otros conjuntos de datos, los valores de datos están más extensamente dispersos a partir de la media. La medida más común de variación, o spread, es la desviación estándar. La desviación estándar es un número que mide qué tan lejos están los valores de los datos de su media.

    La desviación estándar

    • proporciona una medida numérica de la cantidad total de variación en un conjunto de datos, y
    • se puede utilizar para determinar si un valor de datos en particular está cerca o lejos de la media.

    La desviación estándar proporciona una medida de la variación general en un conjunto de datos

    La desviación estándar es siempre positiva o cero. La desviación estándar es pequeña cuando todos los datos están concentrados cerca de la media, mostrando poca variación o dispersión. La desviación estándar es mayor cuando los valores de los datos están más dispersos de la media, exhibiendo más variación.

    Supongamos que estamos estudiando la cantidad de tiempo que los clientes esperan en la fila en el checkout en supermercado\(A\) y supermercado\(B\). El tiempo promedio de espera en ambos supermercados es de cinco minutos. En supermercado\(A\), la desviación estándar para el tiempo de espera es de dos minutos; en supermercado\(B\). La desviación estándar para el tiempo de espera es de cuatro minutos.

    Debido a que el supermercado\(B\) tiene una desviación estándar más alta, sabemos que hay más variación en los tiempos de espera en el supermercado\(B\). En general, los tiempos de espera en el supermercado\(B\) están más dispersos del promedio; los tiempos de espera en el supermercado\(A\) están más concentrados cerca de la media.

    Cálculo de la desviación estándar

    Si\(x\) es un número, entonces la diferencia "\(x\)menos la media” se llama su desviación. En un conjunto de datos, hay tantas desviaciones como elementos en el conjunto de datos. Las desviaciones se utilizan para calcular la desviación estándar. Si los números pertenecen a una población, en símbolos es una desviación\(x – \mu\). Para los datos de muestra, en símbolos una desviación es\(x – \overline{x}\).

    El procedimiento para calcular la desviación estándar depende de si los números son toda la población o son datos de una muestra. Los cálculos son similares, pero no idénticos. Por lo tanto, el símbolo utilizado para representar la desviación estándar depende de si se calcula a partir de una población o de una muestra. La letra minúscula s representa la desviación estándar de la muestra y la letra griega\(\sigma\) (sigma, minúscula) representa la desviación estándar de la población. Si la muestra tiene las mismas características que la población, entonces s debe ser una buena estimación de\(\sigma\).

    Para calcular la desviación estándar, primero necesitamos calcular la varianza. La varianza es el promedio de los cuadrados de las desviaciones (los\(x – \overline{x}\) valores para una muestra, o los\(x – \mu\) valores para una población). El símbolo\(\sigma^2\) representa la varianza poblacional; la desviación estándar poblacional\(\sigma\) es la raíz cuadrada de la varianza poblacional. El símbolo\(s^2\) representa la varianza muestral; la desviación estándar muestral s es la raíz cuadrada de la varianza muestral. Se puede pensar en la desviación estándar como un promedio especial de las desviaciones. Formalmente, la varianza es el segundo momento de la distribución o el primer momento alrededor de la media. Recuerda que la media es el primer momento de la distribución.

    Si los números provienen de un censo de toda la población y no de una muestra, cuando calculamos el promedio de las desviaciones cuadradas para encontrar la varianza, dividimos por\(N\), el número de ítems en la población. Si los datos son de una muestra más que de una población, cuando calculamos el promedio de las desviaciones cuadradas, dividimos por\(\bf{n – 1}\), uno menos que el número de ítems en la muestra.

    Fórmulas para la desviación estándar de la muestra

    • \(s=\sqrt{\frac{\Sigma(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\Sigma f(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\left(\sum_{i=1}^{n} x^{2}\right)^{-n x^{2}}}{n-1}}\)
    • Para la desviación estándar de la muestra, el denominador es\(\bf{n – 1}\), es decir, el tamaño de la muestra menos 1.

    Fórmulas para la desviación estándar de la población

    • \(\boldsymbol{\sigma}=\sqrt{\frac{\Sigma(x-\mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\Sigma f(x \mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\sum_{i=1}^{N} x_{i}^{2}}{N}-\mu^{2}}\)
    • Para la desviación estándar poblacional, el denominador es\(N\), el número de ítems en la población.

    En estas fórmulas,\(f\) representa la frecuencia con la que aparece un valor. Por ejemplo, si un valor aparece una vez,\(f\) es uno. Si un valor aparece tres veces en el conjunto de datos o población,\(f\) es tres. Dos observaciones importantes sobre la varianza y desviación estándar: las desviaciones se miden a partir de la media y las desviaciones son cuadradas. En principio, las desviaciones podrían medirse desde cualquier punto, sin embargo, nuestro interés es la medición desde el peso central de los datos, cuál es el valor “normal” o más habitual de la observación. Posteriormente estaremos tratando de medir la “inusualidad” de una observación o una media muestral y así necesitamos una medida a partir de la media. La segunda observación es que las desviaciones son cuadradas. Esto hace dos cosas, primero hace que las desviaciones sean todas positivas y en segundo lugar cambia las unidades de medida de la de la media y las observaciones originales. Si los datos son pesos entonces la media se mide en libras, pero la varianza se mide en libras al cuadrado. Una razón para utilizar la desviación estándar es volver a las unidades de medida originales tomando la raíz cuadrada de la varianza. Además, cuando las desviaciones son cuadradas explota su valor. Por ejemplo, una desviación de 10 respecto a la media cuando está al cuadrado es de 100, pero una desviación de 100 de la media es de 10,000. Lo que esto hace es darle gran peso a los valores atípicos a la hora de calcular la varianza.

    Tipos de Variabilidad en Muestras

    Al tratar de estudiar una población, a menudo se utiliza una muestra, ya sea por conveniencia o porque no es posible acceder a toda la población. Variabilidad es el término utilizado para describir las diferencias que pueden ocurrir en estos resultados. Los tipos comunes de variabilidad incluyen los siguientes:

    • Variabilidad observacional o de medición
    • Variabilidad natural
    • Variabilidad inducida
    • Variabilidad de la muestra

    Aquí hay algunos ejemplos para describir cada tipo de variabilidad.

    Ejemplo 1: Variabilidad de medición

    La variabilidad de medición ocurre cuando hay diferencias en los instrumentos utilizados para medir o en las personas que utilizan esos instrumentos. Si estamos recopilando datos sobre cuánto tiempo tarda una pelota en caer desde una altura haciendo que los alumnos midan el tiempo de caída con un cronómetro, podemos experimentar variabilidad de medición si los dos cronómetros utilizados fueron hechos por diferentes fabricantes: Por ejemplo, un cronómetro mide al segundo más cercano, mientras que el otro mide a la décima de segundo más cercana. También podemos experimentar variabilidad de medición porque dos personas diferentes están recopilando los datos. Sus tiempos de reacción al presionar el botón del cronómetro pueden diferir; así, los resultados variarán en consecuencia. Las diferencias en los resultados pueden verse afectadas por la variabilidad de la medición.

    Ejemplo 2: Variabilidad natural

    La variabilidad natural surge de las diferencias que ocurren naturalmente porque los miembros de una población difieren entre sí. Por ejemplo, si tenemos dos plantas de maíz idénticas y exponemos ambas plantas a la misma cantidad de agua y luz solar, aún pueden crecer a diferentes ritmos simplemente porque son dos plantas de maíz diferentes. La diferencia en los resultados puede explicarse por la variabilidad natural.

    Ejemplo 3: Variabilidad inducida

    La variabilidad inducida es la contraparte de la variabilidad natural; esto ocurre porque hemos inducido artificialmente un elemento de variación (que, por definición, no estaba presente de forma natural): Por ejemplo, asignamos personas a dos grupos diferentes para estudiar la memoria, e inducimos una variable en un grupo limitando la cantidad de sueño que obtienen. La diferencia en los resultados puede verse afectada por la variabilidad inducida.

    Ejemplo 4: Variabilidad de la muestra

    La variabilidad muestral ocurre cuando se toman múltiples muestras aleatorias de la misma población. Por ejemplo, si realizo cuatro encuestas a 50 personas seleccionadas aleatoriamente de una población determinada, las diferencias en los resultados pueden verse afectadas por la variabilidad de la muestra.

    Ejemplo\(\PageIndex{29}\)

    En una clase de quinto grado, la maestra se interesó por la edad promedio y la desviación estándar muestral de las edades de sus alumnos. Los siguientes datos son las edades para una MUESTRA de alumnos de\(n = 20\) quinto grado. Las edades se redondean al medio año más cercano:

    9; 9.5; 9.5; 10; 10; 10; 10.5; 10.5; 10.5; 10.5; 10.5; 11; 11; 11; 11; 11; 11.5; 11.5; 11.5; 11.5;

    \[\overline{x}=\frac{9+9.5(2)+10(4)+10.5(4)+11(6)+11.5(3)}{20}=10.525\nonumber\]

    La edad promedio es de 10.53 años, redondeada a dos lugares.

    La varianza se puede calcular usando una tabla. Después se calcula la desviación estándar tomando la raíz cuadrada de la varianza. Vamos a explicar las partes de la tabla después de calcular\(s\).

    \ (\ PageIndex {28}\) “>
    Datos Freq. Desviaciones Desviaciones 2 (Freq.) (Desviaciones 2)
    \(x\) \(f\) \((x - \overline{x})\) \((x – \overline{x})^2\) \((f)(x – \overline{x})^2\)
    9 1 \(9 – 10.525 = –1.525\) \((–1.525)^2 = 2.325625\) \(1 \times 2.325625 = 2.325625\)
    9.5 2 \(9.5 – 10.525 = –1.025\) \((–1.025)2 = 1.050625\) \(2 \times 1.050625 = 2.101250\)
    10 4 \(10 – 10.525 = –0.525\) \((–0.525)2 = 0.275625\) \(4 \times 0.275625 = 1.1025\)
    10.5 4 \(10.5 – 10.525 = –0.025\) \((–0.025)2 = 0.000625\) \(4 \times 0.000625 = 0.0025\)
    11 6 \(11 – 10.525 = 0.475\) \((0.475)2 = 0.225625\) \(6 \times 0.225625 = 1.35375\)
    11.5 3 \(11.5 – 10.525 = 0.975\) \((0.975)2 = 0.950625\) \(3 \times 0.950625 = 2.851875\)
    El total es 9.7375
    Mesa\(\PageIndex{28}\)

    La varianza muestral\(s^2\),, es igual a la suma de la última columna (9.7375) dividida por el número total de valores de datos menos uno\((20 – 1)\):

    \(s^{2}=\frac{9.7375}{20-1}=0.5125\)

    La desviación estándar muestra s es igual a la raíz cuadrada de la varianza de la muestra:

    \(s=\sqrt{0.5125}=0.715891\), que se redondea a dos decimales,\(s = 0.72\).

    Explicación del cálculo de la desviación estándar que se muestra en la tabla

    Las desviaciones muestran cuán dispersos están los datos sobre la media. El valor de datos 11.5 está más alejado de la media que el valor de datos 11 que se indica por las desviaciones 0.97 y 0.47. Una desviación positiva ocurre cuando el valor de los datos es mayor que la media, mientras que una desviación negativa ocurre cuando el valor de los datos es menor que la media. La desviación es —1.525 para el valor de datos nueve. Si agrega las desviaciones, la suma siempre es cero. (Por ejemplo\(\PageIndex{29}\), hay\(n = 20\) desviaciones.) Por lo que no se puede simplemente sumar las desviaciones para obtener el spread de los datos. Al cuadrar las desviaciones, los haces números positivos, y la suma también será positiva. La varianza, entonces, es la desviación cuadrada promedio. Al cuadrar las desviaciones estamos poniendo una penalización extrema a las observaciones que están lejos de la media; estas observaciones obtienen mayor peso en los cálculos de la varianza. Veremos más adelante que la varianza (desviación estándar) juega el papel crítico en la determinación de nuestras conclusiones en la estadística inferencial. Podemos comenzar ahora usando la desviación estándar como una medida de “inusualidad”. “¿Cómo te fue en la prueba?” “¡Terrific! Dos desviaciones estándar por encima de la media”. Esto, ya veremos, es una calificación de examen inusualmente buena.

    La varianza es una medida cuadrada y no tiene las mismas unidades que los datos. Tomar la raíz cuadrada resuelve el problema. La desviación estándar mide el spread en las mismas unidades que los datos.

    Observe que en lugar de dividir por\(n = 20\), el cálculo se divide por\(n – 1 = 20 – 1 = 19\) porque los datos son una muestra. Para la varianza muestral, dividimos por el tamaño de la muestra menos uno\((n – 1)\). ¿Por qué no dividir por\(n\)? La respuesta tiene que ver con la varianza poblacional. La varianza muestral es una estimación de la varianza poblacional. Esta estimación requiere que utilicemos una estimación de la media poblacional en lugar de la media poblacional real. Con base en las matemáticas teóricas que se encuentran detrás de estos cálculos, dividir por\((n – 1)\) da una mejor estimación de la varianza poblacional.

    La desviación estándar,\(s\) o\(\sigma\), es cero o mayor que cero. Describir los datos con referencia a la propagación se denomina “variabilidad”. La variabilidad en los datos depende del método por el cual se obtienen los resultados; por ejemplo, por medición o por muestreo aleatorio. Cuando la desviación estándar es cero, no hay spread; es decir, todos los valores de datos son iguales entre sí. La desviación estándar es pequeña cuando todos los datos están concentrados cerca de la media, y es mayor cuando los valores de los datos muestran más variación de la media. Cuando la desviación estándar es mucho mayor que cero, los valores de los datos están muy dispersos sobre la media; los valores atípicos pueden hacer\(s\) o\(\sigma\) muy grandes.

    Ejemplo\(\PageIndex{30}\)

    Utilice los siguientes datos (puntajes de los primeros exámenes) de la clase de pre-cálculo de primavera de Susan Dean:

    \(33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 96; 100\)

    1. Cree un gráfico que contenga los datos, frecuencias, frecuencias relativas y frecuencias relativas acumuladas a tres decimales.
    2. Calcule lo siguiente a un decimal:
      1. La media de la muestra
      2. La desviación estándar de la muestra
      3. La mediana
      4. El primer cuartil
      5. El tercer cuartil
      6. \(IQR\)
    Responder

    Solución 2.30

    a. Ver Tabla\(\PageIndex{29}\)

    b.

    1. La media muestral = 73.5
    2. La desviación estándar de la muestra = 17.9
    3. La mediana = 73
    4. El primer cuartil = 61
    5. El tercer cuartil = 90
    6. \(IQR = 90 – 61 = 29\)
    \ (\ PageIndex {29}\) “>
    Datos Frecuencia Frecuencia relativa Frecuencia relativa acumulativa
    33 1 0.032 0.032
    42 1 0.032 0.064
    49 2 0.065 0.129
    53 1 0.032 0.161
    55 2 0.065 0.226
    61 1 0.032 0.258
    63 1 0.032 0.29
    67 1 0.032 0.322
    68 2 0.065 0.387
    69 2 0.065 0.452
    72 1 0.032 0.484
    73 1 0.032 0.516
    74 1 0.032 0.548
    78 1 0.032 0.580
    80 1 0.032 0.612
    83 1 0.032 0.644
    88 3 0.097 0.741
    90 1 0.032 0.773
    92 1 0.032 0.805
    94 4 0.129 0.934
    96 1 0.032 0.966
    100 1 0.032 0.998 (¿Por qué este valor no es 1? Respuesta: Redondeo)
    Mesa\(\PageIndex{29}\)

    Desviación estándar de tablas de frecuencias agrupadas

    Recordemos que para los datos agrupados no conocemos valores de datos individuales, por lo que no podemos describir con precisión el valor típico de los datos. En otras palabras, no podemos encontrar la media exacta, la mediana o el modo. Podemos, sin embargo, determinar la mejor estimación de las medidas de centro encontrando la media de los datos agrupados con la fórmula:\(\text{ Mean of Frequency Table }=\frac{\sum \(f\) m} {\ sum f}\)
    donde frecuencias de\(f=\) intervalo y\(m\) = puntos medios de intervalo.

    Así como no pudimos encontrar la media exacta, tampoco podemos encontrar la desviación estándar exacta. Recuerde que la desviación estándar describe numéricamente la desviación esperada que tiene un valor de datos de la media. En inglés simple, la desviación estándar nos permite comparar cuán “inusuales” se comparan los datos individuales con la media.

    Ejemplo\(\PageIndex{31}\)

    Encuentra la desviación estándar para los datos en la Tabla\(\PageIndex{30}\).

    \ (\ PageIndex {30}\) “>
    Clase Frecuencia,\(f\) Punto medio,\(m\) \(f\cdot m\) \(f(m−\bar{x})^2\)
    0—2 \ (f\)” class="lt-estados-5332">1 \ (m\)” class="lt-estados-5332">1 \ (f\ cdot m\)” class="lt-stats-5332">\(1\cdot 1=1\) \ (f (m−\ bar {x}) ^2\)” class="lt-estados-5332">\(1(1−6.88)^2=34.57\)
    3—5 \ (f\)” class="lt-estados-5332">6 \ (m\)” class="lt-estados-5332">4 \ (f\ cdot m\)” class="lt-stats-5332">\(6\cdot 4=24\) \ (f (m−\ bar {x}) ^2\)” class="lt-estados-5332">\(6(4−6.88)^2=49.77\)
    6-8 \ (f\)” class="lt-estados-5332">10 \ (m\)” class="lt-estados-5332">7 \ (f\ cdot m\)” class="lt-stats-5332">\(10\cdot 7=70\) \ (f (m−\ bar {x}) ^2\)” class="lt-estados-5332">\(10(7−6.88)^2=0.14\)
    9-11 \ (f\)” class="lt-estados-5332">7 \ (m\)” class="lt-estados-5332">10 \ (f\ cdot m\)” class="lt-stats-5332">\(7\cdot 10=70\) \ (f (m−\ bar {x}) ^2\)” class="lt-estados-5332">\(7(10−6.88)^2=68.14\)
    12-14 \ (f\)” class="lt-estados-5332">0 \ (m\)” class="lt-estados-5332">13 \ (f\ cdot m\)” class="lt-stats-5332">\(0\cdot 13=0\) \ (f (m−\ bar {x}) ^2\)” class="lt-estados-5332">\(0(13−6.88)^2=0\)
    \ (f\)” class="lt-estados-5332">n = 24 \ (m\)” class="lt-estados-5332"> \ (f\ cdot m\)” class="lt-stats-5332">\(\bar{x}=16524=6.88\) \ (f (m−\ bar {x}) ^2\)” class="lt-estados-5332">\(s^2=152.6224−1=6.64\)
    Mesa\(\PageIndex{30}\)

    Para este conjunto de datos, tenemos la media,\(\bar{x} = 6.88\) y la desviación estándar,\(s_x = 2.58\). Esto significa que se esperaría que un valor de datos seleccionado aleatoriamente fuera de 2.58 unidades de la media. Si nos fijamos en la primera clase, vemos que el punto medio de la clase es igual a uno. Se trata de casi tres desviaciones estándar con respecto a la media. Si bien la fórmula para calcular la desviación estándar no es complicada,

    \[s_x=\sqrt{\frac{Σ(m−\bar{x})^2f}{n−1}}\nonumber\]

    donde\(s_x =\) la desviación estándar de la\(\bar{x} =\) muestra, la media de la muestra, los cálculos son tediosos. Por lo general, lo mejor es usar la tecnología al realizar los cálculos.

    Comparación de valores de diferentes conjuntos de datos

    La desviación estándar es útil al comparar valores de datos que provienen de diferentes conjuntos de datos. Si los conjuntos de datos tienen diferentes medias y desviaciones estándar, entonces comparar los valores de datos directamente puede ser engañoso.

    • Para cada valor de datos x, calcule cuántas desviaciones estándar alejadas de su media es el valor.
    • Usa la fórmula: x = media + (#of STDevs) (desviación estándar); resolver para #of STDevs.
    • \(\# \text { of } S T D E V s=\frac{x-\text { mean }}{\text { standard deviation }}\)
    • Comparar los resultados de este cálculo.

    #of STDevs a menudo se llama una “puntuación z”; podemos usar el símbolo\(z\). En símbolos, las fórmulas se convierten en:

    \ (\ PageIndex {31}\) “>
    Muestra \(x=\overline{x}+z s\) \(z=\frac{x-\overline{x}}{s}\)
    Población \(x=\mu+z \sigma\) \(z=\frac{x-\mu}{\sigma}\)
    Mesa\(\PageIndex{31}\)

    Ejemplo\(\PageIndex{32}\)

    Dos alumnos, John y Ali, de diferentes escuelas secundarias, quisieron averiguar quién tenía el mayor promedio de calificaciones en comparación con su escuela. ¿Qué estudiante tuvo el promedio más alto en comparación con su escuela?

    \ (\ PageIndex {32}\) “>
    Alumno GPA Media escolar GPA Desviación estándar escolar
    John 2.85 3.0 0.7
    Ali 77 80 10
    Mesa\(\PageIndex{32}\)
    Responder

    Solución 2.32

    Para cada alumno, determine cuántas desviaciones estándar (#of STDevs) su GPA está lejos del promedio, para su escuela. Presta mucha atención a las señales al comparar e interpretar la respuesta.

    \(z=\# \text { of STDE } \mathrm{Vs}=\frac{\text { value - mean }}{\text { standard deviation }}=\frac{x-\mu}{\sigma}\)

    Para John,\(z=\# \text { ofSTDEV } s=\frac{2.85 \cdot 3.0}{0.7}=-0.21\)

    Para Ali,\(z=\# \text { ofSTDEV } s=\frac{77-80}{10}=-0.3\)

    John tiene el mejor promedio en comparación con su escuela porque su promedio promedio es de 0.21 desviaciones estándar por debajo de la media de su escuela mientras que el promedio de Ali es 0.3 desviaciones estándar por debajo de la media de su escuela.

    La puntuación z de John de —0.21 es mayor que la puntuación z de Ali de —0.3. Para GPA, valores más altos son mejores, por lo que concluimos que John tiene el mejor GPA en comparación con su escuela.

    Ejercicio\(\PageIndex{32}\)

    Agrega texto de ejercicios aquí.

    Responder

    Dos nadadoras, Angie y Beth, de diferentes equipos, quisieron averiguar quién tuvo el mejor tiempo para el estilo libre de 50 metros en comparación con su equipo. ¿Qué nadadora tuvo el tiempo más rápido en comparación con su equipo?

    \ (\ PageIndex {33}\) “>
    Nadador Tiempo (segundos) Tiempo medio del equipo Desviación estándar del equipo
    Angie 26.2 27.2 0.8
    Beth 27.3 30.1 1.4
    Mesa\(\PageIndex{33}\)

    Las siguientes listas dan algunos datos que proporcionan un poco más de información sobre lo que nos dice la desviación estándar sobre la distribución de los datos.

    Para CUALQUIER conjunto de datos, no importa cuál sea la distribución de los datos:

    • Al menos 75% de los datos se encuentran dentro de dos desviaciones estándar de la media.
    • Al menos 89% de los datos se encuentran dentro de tres desviaciones estándar de la media.
    • Al menos 95% de los datos se encuentran dentro de 4.5 desviaciones estándar de la media.
    • Esto se conoce como Regla de Chebyshev.

    Para datos que tengan una Distribución Normal, que examinaremos con gran detalle más adelante:

    • Aproximadamente el 68% de los datos se encuentra dentro de una desviación estándar de la media.
    • Aproximadamente el 95% de los datos se encuentran dentro de dos desviaciones estándar de la media.
    • Más del 99% de los datos se encuentran dentro de tres desviaciones estándar de la media.
    • Esto se conoce como la Regla Empírica.
    • Es importante señalar que esta regla sólo se aplica cuando la forma de la distribución de los datos es acampanada y simétrica. Aprenderemos más sobre esto al estudiar la distribución de probabilidad “Normal” o “Gaussiana” en capítulos posteriores.

    Coeficiente de variación

    Otra forma útil de comparar distribuciones además de simples comparaciones de medias o desviaciones estándar es ajustar las diferencias en la escala de los datos que se están midiendo. En pocas palabras, una gran variación en los datos con una media grande es diferente a la misma variación en los datos con una media pequeña. Para ajustar a la escala de los datos subyacentes se ha desarrollado el Coeficiente de Variación (CV). Matemáticamente:

    \[C V=\frac{s}{\overline{x}} * 100 \text { conditioned upon } \overline{x} \neq 0, \text { where } s \text { is the standard deviation of the data and } \overline{x}\nonumber\]

    Podemos ver que esto mide la variabilidad de los datos subyacentes como porcentaje del valor medio; el peso central del conjunto de datos. Esta medida es útil para comparar el riesgo donde se justifica un ajuste por diferencias en la escala de dos conjuntos de datos. En efecto, la escala se cambia a escala común, diferencias porcentuales, y permite la comparación directa de las dos o más magnitudes de variación de diferentes conjuntos de datos.


    This page titled 2.7: Medidas de la difusión de los datos is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by OpenStax via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.