2.5: La regla empírica y el teorema de Chebyshev
- Page ID
- 151129
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Objetivos de aprendizaje
- Conocer lo que implica el valor de la desviación estándar de un conjunto de datos acerca de cómo los datos se dispersan lejos de la media como lo describen la Regla Empírica y el Teorema de Chebyshev.
- Utilizar la Regla Empírica y el Teorema de Chebyshev para sacar conclusiones sobre un conjunto de datos.
Probablemente tengas una buena comprensión intuitiva de lo que dice el promedio de un conjunto de datos sobre ese conjunto de datos. En esta sección comenzamos a aprender qué tiene que decirnos la desviación estándar sobre la naturaleza del conjunto de datos.
La regla empírica
Comenzamos por examinar un conjunto específico de datos. \(\PageIndex{1}\)La tabla muestra las alturas en pulgadas de hombres adultos seleccionados\(100\) al azar. En la Figura se muestra un histograma de frecuencia relativa para los datos\(\PageIndex{1}\). La media y desviación estándar de los datos son, redondeados a dos decimales,\(\bar{x}=69.92\) y\(\sigma = 1.70\).
68.7 | 72.3 | 71.3 | 72.5 | 70.6 | 68.2 | 70.1 | 68.4 | 68.6 | 70.6 |
73.7 | 70.5 | 71.0 | 70.9 | 69.3 | 69.4 | 69.7 | 69.1 | 71.5 | 68.6 |
70.9 | 70.0 | 70.4 | 68.9 | 69.4 | 69.4 | 69.2 | 70.7 | 70.5 | 69.9 |
69.8 | 69.8 | 68.6 | 69.5 | 71.6 | 66.2 | 72.4 | 70.7 | 67.7 | 69.1 |
68.8 | 69.3 | 68.9 | 74.8 | 68.0 | 71.2 | 68.3 | 70.2 | 71.9 | 70.4 |
71.9 | 72.2 | 70.0 | 68.7 | 67.9 | 71.1 | 69.0 | 70.8 | 67.3 | 71.8 |
70.3 | 68.8 | 67.2 | 73.0 | 70.4 | 67.8 | 70.0 | 69.5 | 70.1 | 72.0 |
72.2 | 67.6 | 67.0 | 70.3 | 71.2 | 65.6 | 68.1 | 70.8 | 71.4 | 70.2 |
70.1 | 67.5 | 71.3 | 71.5 | 71.0 | 69.1 | 69.5 | 71.1 | 66.8 | 71.8 |
69.6 | 72.7 | 72.8 | 69.6 | 65.9 | 68.0 | 69.7 | 68.7 | 69.8 | 69.7 |
Si pasamos por los datos y contamos el número de observaciones que están dentro de una desviación estándar de la media, es decir, que están entre\(69.92-1.70=68.22\) y\(69.92+1.70=71.62\) pulgadas, hay\(69\) de ellas. Si contamos el número de observaciones que están dentro de dos desviaciones estándar de la media, es decir, que están entre\(69.92-2(1.70)=66.52\) y\(69.92+2(1.70)=73.32\) pulgadas, hay\(95\) de ellas. Todas las medidas están dentro de tres desviaciones estándar de la media, es decir, entre\(69.92-3(1.70)=64.822\) y\(69.92+3(1.70)=75.02\) pulgadas. Estos recuentos no son coincidencias, sino que están de acuerdo con el siguiente resultado que se ha encontrado de amplia aplicación.
La regla empírica
Aproximadamente\(68\%\) de los datos se encuentran dentro de una desviación estándar de la media, es decir, en el intervalo con puntos finales\(\bar{x}\pm s\) para muestras y con puntos finales\(\mu \pm \sigma\) para poblaciones; si un conjunto de datos tiene un histograma de frecuencia relativa aproximadamente en forma de campana, entonces (Figura\(\PageIndex{2}\))
- aproximadamente\(95\%\) de los datos se encuentran dentro de dos desviaciones estándar de la media, es decir, en el intervalo con puntos finales\(\bar{x}\pm 2s\) para muestras y con puntos finales\(\mu \pm 2\sigma\) para poblaciones; y
- aproximadamente\(99.7\%\) de los datos se encuentran dentro de tres desviaciones estándar de la media, es decir, en el intervalo con puntos finales\(\bar{x}\pm 3s\) para muestras y con puntos finales\(\mu \pm 3\sigma\) para poblaciones.
Dos puntos clave con respecto a la Regla Empírica son que la distribución de los datos debe ser aproximadamente en forma de campana y que los porcentajes son sólo aproximadamente ciertos. La Regla Empírica no se aplica a conjuntos de datos con distribuciones severamente asimétricas, y el porcentaje real de observaciones en cualquiera de los intervalos especificados por la regla podría ser mayor o menor que los dados en la regla. Esto lo vemos con el ejemplo de las alturas de los hombres: la Regla Empírica sugería 68 observaciones entre\(68.22\) y\(71.62\) pulgadas, pero contamos\(69\).
Ejemplo\(\PageIndex{1}\)
Las alturas\(18\) de los machos de un año tienen una distribución en forma de campana con\(69.6\) pulgadas medias y pulgadas de desviación\(1.4\) estándar.
- Acerca de qué proporción de todos esos hombres están entre\(68.2\) y\(71\) pulgadas de alto?
- ¿Qué intervalo centrado en la media debería contener aproximadamente\(95\%\) de todos esos hombres?
Solución:
Se da un boceto de la distribución de alturas en la Figura\(\PageIndex{3}\).
- Dado que el intervalo de\(68.2\) a\(71.0\) tiene puntos finales\(\bar{x}-s\) y\(\bar{x}+s\), por la Regla Empírica aproximadamente\(68\%\) de todos los machos\(18\) de años de edad deberían tener alturas en este rango.
-
Por la Regla Empírica el intervalo más corto tiene puntos finales\(\bar{x}-2s\) y\(\bar{x}+2s\). Desde\[\bar{x}-2s=69.6-2(1.4)=66.8 \nonumber\] y\[ \bar{x}+2s=69.6+2(1.4)=72.4 \nonumber\]
el intervalo en cuestión es el intervalo de\(66.8\) pulgadas a\(72.4\) pulgadas.
Ejemplo\(\PageIndex{2}\)
Los puntajes en las pruebas de CI tienen una distribución en forma de campana con media\(\mu =100\) y desviación estándar\(\sigma =10\). Discutir lo que implica la Regla Empírica respecto a individuos con puntajes de CI de\(110\)\(120\),, y\(130\).
Solución:
En la Figura se presenta un boceto de la distribución del coeficiente intelectual\(\PageIndex{3}\). La Regla Empírica establece que
- aproximadamente\(68\%\) de los puntajes de CI en la población se encuentran entre\(90\) y\(110\),
- aproximadamente\(95\%\) de los puntajes de coeficiente intelectual en la población se encuentran entre\(80\) y\(120\), y
- aproximadamente\(99.7\%\) de los puntajes de coeficiente intelectual en la población se encuentran entre\(70\) y\(130\).
- Dado que\(68\%\) de los puntajes de CI se encuentran dentro del intervalo de\(90\) a\(110\), debe darse el caso que se\(32\%\) encuentre fuera de ese intervalo. Por simetría aproximadamente la mitad de eso\(32\%\), o\(16\%\) de todos los puntajes de coeficiente intelectual, estarán por encima\(110\). Si\(16\%\) yace arriba\(110\), entonces\(84\%\) acuéstese abajo. Concluimos que el puntaje de CI\(110\) es el\(84^{th}\) percentil.
- El mismo análisis se aplica a la puntuación\(120\). Dado que aproximadamente\(95\%\) de todos los puntajes de CI se encuentran dentro del intervalo forman\(80\) a\(120\), solo se\(5\%\) encuentran fuera de él, y la mitad de ellos, o\(2.5\%\) de todos los puntajes, están arriba\(120\). El puntaje de CI\(120\) es así más alto que el\(97.5\%\) de todos los puntajes de CI, y es un puntaje bastante alto.
- Por un argumento similar, solo\(15/100\)\(1\%\) de todos los adultos, o aproximadamente uno o dos de cada mil, tendrían un puntaje de CI por encima\(130\). Este hecho hace que la puntuación sea\(130\) extremadamente alta.
Teorema de Chebyshev
La Regla Empírica no se aplica a todos los conjuntos de datos, sólo a los que tienen forma de campana, e incluso entonces se afirma en términos de aproximaciones. Un resultado que se aplica a cada conjunto de datos se conoce como Teorema de Chebyshev.
Teorema de Chebyshev
Para cualquier conjunto de datos numéricos,
- al menos\(3/4\) de los datos se encuentran dentro de dos desviaciones estándar de la media, es decir, en el intervalo con puntos finales\(\bar{x}\pm 2s\) para muestras y con puntos finales\(\mu \pm 2\sigma\) para poblaciones;
- al menos\(8/9\) de los datos se encuentran dentro de tres desviaciones estándar de la media, es decir, en el intervalo con puntos finales\(\bar{x}\pm 3s\) para muestras y con puntos finales\(\mu \pm 3\sigma\) para poblaciones;
- al menos\(1-1/k^2\) de los datos se encuentran dentro de las desviaciones\(k\) estándar de la media, es decir, en el intervalo con puntos finales\(\bar{x}\pm ks\) para muestras y con puntos finales\(\mu \pm k\sigma\) para poblaciones, donde\(k\) está cualquier número entero positivo que sea mayor que\(1\).
La figura\(\PageIndex{4}\) da una ilustración visual del teorema de Chebyshev.
Es importante prestar especial atención a las palabras “al menos” al inicio de cada una de las tres partes del Teorema de Chebyshev. El teorema da la proporción mínima de los datos que deben estar dentro de un número dado de desviaciones estándar de la media; las proporciones verdaderas encontradas dentro de las regiones indicadas podrían ser mayores de lo que garantiza el teorema.
Ejemplo\(\PageIndex{3}\)
Una muestra de tamaño\(n=50\) tiene media\(\bar{x}=28\) y desviación estándar\(s=3\). Sin saber nada más sobre la muestra, ¿qué se puede decir del número de observaciones que se encuentran en el intervalo\((22,34)\)? ¿Qué se puede decir del número de observaciones que se encuentran fuera de ese intervalo?
Solución:
El intervalo\((22,34)\) es el que se forma sumando y restando dos desviaciones estándar de la media. Por el Teorema de Chebyshev, al menos\(3/4\) de los datos están dentro de este intervalo. Dado que\(3/4\) de\(50\) es\(37.5\), esto significa que al menos\(37.5\) las observaciones están en el intervalo. Pero no se puede tomar una observación fraccionaria, por lo que concluimos que al menos\(38\) las observaciones deben estar dentro del intervalo\((22,34)\).
Si al menos\(3/4\) de las observaciones están en el intervalo, entonces en la mayoría\(1/4\) de ellas están fuera de él. Dado que\(1/4\) de\(50\) es\(12.5\), a lo sumo\(12.5\) las observaciones están fuera del intervalo. Ya que de nuevo una fracción de una observación es imposible,\(x\; (22,34)\).
Ejemplo\(\PageIndex{4}\)
El número de vehículos que pasaban por una intersección transitada entre\(8:00\; a.m.\) y se\(10:00\; a.m.\) observó y registró en cada mañana de lunes a viernes del año pasado. El conjunto de datos contiene\(n=251\) números. La media de la muestra es\(\bar{x}=725\) y la desviación estándar de la muestra es\(s=25\). Identificar cuál de las siguientes afirmaciones debe ser verdadera.
- Aproximadamente\(95\%\) de las mañanas de los días de la semana del año pasado el número de vehículos que pasaban por la intersección de\(8:00\; a.m.\) a\(10:00\; a.m.\) fue entre\(675\) y\(775\).
- En al menos\(75\%\) de las mañanas de los días de la semana del año pasado el número de vehículos que pasaban por la intersección de\(8:00\; a.m.\) a\(10:00\; a.m.\) estaba entre\(675\) y\(775\).
- Al menos en las\(189\) mañanas de lunes a viernes del año pasado el número de vehículos que pasaban por la intersección de\(8:00\; a.m.\) a\(10:00\; a.m.\) fue entre\(675\) y\(775\).
- En la mayoría\(25\%\) de las mañanas de lunes a viernes del año pasado el número de vehículos que pasaban por la intersección de\(8:00\; a.m.\) a\(10:00\; a.m.\) era menor\(675\) o mayor que\(775\).
- En la mayoría\(12.5\%\) de las mañanas de lunes a viernes del año pasado el número de vehículos que pasaban por la intersección de\(8:00\; a.m.\) a\(10:00\; a.m.\) fue menor que\(675\).
- En la mayoría\(25\%\) de las mañanas de lunes a viernes del año pasado el número de vehículos que pasaban por la intersección de\(8:00\; a.m.\) a\(10:00\; a.m.\) fue menor que\(675\).
Solución:
- Dado que no se afirma que el histograma de frecuencia relativa de los datos tenga forma de campana, no se aplica la Regla Empírica. El enunciado (1) se basa en la Regla Empírica y por lo tanto podría no ser correcta.
- Declaración (2) es una aplicación directa de la parte (1) del Teorema de Chebyshev porque\(\bar{x}-2s\),\(\bar{x}+2s = (675,775)\). Debe ser correcto.
- Declaración (3) dice lo mismo que declaración (2) debido a\(75\%\) que\(251\) es\(188.25\), por lo que el número mínimo entero de observaciones en este intervalo es\(189\). Por lo tanto, la declaración (3) es definitivamente correcta.
- El enunciado (4) dice lo mismo que el enunciado (2) pero en palabras distintas, y por lo tanto es definitivamente correcto.
- El comunicado (4), que es definitivamente correcto, establece que en la mayor parte\(25\%\) del tiempo ya sea menos\(675\) o más que\(775\) los vehículos que pasaron por la intersección. Comunicado (5) dice que la mitad de eso\(25\%\) corresponde a días de semáforo ligero. Esto sería correcto si se supiera que el histograma de frecuencia relativa de los datos es simétrico. Pero esto no se afirma; quizá todas las observaciones fuera del intervalo (\(675,775\)) sean menores que\(75\). Por lo tanto, la declaración (5) podría no ser correcta.
- La declaración (4) es definitivamente correcta y la declaración (4) implica declaración (6): incluso si cada medición que está fuera del intervalo (\(675,775\)) es menor que\(675\) (lo cual es concebible, ya que no se sabe que la simetría se mantenga), aun así en la mayoría\(25\%\) de todas las observaciones son menores que\(675\). Por lo tanto, la declaración (6) debe ser definitivamente correcta.
Llave para llevar
- La Regla Empírica es una aproximación que se aplica únicamente a conjuntos de datos con un histograma de frecuencia relativa en forma de campana. Estima la proporción de las mediciones que se encuentran dentro de una, dos y tres desviaciones estándar de la media.
- El Teorema de Chebyshev es un hecho que se aplica a todos los conjuntos de datos posibles. Describe la proporción mínima de las mediciones que se encuentran dentro de una, dos o más desviaciones estándar de la media.