Saltar al contenido principal
LibreTexts Español

6.5: La varianza de la muestra

  • Page ID
    152191
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\mse}{\text{mse}}\)\(\newcommand{\mae}{\text{mae}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)\(\newcommand{\bs}{\boldsymbol}\)\(\newcommand{\skw}{\text{skew}}\)\(\newcommand{\kur}{\text{kurt}}\)

    Teoría Descriptiva

    Recordemos el modelo básico de estadística: tenemos una población de objetos de interés, y tenemos diversas medidas (variables) que hacemos sobre estos objetos. Seleccionamos objetos de la población y registramos las variables para los objetos de la muestra; estas se convierten en nuestros datos. Una vez más, nuestra primera discusión es desde un punto de vista descriptivo. Es decir, no asumimos que los datos son generados por una distribución de probabilidad subyacente. Recuerde, sin embargo, que los propios datos forman una distribución de probabilidad.

    Varianza y Desviación Estándar

    Supongamos que\(\bs{x} = (x_1, x_2, \ldots, x_n)\) es una muestra de tamaño\(n\) de una variable de valor real\(x\). Recordemos que la media muestral es\[ m = \frac{1}{n} \sum_{i=1}^n x_i \] y es la medida más importante del centro del conjunto de datos. La varianza de la muestra se define como\[ s^2 = \frac{1}{n - 1} \sum_{i=1}^n (x_i - m)^2 \] Si necesitamos indicar la dependencia del vector de datos\(\bs{x}\), escribimos\(s^2(\bs{x})\). La diferencia\(x_i - m\) es la desviación\(x_i\) de la media\(m\) del conjunto de datos. Así, la varianza es la desviación cuadrática media y es una medida de la dispersión del conjunto de datos con respet a la media. La razón de dividir por\(n - 1\) más que\(n\) se entiende mejor en términos del punto de vista inferencial que discutimos en la siguiente sección; esta definición convierte a la varianza muestral en un estimador imparcial de la varianza de distribución. Sin embargo, la razón del promedio también se puede entender en términos de un concepto relacionado.

    \(\sum_{i=1}^n (x_i - m) = 0\).

    Prueba

    \(\sum_{i=1}^n (x_i - m) = \sum_{i=1}^n x_i - \sum_{i=1}^n m = n m - n m = 0\).

    Así, si conocemos\(n - 1\) las desviaciones, podemos calcular la última. Esto quiere decir que sólo hay desviaciones que varían\(n - 1\) libremente, es decir,\(n - 1\) grados de libertad en el conjunto de desviaciones. En la definición de varianza muestral, promediamos las desviaciones cuadradas, no dividiendo por el número de términos, sino dividiendo por el número de grados de libertad en esos términos. Sin embargo, a pesar de este argumento, sería razonable, desde un punto de vista puramente descriptivo, dividir por\(n\) en la definición de la varianza muestral. Además, cuando\(n\) es suficientemente grande, difícilmente importa si dividimos por\(n\) o por\(n - 1\).

    En cualquier caso, la raíz cuadrada\(s\) de la varianza muestral\(s^2\) es la desviación estándar de la muestra. Es la desviación cuadrática media y también es una medida de la dispersión de los datos con respecto a la media. Ambas medidas de propagación son importantes. La varianza tiene propiedades matemáticas más agradables, pero su unidad física es el cuadrado de la unidad de\(x\). Por ejemplo, si la variable subyacente\(x\) es la altura de una persona en pulgadas, la varianza es en pulgadas cuadradas. Por otro lado, la desviación estándar tiene la misma unidad física que la variable original, pero sus propiedades matemáticas no son tan agradables.

    Recordemos que el conjunto de datos da lugar\(\bs{x}\) naturalmente a una distribución de probabilidad, es decir, la distribución empírica que coloca la probabilidad\(\frac{1}{n}\) en\(x_i\) para cada uno\(i\). Por lo tanto, si los datos son distintos, esta es la distribución uniforme en\(\{x_1, x_2, \ldots, x_n\}\). La media muestral\(m\) es simplemente el valor esperado de la distribución empírica. Del mismo modo, si tuviéramos que dividir por\(n\) más que\(n - 1\), la varianza de la muestra sería la varianza de la distribución empírica. La mayoría de las propiedades y resultados de esta sección siguen de propiedades mucho más generales y resultados para la varianza de una distribución de probabilidad (aunque en su mayor parte, damos pruebas independientes).

    Medidas de Centro y Difundir

    Las medidas de centro y las medidas de propagación son mejor pensadas juntas, en el contexto de una función de error. La función de error mide qué tan bien un solo número\(a\) representa todo el conjunto de datos\(\bs{x}\). Los valores de\(a\) (si existen) que minimizan las funciones de error son nuestras medidas de centro; el valor mínimo de la función de error es la medida correspondiente de spread. Por supuesto, esperamos un solo valor de\(a\) que minimice la función de error, para que tengamos una medida única de centro.

    Apliquemos este procedimiento a la función de error cuadrático medio definida por\[ \mse(a) = \frac{1}{n - 1} \sum_{i=1}^n (x_i - a)^2, \quad a \in \R \] Minimizar\(\mse\) es un problema estándar en el cálculo.

    La gráfica de\(\mse\) es una parábola que se abre hacia arriba.

    1. \(\mse\)se minimiza cuando\(a = m\), la media de la muestra.
    2. El valor mínimo de\(\mse\) es\(s^2\), la varianza muestral.
    Prueba

    Podemos decir por la forma de\(\mse\) que la gráfica es una parábola que se abre hacia arriba. Tomando la derivada da\[ \frac{d}{da} \mse(a) = -\frac{2}{n - 1}\sum_{i=1}^n (x_i - a) = -\frac{2}{n - 1}(n m - n a) \] De ahí\(a = m\) es el valor único que minimiza\(\mse\). Por supuesto,\(\mse(m) = s^2\).

    Trivialmente, si definimos la función de error cuadrático medio dividiendo por en\(n\) lugar de\(n - 1\), entonces el valor mínimo seguiría ocurriendo en\(m\), la media muestral, pero el valor mínimo sería la versión alternativa de la varianza muestral en la que dividimos por\(n\). Por otro lado, si tuviéramos que usar la función de desviación cuadrática media raíz\(\text{rmse}(a) = \sqrt{\mse(a)}\), entonces debido a que la función raíz cuadrada está aumentando estrictamente\([0, \infty)\), el valor mínimo volvería a ocurrir en\(m\), la media de la muestra, pero el valor mínimo sería\(s\), el estándar de muestra desviación. El punto importante es que con todas estas funciones de error, la medida única del centro es la media muestral, y las medidas correspondientes de propagación son las diversas que estamos estudiando.

    A continuación, apliquemos nuestro procedimiento a la función de error absoluto medio definida por\[ \mae(a) = \frac{1}{n - 1} \sum_{i=1}^n \left|x_i - a\right|, \quad a \in \R \]

    La función de error absoluto medio satisface las siguientes propiedades:

    1. \(\mae\)es una función continua.
    2. La gráfica de\(\mae\) consta de líneas.
    3. La pendiente de la línea en\(a\) depende de dónde\(a\) se encuentre en el conjunto de datos\(\bs{x}\).
    Prueba

    Para las partes (a) y (b), tenga en cuenta que para cada una\(i\),\(\left|x_i - a\right|\) es una función continua de\(a\) con la gráfica que consta de dos líneas (de pendientes\(\pm 1\)) reunidas en\(x_i\).

    Matemáticamente,\(\mae\) tiene algunos problemas como función de error. En primer lugar, la función no será suave (diferenciable) en puntos donde se encuentran dos líneas de diferentes pendientes. Más importante aún, los valores que minimizan mae pueden ocupar un intervalo completo, dejándonos así sin una medida única de centro. Los ejercicios de función de error a continuación te mostrarán que estas patologías realmente pueden ocurrir. Resulta que\(\mae\) se minimiza en cualquier punto del intervalo mediano del conjunto de datos\(\bs{x}\). La prueba de este resultado se desprende de un resultado mucho más general para distribuciones de probabilidad. Así, las medianas son las medidas naturales de centro asociadas\(\mae\) como medida de error, de la misma manera que la media muestral es la medida de centro asociada a la\(\mse\) como medida de error.

    Propiedades

    En esta sección, establecemos algunas propiedades esenciales de la varianza de la muestra y la desviación estándar. En primer lugar, la siguiente fórmula alternativa para la varianza muestral es mejor para fines computacionales, y también para ciertos fines teóricos.

    La varianza de la muestra se puede calcular como\[ s^2 = \frac{1}{n - 1} \sum_{i=1}^n x_i^2 - \frac{n}{n - 1} m^2 \]

    Prueba

    Tenga en cuenta que\ begin {align}\ sum_ {i=1} ^n (x_i - m) ^2 & =\ sum_ {i=1} ^n\ left (x_i^2 - 2 m x_i + m^2\ derecha) =\ suma_ {i=1} ^n x_i^2 - 2 m\ suma_ {i=1} ^n x_i -\ sum_ {i=1} ^n m\\ & =\ sum_ {i=1} ^n x_i^2 - 2 n m^2 + n m^2 =\ sum_ {i=1} ^n x_i^2 - n m^2\ end {align} Dividir por\(n - 1\) da el resultado.

    Si dejamos\(\bs{x}^2 = (x_1^2, x_2^2, \ldots, x_n^2)\) denotar la muestra a partir de la variable\(x^2\), entonces la fórmula computacional en el último ejercicio se puede escribir sucintamente como\[ s^2(\bs{x}) = \frac{n}{n - 1} \left[m(\bs{x}^2) - m^2(\bs{x})\right] \] El siguiente teorema da otra fórmula computacional para la varianza muestral, directamente en términos de las variables y así sin el cálculo de un estadístico intermedio.

    La varianza de la muestra se puede calcular como\[ s^2 = \frac{1}{2 n (n - 1)} \sum_{i=1}^n \sum_{j=1}^n (x_i - x_j)^2 \]

    Prueba

    Tenga en cuenta que\ begin {align}\ frac {1} {2 n}\ sum_ {i=1} ^n\ suma_ {j=1} ^n (x_i - x_j) ^2 & =\ frac {1} {2 n}\ sum_ {i=1} ^n\ sum_ {j=1} ^n (x_i - m + m - x_j) ^2\ & =\ frac {1} {2 n}\ suma_ {i=1} ^n\ suma_ {j=1} ^n\ izquierda [(x_i - m) ^2 + 2 (x_i - m) (m - x_j) + (m - x_j) ^2\ derecha]\\ & =\ frac {1} {2 n}\ sum_ {i=1} ^n suma_ {j=1} ^n (x _i - m) ^2 +\ frac {1} {n}\ suma_ {i=1} ^n\ suma_ {j=1} ^n (x_i - m) (m - x_j) +\ frac {1} {2 n}\ suma_ {i=1} ^n\ suma_ {j=1} ^n (m - x_j) ^2\\ & =\ frac {1} {2}\ sum_ {i=1} ^n (x_i - m) ^2 + 0 +\ frac {1} {2}\ sum_ {j=1} ^n (m - x_j) ^2\\ & =\ sum_ {i=1} ^n (x_i - m) ^2\ end {align} Dividir por\(n - 1\) da el resultado.

    La varianza de la muestra no es negativa:

    1. \(s^2 \ge 0\)
    2. \(s^2 = 0\)si y sólo si\(x_i = x_j\) para cada uno\(i, \; j \in \{1, 2, \ldots, n\}\).
    Prueba

    La parte (a) es obvia. Para la parte b) tenga en cuenta que si\(s^2 = 0\) entonces\(x_i = m\) para cada uno\(i\). Por el contrario, si\(\bs{x}\) es un vector constante, entonces\(m\) es esa misma constante.

    Así,\(s^2 = 0\) si y sólo si el conjunto de datos es constante (y entonces, por supuesto, la media es el valor común).

    Si\(c\) es una constante entonces

    1. \(s^2(c \, \bs{x}) = c^2 \, s^2(\bs{x})\)
    2. \(s(c \, \bs{x}) = \left|c\right| \, s(\bs{x})\)
    Prueba

    Para la parte a), recordemos eso\(m(c \bs{x}) = c m(\bs{x})\). De ahí\[ s^2(c \bs{x}) = \frac{1}{n - 1}\sum_{i=1}^n \left[c x_i - c m(\bs{x})\right]^2 = \frac{1}{n - 1} \sum_{i=1}^n c^2 \left[x_i - m(\bs{x})\right]^2 = c^2 s^2(\bs{x}) \]

    Si\(\bs{c}\) es una muestra de tamaño\(n\) de una constante\(c\) entonces

    1. \(s^2(\bs{x} + \bs{c}) = s^2(\bs{x})\).
    2. \(s(\bs{x} + \bs{c}) = s(\bs{x})\)
    Prueba

    Recordemos eso\(m(\bs{x} + \bs{c}) = m(\bs{x}) + c\). De ahí\[ s^2(\bs{x} + \bs{c}) = \frac{1}{n - 1} \sum_{i=1}^n \left\{(x_i + c) - \left[m(\bs{x}) + c\right]\right\}^2 = \frac{1}{n - 1} \sum_{i=1}^n \left[x_i - m(\bs{x})\right]^2 = s^2(\bs{x})\]

    Como caso especial de estos resultados, supongamos que\(\bs{x} = (x_1, x_2, \ldots, x_n)\) es una muestra de tamaño\(n\) correspondiente a una variable real\(x\), y que\(a\) y\(b\) son constantes. La muestra correspondiente a la variable\(y = a + b x\), en nuestra notación vectorial, es\(\bs{a} + b \bs{x}\). Entonces\(m(\bs{a} + b \bs{x}) = a + b m(\bs{x})\) y\(s(\bs{a} + b \bs{x}) = \left|b\right| s(\bs{x})\). Transformaciones lineales de este tipo, cuando\(b \gt 0\), surgen frecuentemente cuando se cambian las unidades físicas. En este caso, la transformación a menudo se denomina transformación de escala de ubicación;\(a\) es el parámetro de ubicación y\(b\) es el parámetro de escala. Por ejemplo, si\(x\) es la longitud de un objeto en pulgadas, entonces\(y = 2.54 x\) es la longitud del objeto en centímetros. Si\(x\) es la temperatura de un objeto en grados Fahrenheit, entonces\(y = \frac{5}{9}(x - 32)\) es la temperatura del objeto en grados Celsius.

    Ahora, para\(i \in \{1, 2, \ldots, n\}\), vamos\( z_i = (x_i - m) / s\). El número\(z_i\) es la puntuación estándar asociada con\(x_i\). Tenga en cuenta que dado que\(x_i\)\(m\),, y\(s\) tienen las mismas unidades físicas, la puntuación estándar\(z_i\) es adimensional (es decir, no tiene unidades físicas); mide la distancia dirigida desde la media\(m\) hasta el valor de datos\(x_i\) en desviaciones estándar.

    La muestra de puntajes estándar\(\bs{z} = (z_1, z_2, \ldots, z_n)\) tiene media 0 y varianza 1. Es decir,

    1. \(m(\bs{z}) = 0\)
    2. \(s^2(\bs{z}) = 1\)
    Prueba

    Estos resultados se derivan de los Theroems 7 y 8. En notación vectorial, tenga en cuenta que\(\bs{z} = (\bs{x} - \bs{m})/s\). De ahí\(m(\bs{z}) = (m - m) / s = 0\) y\(s(\bs{z}) = s / s = 1\).

    Aproximación a la varianza

    Supongamos que en lugar de los datos reales\(\bs{x}\), tenemos una distribución de frecuencia correspondiente a una partición con clases (intervalos)\((A_1, A_2, \ldots, A_k)\), marcas de clase (puntos medios de los intervalos)\((t_1, t_2, \ldots, t_k)\) y frecuencias\((n_1, n_2, \ldots, n_k)\). Recordemos que la frecuencia relativa de clase\(A_j\) es\(p_j = n_j / n\). En este caso, los valores aproximados de la media muestral y varianza son, respectivamente,

    \ begin {align} m & =\ frac {1} {n}\ suma_ {j=1} ^k n_j\, t_j =\ suma_ {j = 1} ^k p_j\, t_j\ s^2 & =\ frac {1} {n - 1}\ suma_ {j=1} ^k n_j (t_j - m) ^2 =\ frac {n} {n - 1}\ suma_ {j=1} ^k p_j (t_j - m) ^2\ end {align}

    Estas aproximaciones se basan en la esperanza de que los valores de datos en cada clase estén bien representados por la marca de clase. De hecho, estas son las definiciones estándar de media muestral y varianza para el conjunto de datos en el que\(t_j\) ocurren\(n_j\) tiempos para cada uno\(j\).

    Estadísticas Inferenciales

    Continuamos nuestra discusión sobre la varianza de la muestra, pero ahora asumimos que las variables son aleatorias. Así, supongamos que tenemos un experimento aleatorio básico, y que\(X\) es una variable aleatoria de valor real para el experimento con media\(\mu\) y desviación estándar\(\sigma\). También necesitaremos algunos momentos de orden superior. Dejar\(\sigma_3 = \E\left[(X - \mu)^3\right]\) y\(\sigma_4 = \E\left[(X - \mu)^4\right]\) denotar los momentos 3 y 4 sobre la media. Recordemos que\(\sigma_3 \big/ \sigma^3 = \skw(X)\), la asimetría de\(X\), y\(\sigma_4 \big/ \sigma^4 = \kur(X)\), la curtosis de\(X\). Eso lo asumimos\(\sigma_4 \lt \infty\).

    Repetimos los\(n\) tiempos básicos del experimento para formar un nuevo experimento compuesto, con una secuencia de variables aleatorias independientes\(\bs{X} = (X_1, X_2, \ldots, X_n)\), cada una con la misma distribución que\(X\). En términos estadísticos,\(\bs{X}\) es una muestra aleatoria de tamaño\(n\) a partir de la distribución de\(X\). Todas las estadísticas anteriores tienen sentido para\(\bs{X}\), por supuesto, pero ahora estas estadísticas son variables aleatorias. Usaremos la misma notationt, a excepción de la convención habitual de denotar variables aleatorias por letras mayúsculas. Por último, señalar que las propiedades deterministas y las relaciones establecidas anteriormente aún se mantienen.

    Además de ser una medida del centro de los datos\(\bs{X}\), la media muestral\[ M = \frac{1}{n} \sum_{i=1}^n X_i \] es un estimador natural de la media de distribución\(\mu\). En esta sección, derivaremos estadísticas que son estimadores naturales de la varianza de distribución\(\sigma^2\). Las estadísticas que derivaremos son diferentes, dependiendo de si\(\mu\) se conoce o se desconoce; por esta razón,\(\mu\) se conoce como un parámetro molesto para el problema de la estimación\(\sigma^2\).

    Una varianza de muestra especial

    Primero asumiremos que\(\mu\) se sabe. Aunque esto es casi siempre una suposición artificial, es un buen lugar para comenzar porque el análisis es relativamente fácil y nos dará una idea para el caso estándar. Un estimador natural de\(\sigma^2\) es el siguiente estadístico, al que nos referiremos como la varianza muestral especial. \[ W^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \mu)^2 \]

    \(W^2\)es la media muestral para una muestra aleatoria de tamaño\(n\) a partir de la distribución de\((X - \mu)^2\), y satisface las siguientes propiedades:

    1. \(\E\left(W^2\right) = \sigma^2\)
    2. \(\var\left(W^2\right) = \frac{1}{n}\left(\sigma_4 - \sigma^4\right)\)
    3. \(W^2 \to \sigma^2\)como\(n \to \infty\) con probabilidad 1
    4. La distribución de\(\sqrt{n}\left(W^2 - \sigma^2\right) \big/ \sqrt{\sigma_4 - \sigma^4}\) converge a la distribución normal estándar como\(n \to \infty\).
    Prueba

    Estos resultados siguen inmediatamente de los resultados estándar en la sección sobre la Ley de Números Grandes y la sección sobre el Teorema del Límite Central. Para la parte b), tenga en cuenta que\[\var\left[(X - \mu)^2\right] = \E\left[(X - \mu)^4\right] -\left(\E\left[(X - \mu)^2\right]\right)^2 = \sigma_4 - \sigma^4\]

    En particular la parte (a) significa que\(W^2\) es un estimador imparcial de\(\sigma^2\). De la parte b), tenga en cuenta que\(\var(W^2) \to 0\) as\(n \to \infty\); esto significa que\(W^2\) es un estimador consistente de\(\sigma^2\). La raíz cuadrada de la varianza de muestra especial es una versión especial de la desviación estándar de la muestra, denotada\(W\).

    \(\E(W) \le \sigma\). Así,\(W\) es un estimador sesgado negativley que tiende a subestimar\(\sigma\).

    Prueba

    Esto se desprende de la propiedad imparcial y la desigualdad de Jensen. Ya que\(w \mapsto \sqrt{w}\) es cóncavo hacia abajo en\([0, \infty)\), tenemos\(\E(W) = \E\left(\sqrt{W^2}\right) \le \sqrt{\E\left(W^2\right)} = \sqrt{\sigma^2} = \sigma\).

    A continuación calculamos la covarianza y correlación entre la media muestral y la varianza especial de la muestra.

    La covarianza y correlación de\(M\) y\(W^2\) son

    1. \(\cov\left(M, W^2\right) = \sigma_3 / n\).
    2. \(\cor\left(M, W^2\right) = \sigma^3 \big/ \sqrt{\sigma^2 (\sigma_4 - \sigma^4)}\)
    Prueba
    1. De la bilinaridad del operador de covarianza y por independencia,\[ \cov\left(M, W^2\right) = \cov\left[\frac{1}{n}\sum_{i=1}^n X_i, \frac{1}{n} \sum_{j=1}^n (X_j - \mu)^2\right] = \frac{1}{n^2} \sum_{i=1}^n \cov\left[X_i, (X_i - \mu)^2\right] \] Pero\(\cov\left[X_i, (X_i - \mu)^2\right] = \cov\left[X_i - \mu, (X_i - \mu)^2\right] = \E\left[(X_i - \mu)^3\right] - \E(X_i - \mu) \E\left[(X_i - \mu)^2\right] = \sigma_3\). Sustituir da el resultado.
    2. Esto se desprende de la parte (a), la propiedad imparcial, y nuestro resultado anterior que\(\var(M) = \sigma^2 / n\).

    Obsérvese que la correlación no depende del tamaño de la muestra, y que la media de la muestra y la varianza especial de la muestra no están correlacionadas si\(\sigma_3 = 0\) (equivalentemente\(\skw(X) = 0\)).

    La varianza de la muestra estándar

    Consideremos ahora el caso más realista en el que\(\mu\) se desconoce. En este caso, un enfoque natural es promediar, en cierto sentido, las desviaciones cuadradas\((X_i - M)^2\) sobre\(i \in \{1, 2, \ldots, n\}\). Podría parecer que deberíamos promediar dividiendo por\(n\). Sin embargo, otro enfoque es dividir por cualquier constante que nos daría un estimador imparcial de\(\sigma^2\). Esta constante resulta ser\(n - 1\), lo que lleva a la varianza de la muestra estándar:\[ S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - M)^2 \]

    \(\E\left(S^2\right) = \sigma^2\).

    Prueba

    Al ampliar (como se mostró en la última sección),\[ \sum_{i=1}^n (X_i - M)^2 = \sum_{i=1}^n X_i^2 - n M^2 \] Recordemos que\(\E(M) = \mu\) y\(\var(M) = \sigma^2 / n\). Tomando valores esperados en la ecuación mostrada da\[ \E\left(\sum_{i=1}^n (X_i - M)^2\right) = \sum_{i=1}^n (\sigma^2 + \mu^2) - n \left(\frac{\sigma^2}{n} + \mu^2\right) = n (\sigma^2 + \mu^2) -n \left(\frac{\sigma^2}{n} + \mu^2\right) = (n - 1) \sigma^2 \]

    Por supuesto, la raíz cuadrada de la varianza muestral es la desviación estándar de la muestra, denotada\(S\).

    \(\E(S) \le \sigma\). Por lo tanto,\(S\) es un estimador sesgado negativley que tiende a subestimar\(\sigma\).

    Prueba

    La prueba es exactamente la misma que para la varianza estándar especial.

    \(S^2 \to \sigma^2\)como\(n \to \infty\) con probabilidad 1.

    Prueba

    Esto se desprende de la fuerte ley de los grandes números. Recordemos de nuevo eso\[ S^2 = \frac{1}{n - 1} \sum_{i=1}^n X_i^2 - \frac{n}{n - 1} M^2 = \frac{n}{n - 1}[M(\bs{X}^2) - M^2(\bs{X})] \] Pero con probabilidad 1,\(M(\bs{X}^2) \to \sigma^2 + \mu^2\) como\(n \to \infty\) y\(M^2(\bs{X}) \to \mu^2\) como\(n \to \infty\).

    Dado que\(S^2\) es un estimador imparcial de\(\sigma^2\), la varianza de\(S^2\) es el error cuadrático medio, una medida de la calidad del estimador.

    \(\var\left(S^2\right) = \frac{1}{n} \left( \sigma_4 - \frac{n - 3}{n - 1} \sigma^4 \right)\).

    Prueba

    Recordemos del resultado anterior que\[ S^2 = \frac{1}{2 n (n - 1)} \sum_{i=1}^n \sum_{j=1}^n (X_i - X_j)^2 \] Por lo tanto, usando la propiedad bilineal de covarianza\[ \var(S^2) = \cov(S^2, S^2) = \frac{1}{4 n^2 (n - 1)^2} \sum_{i=1}^n \sum_{j=1}^n \sum_{k=1}^n \sum_{k=1}^n \cov[(X_i - X_j)^2, (X_k - X_l)^2] \] tenemos Calculamos las covarianzas en esta suma considerando casos disjuntos:

    • \(\cov\left[(X_i - X_j)^2, (X_k - X_l)^2\right] = 0\)si\(i = j\) o\(k = l\), y existen\(2 n^3 - n^2\) tales términos.
    • \(\cov\left[(X_i - X_j)^2, (X_k - X_l)^2\right] = 0\)si\(i, j, k, l\) son distintos, y existen\(n (n - 1)(n - 2) (n - 3)\) tales términos.
    • \(\cov\left[(X_i - X_j)^2, (X_k - X_l)^2\right] = 2 \sigma_4 + 2 \sigma^4\)si\(i \ne j\) y\(\{k, l\} = \{i, j\}\), y existen\(2 n (n - 1)\) tales términos.
    • \(\cov\left[(X_i - X_j)^2, (X_k - X_l)^2\right] = \sigma_4 - \sigma^4\)si\(i \ne j\),\(k \ne l\) y\(\#(\{i, j\} \cap \{k, l\}) = 1\), y existen\(4 n (n - 1)(n - 2)\) tales términos.

    Sustituir da el resultado.

    Tenga en cuenta que\(\var(S^2) \to 0\) como\(n \to \infty\), y por lo tanto\(S^2\) es un estimador consistente de\(\sigma^2\). Por otro lado, no es sorprendente que la varianza de la varianza de la muestra estándar (donde suponemos que\(\mu\) se desconoce) sea mayor que la varianza de la varianza estándar especial (en la que suponemos que\(\mu\) se conoce).

    \(\var\left(S^2\right) \gt \var\left(W^2\right)\).

    Prueba

    De la fórmula anterior para la varianza de\( W^2 \), el resultado anterior para la varianza de\( S^2 \), y álgebra simple,\[ \var\left(S^2\right) - \var\left(W^2\right) = \frac{2}{n (n - 1)} \sigma^4 \] Tenga en cuenta sin embargo que la diferencia va a 0 como\(n \to \infty\).

    A continuación calculamos la covarianza entre la media muestral y la varianza muestral.

    La covarianza y correlación entre la media muestral y la varianza muestral son

    1. \(\cov\left(M, S^2\right) = \sigma_3 / n\)
    2. \(\cor\left(M, S^2\right) = \frac{\sigma_3}{\sigma \sqrt{\sigma_4 - \sigma^4 (n - 3) / (n - 1)}}\)
    Prueba
    1. Recordemos nuevamente que\[ M = \frac{1}{n} \sum_{i=1}^n X_i, \quad S^2 = \frac{1}{2 n (n - 1)} \sum_{j=1}^n \sum_{k=1}^n (X_j - X_k)^2 \] De ahí, usando la propiedad bilineal de covarianza\[ \cov(M, S^2) = \frac{1}{2 n^2 (n - 1)} \sum_{i=1}^n \sum_{j=1}^n \sum_{k=1}^n \cov[X_i, (X_j - X_k)^2] \] tenemos Calculamos las covarianzas en esta suma considerando casos disjuntos:
      • \(\cov\left[X_i, (X_j - X_k)^2\right] = 0\)si\(j = k\), y existen\(n^2\) tales términos.
      • \(\cov\left[X_i, (X_j - X_k)^2\right] = 0\)si\(i, j, k\) son distintos, y existen\(n (n - 1)(n - 2)\) tales términos.
      • \(\cov\left[X_i, (X_j - X_k)^2\right] = \sigma_3\)si\(j \ne k\) y\(i \in \{j, k\}\), y existen\(2 n (n - 1)\) tales términos.
      Sustituir da el resultado.
    2. Esto se desprende de la parte (a), el resultado anterior sobre la varianza de\( S^2 \), y\(\var(M) = \sigma^2 / n\).

    En particular, tenga en cuenta que\(\cov(M, S^2) = \cov(M, W^2)\). Nuevamente, la media y varianza de la muestra no están correlacionadas si es\(\sigma_3 = 0\) así\(\skw(X) = 0\). Nuestro último resultado da la covarianza y correlación entre la varianza especial de la muestra y la estándar. Curiosamente, la covarianza es la misma que la varianza de la varianza de la muestra especial.

    La covarianza y correlación entre\(W^2\) y\(S^2\) son

    1. \(\cov\left(W^2, S^2\right) = (\sigma_4 - \sigma^4) / n\)
    2. \(\cor\left(W^2, S^2\right) = \sqrt{\frac{\sigma_4 - \sigma^4}{\sigma_4 - \sigma^4 (n - 3) / (n - 1)}}\)
    Prueba
    1. Recordemos nuevamente que\[ W^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \mu)^2, \quad S^2 = \frac{1}{2 n (n - 1)} \sum_{j=1}^n \sum_{k=1}^n (X_j - X_k)^2\] así por la propiedad bilineal de covarianza tenemos\[ \cov(W^2, S^2) = \frac{1}{2 n^2 (n - 1)} \sum_{i=1}^n \sum_{j=1}^n \sum_{k=1}^n \cov[(X_i - \mu)^2, (X_j - X_k)^2] \] Una vez más, calculamos las covarianzas en esta suma considerando casos disjuntos:
      • \(\cov[(X_i - \mu)^2, (X_j - X_k)^2] = 0\)si\(j = k\), y existen\(n^2\) tales términos.
      • \(\cov[(X_i - \mu)^2, (X_j - X_k)^2] = 0\)si\(i, j, k\) son distintos, y existen\(n (n - 1)(n - 2)\) tales términos.
      • \(\cov[(X_i - \mu)^2, (X_j - X_k)^2] = \sigma_4 - \sigma^4\)si\(j \ne k\) y\(i \in \{j, k\}\), y existen\(2 n (n - 1)\) tales términos.
      Sustituir da los resultados.
    2. Esto se desprende de la parte (a) y las fórmulas anteriores para la varianza\( W^2 \) y la varianza de\( V^2 \)

    Tenga en cuenta que\(\cor\left(W^2, S^2\right) \to 1\) como\(n \to \infty\), no es de extrañar ya que con probabilidad 1,\(S^2 \to \sigma^2\) y\(W^2 \to \sigma^2\) como\(n \to \infty\).

    Un caso especial particularmente importante ocurre cuando la distribución del muestreo es normal. Este caso se explora en la sección Propiedades Especiales de Muestras Normales.

    Ejercicios

    Propiedades Básicas

    Supongamos que\(x\) es la temperatura (en grados Fahrenheit) para cierto tipo de componente electrónico después de 10 horas de funcionamiento. Una muestra de 30 componentes tiene media 113° y desviación estándar\(18°\).

    1. Clasificar\(x\) por tipo y nivel de medición.
    2. Encuentre la media de la muestra y la desviación estándar si la temperatura se convierte a grados Celsius. La transformación es\(y = \frac{5}{9}(x - 32)\).
    Responder
    1. continuo, intervalo
    2. \(m = 45°\),\(s = 10°\)

    Supongamos que\(x\) es la longitud (en pulgadas) de una pieza mecanizada en un proceso de fabricación. Una muestra de 50 partes tiene media 10.0 y desviación estándar 2.0.

    1. Clasificar\(x\) por tipo y nivel de medición.
    2. Encuentra la media de la muestra si la longitud se mide en centímetros. La transformación es\(y = 2.54 x\).
    Responder
    1. continuo, relación
    2. \(m = 25.4\),\(s = 5.08\)

    La profesora Moriarity cuenta con una clase de 25 alumnos en su sección de Stat 101 en Enormous State University (ESU). La nota media en el primer examen de mitad de período fue de 64 (de un posible 100 puntos) y la desviación estándar fue de 16. El profesor Moriarity piensa que las calificaciones son un poco bajas y está considerando diversas transformaciones para aumentar las calificaciones. En cada caso a continuación dar la media y desviación estándar de las calificaciones transformadas, o indicar que no hay suficiente información.

    1. Suma 10 puntos a cada grado, por lo que la transformación es\(y = x + 10\).
    2. Multiplica cada grado por 1.2, por lo que la transformación es\(z = 1.2 x\)
    3. Usa la transformación\(w = 10 \sqrt{x}\). Tenga en cuenta que esta es una transformación no lineal que curva las calificaciones en gran medida en el extremo inferior y muy poco en el extremo alto. Por ejemplo, una nota de 100 sigue siendo 100, pero una nota de 36 se transforma a 60.

    Uno de los alumnos no cursó estudios en absoluto, y recibió un 10 en el semestre. El profesor Moriarity considera que esta puntuación es un valor atípico.

    1. Encuentra la media y la desviación estándar si se omite esta puntuación.
    Responder
    1. \(m = 74\),\(s = 16\)
    2. \(m = 76.8\),\(s = 19.2\)
    3. No hay suficiente información
    4. \(m = 66.25\),\(s = 11.62\)

    Ejercicios Computacionales

    Todos los paquetes de software estadístico calcularán medias, varianzas y desviaciones estándar, dibujarán diagramas de puntos e histogramas, y en general realizarán los procedimientos numéricos y gráficos discutidos en esta sección. Para experimentos estadísticos reales, particularmente aquellos con grandes conjuntos de datos, el uso de software estadístico es esencial. Por otro lado, hay cierto valor en la realización de los cálculos a mano, con pequeños conjuntos de datos artificiales, con el fin de dominar los conceptos y definiciones. En esta subsección, haga los cómputos y dibuje las gráficas con ayudas tecnológicas mínimas.

    Supongamos que\(x\) es el número de cursos de matemáticas realizados por un estudiante de ESU. Una muestra de 10 estudiantes de ESU da los datos\(\bs{x} = (3, 1, 2, 0, 2, 4, 3, 2, 1, 2)\).

    1. Clasificar\(x\) por tipo y nivel de medición.
    2. Esbozar la trama de punto.
    3. Construir una tabla con filas correspondientes a casos y columnas correspondientes a\(i\),\(x_i\),\(x_i - m\), y\((x_i - m)^2\). Agrega filas en la parte inferior de la\(i\) columna para totales y medias.
    Responder
    1. discreto, relación
    2. \(i\) \(x_i\) \(x_i - m\) \((x_i - m)^2\)
      \(1\) \(3\) \(1\) \(1\)
      \(2\) \(1\) \(-1\) \(1\)
      \(3\) \(2\) \(0\) \(0\)
      \(4\) \(0\) \(-2\) \(4\)
      \(5\) \(2\) \(0\) \(0\)
      \(6\) \(4\) \(2\) \(4\)
      \(7\) \(3\) \(1\) \(1\)
      \(8\) \(2\) \(0\) \(0\)
      \(9\) \(1\) \(-1\) \(1\)
      \(10\) \(2\) \(0\) \(0\)
      Total 20 0 14
      Media 2 0 \(14/9\)

    Supongamos que una muestra de tamaño 12 de una variable discreta\(x\) tiene una función de densidad empírica dada por\(f(-2) = 1/12\)\(f(-1) = 1/4\),,\(f(0) = 1/3\),\(f(1) = 1/6\),\(f(2) = 1/6\).

    1. Esbozar la gráfica de\(f\).
    2. Calentar la media y varianza de la muestra.
    3. Dar los valores de la muestra, ordenados de menor a mayor.
    Responder
    1. \( m = 1/12\),\(s^2 = 203/121\)
    2. \((-2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 2, 2)\)

    La siguiente tabla da una distribución de frecuencia para la distancia de desplazamiento al edificio de matemáticas/estadísticas (en millas) para una muestra de estudiantes de ESU.

    Clase Freq Rel Freq Densidad Cum Freq Cum Rel Freq Punto medio
    \((0, 2]\) 6          
    \((2, 6]\) 16          
    \((6, 10]\) 18          
    \((10, 20])\) 10          
    Total            
    1. Completa la tabla
    2. Esbozar el histograma de densidad
    3. Esbozar la fracción relativa acumulativa ogive.
    4. Calcular una aproximación a la media y desviación estándar.
    Responder
    1. Clase Freq Rel Freq Densidad Cum Freq Cum Rel Freq Punto medio
      \((0, 2]\) 6 0.12 0.06 6 0.12 1
      \((2, 6]\) 16 0.32 0.08 22 0.44 4
      \((6, 10]\) 18 0.36 0.09 40 0.80 8
      \((10, 20]\) 10 0.20 0.02 50 1 15
      Total 50 1
    2. \(m = 7.28\),\(s = 4.549\)

    Ejercicios de función de error

    En la aplicación de función de error, seleccione error cuadrático medio raíz. A medida que agrega puntos, anote la forma de la gráfica de la función de error, el valor que minimiza la función y el valor mínimo de la función.

    En la aplicación de función de error, seleccione error absoluto medio. A medida que agrega puntos, anote la forma de la gráfica de la función de error, los valores que minimizan la función y el valor mínimo de la función.

    Supongamos que nuestro vector de datos es\((2, 1, 5, 7)\). Dar explícitamente\(\mae\) como una función por partes y bosquejar su gráfica. Tenga en cuenta que

    1. Todos los valores de\(a \in [2, 5]\) minimización\(\mae\).
    2. \(\mae\)no es diferenciable en\(a \in \{1, 2, 5, 7\}\).

    Supongamos que nuestro vector de datos es\((3, 5, 1)\). Dar explícitamente\(\mae\) como una función por partes y bosquejar su gráfica. Tenga en cuenta que

    1. \(\mae\)se minimiza en\(a = 3\).
    2. \(\mae\)no es diferenciable en\(a \in \{1, 3, 5\}\).

    Ejercicios de Simulación

    Muchas de las aplicaciones de este proyecto son simulaciones de experimentos con una variable aleatoria básica de interés. Cuando ejecutas la simulación, estás realizando replicaciones independientes del experimento. En la mayoría de los casos, la app muestra la desviación estándar de la distribución, tanto numéricamente en una tabla como gráficamente como el radio de la barra azul horizontal en el cuadro gráfico. Al ejecutar la simulación, la desviación estándar de la muestra también se muestra numéricamente en la tabla y gráficamente como el radio de la barra horizontal roja en el cuadro gráfico.

    En el experimento de monedas binomiales, la variable aleatoria es el número de cabezas. Para diversos valores de los parámetros\(n\) (el número de monedas) y\(p\) (la probabilidad de cabezas), ejecute la simulación 1000 veces y compare la desviación estándar de la muestra con la desviación estándar de distribución.

    En la simulación del experimento de emparejamiento, la variable aleatoria es el número de coincidencias. Para valores seleccionados de\(n\) (el número de bolas), ejecute la simulación 1000 veces y compare la desviación estándar de la muestra con la desviación estándar de distribución.

    Ejecute la simulación del experimento gamma 1000 veces para varios valores del parámetro de velocidad\(r\) y el parámetro de forma\(k\). Comparar la desviación estándar de la muestra con la desviación estándar de distribución.

    Ejercicios de Probabilidad

    Supongamos que\(X\) tiene función de densidad de probabilidad\(f(x) = 12 \, x^2 \, (1 - x)\) para\(0 \le x \le 1\). La distribución de\(X\) es un miembro de la familia beta. Calentar cada uno de los siguientes

    1. \(\mu = \E(X)\)
    2. \(\sigma^2 = \var(X)\)
    3. \(d_3 = \E\left[(X - \mu)^3\right]\)
    4. \(d_4 = \E\left[(X - \mu)^4\right]\)
    Responder
    1. \(3/5\)
    2. \(1/25\)
    3. \(-2/875\)\)
    4. \(33/8750\)

    Supongamos ahora que\((X_1, X_2, \ldots, X_{10})\) es una muestra aleatoria de tamaño 10 de la distribución beta en el problema anterior. Encuentra cada uno de los siguientes:

    1. \(\E(M)\)
    2. \(\var(M)\)
    3. \(\E\left(W^2\right)\)
    4. \(\var\left(W^2\right)\)
    5. \(\E\left(S^2\right)\)
    6. \(\var\left(S^2\right)\)
    7. \(\cov\left(M, W^2\right)\)
    8. \(\cov\left(M, S^2\right)\)
    9. \(\cov\left(W^2, S^2\right)\)
    Responder
    1. \(3/5\)
    2. \(1/250\)
    3. \(1/25\)
    4. \(19/87\,500\)
    5. \(1/25\)
    6. \(199/787\,500\)
    7. \(-2/8750\)
    8. \(-2/8750\)
    9. \(19/87\,500\)

    Supongamos que\(X\) tiene función de densidad de probabilidad\(f(x) = \lambda e^{-\lambda x}\) para\(0 \le x \lt \infty\), donde\(\lambda \gt 0\) es un parámetro. Así\(X\) tiene la distribución exponencial con parámetro de tasa\(\lambda\). Calentar cada uno de los siguientes

    1. \(\mu = \E(X)\)
    2. \(\sigma^2 = \var(X)\)
    3. \(d_3 = \E\left[(X - \mu)^3\right]\)
    4. \(d_4 = \E\left[(X - \mu)^4\right]\)
    Responder
    1. \(1/\lambda\)
    2. \(1/\lambda^2\)
    3. \(2/\lambda^3\)
    4. \(9/\lambda^4\)

    Supongamos ahora que\((X_1, X_2, \ldots, X_5)\) es una muestra aleatoria de tamaño 5 de la distribución exponencial en el problema anterior. Encuentra cada uno de los siguientes:

    1. \(\E(M)\)
    2. \(\var(M)\)
    3. \(\E\left(W^2\right)\)
    4. \(\var\left(W^2\right)\)
    5. \(\E\left(S^2\right)\)
    6. \(\var\left(S^2\right)\)
    7. \(\cov\left(M, W^2\right)\)
    8. \(\cov\left(M, S^2\right)\)
    9. \(\cov\left(W^2, S^2\right)\)
    Responder
    1. \(1/\lambda\)
    2. \(1/5 \lambda^2\)
    3. \(1/\lambda^2\)
    4. \(8/5 \lambda^4\)
    5. \(1/\lambda^2\)
    6. \(17/10 \lambda^4\)
    7. \(2/5 \lambda^3\)
    8. \(2/5 \lambda^3\)
    9. \(8/5 \lambda^4\)

    Recordemos que para una matriz plana as-seis, las caras 1 y 6 tienen probabilidad\(\frac{1}{4}\) cada una, mientras que las caras 2, 3, 4 y 5 tienen probabilidad\(\frac{1}{8}\) cada una. Dejar\(X\) denotar el marcador cuando se lanza un dado plano as-seis. Calentar cada uno de los siguientes:

    1. \(\mu = \E(X)\)
    2. \(\sigma^2 = \var(X)\)
    3. \(d_3 = \E\left[(X - \mu)^3\right]\)
    4. \(d_4 = \E\left[(X - \mu)^4\right]\)
    Responder
    1. \(7/2\)
    2. \(15/4\)
    3. \(0\)
    4. \(333/16\)

    Supongamos ahora que un troquel plano as-seis es arrojado 8 veces. Encuentra cada uno de los siguientes:

    1. \(\E(M)\)
    2. \(\var(M)\)
    3. \(\E\left(W^2\right)\)
    4. \(\var\left(W^2\right)\)
    5. \(\E\left(S^2\right)\)
    6. \(\var\left(S^2\right)\)
    7. \(\cov\left(M, W^2\right)\)
    8. \(\cov\left(M, S^2\right)\)
    9. \(\cov\left(W^2, S^2\right)\)
    Responder
    1. \(7/2\)
    2. \(15/32\)
    3. \(15/4\)
    4. \(27/32\)
    5. \(15/4\)
    6. \(207/512\)
    7. \(0\)
    8. \(0\)
    9. \(27/32\)

    Ejercicios de Análisis de Datos

    Se debe utilizar software estadístico para los problemas de esta subsección.

    Considere la longitud de los pétalos y las variables de especie en los datos del iris de Fisher.

    1. Clasificar las variables por tipo y nivel de medición.
    2. Calcular la media de la muestra y la desviación estándar, y graficar un histograma de densidad para la longitud del pétalo
    3. Calcular la media de la muestra y la desviación estándar y graficar un histograma de densidad para la longitud de los pétalos por especie.
    RESPUESTAS
    1. longitud de pétalo: continuo, relación. Especie: discreta, nominal
    2. \(m = 37.8\),\(s = 17.8\)
    3. \(m(0) = 14.6\)\(m(1) = 55.5\),\(s(0) = 1.7\)\(s(1) = 30.5\);\(m(2) = 43.2\),\(s(2) = 28.7\)

    Considere la variable erosión en el conjunto de datos Challenger.

    1. Clasificar la variable por tipo y nivel de medición.
    2. Calentar la media y la desviación estándar
    3. Trazar un histograma de densidad con las clases\([0, 5)\),\([5, 40)\),\([40, 50)\),\([50, 60)\).
    Responder
    1. continuo, relación
    2. \(m = 7.7\),\(s = 17.2\)

    Considere los datos de velocidad de la luz de Michelson.

    1. Clasificar la variable por tipo y nivel de medición.
    2. Trazar un histograma de densidad.
    3. Calcular la media de la muestra y la desviación estándar.
    4. Encuentre la media de la muestra y la desviación estándar si la variable se convierte a\(\text{km}/\text{hr}\). La transformación es\(y = x + 299\,000\)
    Responder
    1. continuo, intervalo
    2. \(m = 852.4\),\(s = 79.0\)
    3. \(m = 299\,852.4\),\(s = 79.0\)

    Considere los datos del paráax del sol de Short.

    1. Clasificar la variable por tipo y nivel de medición.
    2. Trazar un histograma de densidad.
    3. Calcular la media de la muestra y la desviación estándar.
    4. Encuentre la media de la muestra y la desviación estándar si la variable se convierte a grados. Hay 3600 segundos en un grado.
    5. Encuentre la media de la muestra y la desviación estándar si la variable se convierte en radianes. Hay\(\pi/180\) radianes en un grado.
    Responder
    1. continuo, relación
    2. \(m = 8.616\),\(s = 0.749\)
    3. \(m = 0.00239\),\(s = 0.000208\)
    4. \(m = 0.0000418\),\(s = 0.00000363\)

    Considera los datos de la densidad de la tierra de Cavendish.

    1. Clasificar la variable por tipo y nivel de medición.
    2. Calcular la media de la muestra y la desviación estándar.
    3. Trazar un histograma de densidad.
    Responder
    1. continuo, relación
    2. \(m = 5.448\),\(s = 0.221\)

    Considere los datos de M&M.

    1. Clasificar las variables por tipo y nivel de medición.
    2. Calcular la media de la muestra y la desviación estándar para cada variable de recuento de colores.
    3. Calcular la media de la muestra y la desviación estándar para el número total de caramelos.
    4. Trazar un histograma de frecuencia relativa para el número total de caramelos.
    5. Calcular la media de la muestra y la desviación estándar, y graficar un histograma de densidad para el peso neto.
    Responder
    1. recuentos de color: relación discreta. peso neto: relación continua.
    2. \(m(r) = 9.60\),\(s(r) = 4.12\);\(m(g) = 7.40\),\(s(g) = 0.57\);\(m(bl) = 7.23\),\(s(bl) = 4.35\);\(m(o) = 6.63\),\(s(0) = 3.69\);\(m(y) = 13.77\)\(m(br) = 12.47\),\(s(y) = 6.06\);\(s(br) = 5.13\)
    3. \(m(n) = 57.10\),\(s(n) = 2.4\)
    4. \(m(w) = 49.215\),\(s(w) = 1.522\)

    Considerar el peso corporal, las especies y las variables de género en los datos de Cicada.

    1. Clasificar las variables por tipo y nivel de medición.
    2. Calcular la función de frecuencia relativa para especies y trazar la gráfica.
    3. Calcular la función de frecuencia relativa para género y trazar la gráfica.
    4. Calcular la media de la muestra y la desviación estándar, y graficar un histograma de densidad para el peso corporal.
    5. Calcular la media de la muestra y la desviación estándar, y graficar un histograma de densidad para el peso corporal por especie.
    6. Calcular la media de la muestra y la desviación estándar, y graficar un histograma de densidad para el peso corporal por género.
    Responder
    1. peso corporal: continuo, relación. Especie: discreta, nominal. género: discreto, nominal.
    2. \(f(0) = 0.423\),\(f(1) = 0.519\),\(f(2) = 0.058\)
    3. \(f(0) = 0.567\),\(f(1) = 0.433\)
    4. \(m = 0.180\),\(s = 0.059\)
    5. \(m(0) = 0.168\)\(m(1) = 0.185\),\(s(0) = 0.054\)\(s(1) = 0.185\);\(m(2) = 0.225\),\(s(2) = 0.107\)
    6. \(m(0) = 0.206\),\(s(0) = 0.052\);\(m(1) = 0.145\),\(s(1) = 0.051\)

    Considere los datos de altura de Pearson.

    1. Clasificar las variables por tipo y nivel de medición.
    2. Calcular la media de la muestra y la desviación estándar, y graficar un histograma de densidad para la altura del padre.
    3. Calcular la media de la muestra y la desviación estándar, y graficar un histograma de densidad para la altura del hijo.
    Responder
    1. relación continua
    2. \(m(x) = 67.69\),\(s(x) = 2.75\)
    3. \(m(y) = 68.68\),\(s(y) = 2.82\)

    This page titled 6.5: La varianza de la muestra is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.