Saltar al contenido principal

# 6.8: Propiedades especiales de muestras normales

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$

( \newcommand{\kernel}{\mathrm{null}\,}\) $$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\id}{\mathrm{id}}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\kernel}{\mathrm{null}\,}$$

$$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$

$$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$

$$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

$$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$$

$$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$$

$$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vectorC}[1]{\textbf{#1}}$$

$$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$$

$$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$$

$$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$$

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\avec}{\mathbf a}$$ $$\newcommand{\bvec}{\mathbf b}$$ $$\newcommand{\cvec}{\mathbf c}$$ $$\newcommand{\dvec}{\mathbf d}$$ $$\newcommand{\dtil}{\widetilde{\mathbf d}}$$ $$\newcommand{\evec}{\mathbf e}$$ $$\newcommand{\fvec}{\mathbf f}$$ $$\newcommand{\nvec}{\mathbf n}$$ $$\newcommand{\pvec}{\mathbf p}$$ $$\newcommand{\qvec}{\mathbf q}$$ $$\newcommand{\svec}{\mathbf s}$$ $$\newcommand{\tvec}{\mathbf t}$$ $$\newcommand{\uvec}{\mathbf u}$$ $$\newcommand{\vvec}{\mathbf v}$$ $$\newcommand{\wvec}{\mathbf w}$$ $$\newcommand{\xvec}{\mathbf x}$$ $$\newcommand{\yvec}{\mathbf y}$$ $$\newcommand{\zvec}{\mathbf z}$$ $$\newcommand{\rvec}{\mathbf r}$$ $$\newcommand{\mvec}{\mathbf m}$$ $$\newcommand{\zerovec}{\mathbf 0}$$ $$\newcommand{\onevec}{\mathbf 1}$$ $$\newcommand{\real}{\mathbb R}$$ $$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$$ $$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$$ $$\newcommand{\bcal}{\cal B}$$ $$\newcommand{\ccal}{\cal C}$$ $$\newcommand{\scal}{\cal S}$$ $$\newcommand{\wcal}{\cal W}$$ $$\newcommand{\ecal}{\cal E}$$ $$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$$ $$\newcommand{\gray}[1]{\color{gray}{#1}}$$ $$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$$ $$\newcommand{\rank}{\operatorname{rank}}$$ $$\newcommand{\row}{\text{Row}}$$ $$\newcommand{\col}{\text{Col}}$$ $$\renewcommand{\row}{\text{Row}}$$ $$\newcommand{\nul}{\text{Nul}}$$ $$\newcommand{\var}{\text{Var}}$$ $$\newcommand{\corr}{\text{corr}}$$ $$\newcommand{\len}[1]{\left|#1\right|}$$ $$\newcommand{\bbar}{\overline{\bvec}}$$ $$\newcommand{\bhat}{\widehat{\bvec}}$$ $$\newcommand{\bperp}{\bvec^\perp}$$ $$\newcommand{\xhat}{\widehat{\xvec}}$$ $$\newcommand{\vhat}{\widehat{\vvec}}$$ $$\newcommand{\uhat}{\widehat{\uvec}}$$ $$\newcommand{\what}{\widehat{\wvec}}$$ $$\newcommand{\Sighat}{\widehat{\Sigma}}$$ $$\newcommand{\lt}{<}$$ $$\newcommand{\gt}{>}$$ $$\newcommand{\amp}{&}$$ $$\definecolor{fillinmathshade}{gray}{0.9}$$
$$\newcommand{\R}{\mathbb{R}}$$$$\newcommand{\N}{\mathbb{N}}$$$$\newcommand{\Z}{\mathbb{Z}}$$$$\newcommand{\E}{\mathbb{E}}$$$$\newcommand{\P}{\mathbb{P}}$$$$\newcommand{\var}{\text{var}}$$$$\newcommand{\sd}{\text{sd}}$$$$\newcommand{\cov}{\text{cov}}$$$$\newcommand{\cor}{\text{cor}}$$$$\newcommand{\bs}{\boldsymbol}$$

Muestras aleatorias de distribuciones normales son los casos especiales más importantes de los temas de este capítulo. Como veremos, muchos de los resultados se simplifican significativamente cuando la distribución subyacente del muestreo es normal. Además derivaremos las distribuciones de una serie de variables aleatorias construidas a partir de muestras normales que son de fundamental importancia en la estadística inferencial.

## El modelo de una muestra

Supongamos que$$\bs{X} = (X_1, X_2, \ldots, X_n)$$ es una muestra aleatoria de la distribución normal con media$$\mu \in \R$$ y desviación estándar$$\sigma \in (0, \infty)$$. Recordemos que el término muestra aleatoria significa que$$\bs{X}$$ es una secuencia de variables aleatorias independientes, distribuidas idénticamente. Recordemos también que la distribución normal tiene función de densidad de probabilidad$f(x) = \frac{1}{\sqrt{2 \, \pi} \sigma} \exp \left[ -\frac{1}{2} \left( \frac{x - \mu}{\sigma} \right)^2 \right], \quad x \in \R$ En la notación que hemos utilizado en otras partes de este capítulo,$$\sigma_3 = \E\left[(X - \mu)^3\right] = 0$$ (equivalentemente, la asimetría de la distribución normal es 0) y$$\sigma_4 = \E\left[(X - \mu)^4\right] = 3 \sigma^4$$ (equivalentemente, la curtosis de la distribución normal es 3). Dado que la muestra (y en particular el tamaño de la muestra$$n$$) es fija es esta subsección, se suprimirá en la notación.

### La media de la muestra

Primero recordemos que la media muestral es$M = \frac{1}{n} \sum_{i=1}^n X_i$

$$M$$se distribuye normalmente con la media y varianza dadas por

1. $$\E(M) = \mu$$
2. $$\var(M) = \sigma^2 / n$$
Prueba

Esto se desprende de las propiedades básicas de la distribución normal. Recordemos que la suma de variables independientes normalmente distribuidas también tiene una distribución normal, y una transformación lineal de una variable normalmente distribuida también se distribuye normalmente. La media y varianza de$$M$$ retención en general, y se derivaron en el apartado de la Ley de Números Grandes.

Por supuesto, por el teorema del límite central, la distribución de$$M$$ es aproximadamente normal, si$$n$$ es grande, incluso si la distribución de muestreo subyacente no es normal. La puntuación estándar de$$M$$ se da de la siguiente manera:$Z = \frac{M - \mu}{\sigma / \sqrt{n}}$

$$Z$$tiene la distribución normal estándar.

La puntuación estándar$$Z$$ asociada a la media de la muestra$$M$$ juega un papel crítico en la construcción de estimaciones de intervalos y pruebas de hipótesis para la media de distribución$$\mu$$ cuando$$\sigma$$ se conoce la desviación estándar de distribución. La variable aleatoria también$$Z$$ aparecerá en varias derivaciones de esta sección.

### La varianza de la muestra

El objetivo principal de esta subsección es mostrar que ciertos múltiplos de las dos versiones de la varianza muestral que hemos estudiado tienen distribuciones chi-cuadrado. Recordemos que la distribución chi-cuadrada con$$k \in \N_+$$ grados de libertad tiene función de densidad de probabilidad$f(x) = \frac{1}{\Gamma(k / 2) 2^{k/2}} x^{k/2 - 1} e^{-x/2}, \quad 0 \lt x \lt \infty$ y tiene media$$k$$ y varianza$$2k$$. La función generadora de momento es$G(t) = \frac{1}{(1 - 2t)^{k/2}}, \quad -\infty \lt t \lt \frac{1}{2}$ El resultado más importante a recordar es que gobierna la distribución chi-cuadrada con$$k$$ grados de libertad$$\sum_{i=1}^k Z_i^2$$, donde$$(Z_1, Z_2, \ldots, Z_k)$$ es una secuencia de variables aleatorias normales estándar independientes.

Recordemos que si$$\mu$$ se conoce, un estimador natural de la varianza$$\sigma^2$$ es el estadístico$W^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \mu)^2$ Aunque la suposición que$$\mu$$ se conoce es casi siempre artificial,$$W^2$$ es muy fácil de analizar y se utilizará en algunas de las derivaciones a continuación. Nuestro primer resultado es la distribución de un simple múltiplo de$$W^2$$. Let$U = \frac{n}{\sigma^2} W^2$

$$U$$tiene la distribución chi-cuadrada con$$n$$ grados de libertad.

Prueba

Tenga en cuenta que$\frac{n}{\sigma^2} W^2 = \sum_{i=1}^n \left(\frac{X_i - \mu}{\sigma}\right)^2$ y los términos en la suma son variables normales estándar independientes.

La variable$$U$$ asociada al estadístico$$W^2$$ juega un papel crítico en la construcción de estimaciones de intervalos y pruebas de hipótesis para la desviación estándar de distribución$$\sigma$$ cuando$$\mu$$ se conoce la media de distribución (aunque nuevamente, esta suposición generalmente no es realista).

La media y varianza$$W^2$$ de

1. $$\E(W^2) = \sigma^2$$
2. $$\var(W^2) = 2 \sigma^4 / n$$
Prueba

Estos resultados se derivan de la distribución de chi-cuadrado$$U$$ y las propiedades estándar de valor esperado y varianza.

Como estimador de$$\sigma^2$$, parte (a) significa que$$W^2$$ es imparcial y parte (b) significa que$$W^2$$ es consistente. Por supuesto, estos resultados de momento son casos especiales de los resultados generales obtenidos en la sección de Varianza de la Muestra. En esa sección, también mostramos eso$$M$$ y no$$W^2$$ están correlacionados si la distribución de muestreo subyacente tiene asimetría 0 ($$\sigma_3 = 0$$), como es el caso aquí.

Recordemos ahora que la versión estándar de la varianza muestral es el estadístico$S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - M)^2$ La varianza muestral$$S^2$$ es el estimador habitual de$$\sigma^2$$ cuándo$$\mu$$ se desconoce (que suele ser el caso). Anteriormente se demostró que en general, la media muestral$$M$$ y la varianza muestral no$$S^2$$ están correlacionadas si la distribución muestral subyacente tiene asimetría 0 ($$\sigma_3 = 0$$). Resulta que si la distribución muestral es normal, estas variables son de hecho independientes, una propiedad muy importante y útil, y al principio se ruborizan, un resultado muy sorprendente ya que$$S^2$$ parece depender explícitamente de$$M$$.

La media muestral$$M$$ y la varianza muestral$$S^2$$ son independientes.

Prueba

La prueba se basa en el vector de desviaciones de la media de la muestra. Let$\bs{D} = (X_1 - M, X_2 - M, \ldots, X_{n-1} - M)$ Note que se$$S^2$$ puede escribir en función de$$\bs{D}$$ since$$\sum_{i=1}^n (X_i - M) = 0$$. A continuación,$$M$$ y el vector$$\bs{D}$$ tiene una distribución normal multivariada conjunta. Lo demostramos anteriormente$$M$$ y no$$X_i - M$$ están correlacionados para cada uno$$i$$, y de ahí se deduce eso$$M$$ y$$\bs{D}$$ son independientes. Por último, ya que$$S^2$$ es una función de$$\bs{D}$$, se deduce que$$M$$ y$$S^2$$ son independientes.

Ahora podemos determinar la distribución de un múltiplo simple de la varianza de la muestra$$S^2$$. Let$V = \frac{n-1}{\sigma^2} S^2$

$$V$$tiene la distribución chi-cuadrada con$$n - 1$$ grados de libertad.

Prueba

Primero mostramos que$$U = V + Z^2$$ dónde$$U$$ está asociada la variable chi-cuadrado$$W^2$$ y dónde$$Z$$ está asociada la puntuación estándar$$M$$. Para ver esto, tenga en cuenta que\ begin {align} U & =\ frac {1} {\ sigma^2}\ sum_ {i=1} ^n (x_i -\ mu) ^2 =\ frac {1} {\ sigma^2}\ sum_ {i=1} ^n (x_i - M + M -\ mu) ^2\\ & =\ frac {1}\ sigma^2}\ suma_ {i=1} ^n (x_i - M) ^2 +\ frac {2} {\ sigma^2}\ suma_ {i=1} ^n (x_i - M) (M -\ mu) +\ frac {1} {\ sigma^2}\ suma^2}\ suma_ {i=1} ^n (M -\ mu) ^2\ fin alinear} En el lado derecho de la última ecuación, el primer término es$$V$$. El segundo término es 0 porque$$\sum_{i=1}^n (X_i - M) = 0$$. El último término es$$\frac{n}{\sigma^2}(M - \mu)^2 = Z^2$$. Ahora, del resultado anterior,$$U$$ tiene la distribución chi-cuadrada con$$n$$ grados de libertad. y por supuesto$$Z^2$$ tiene la distribución chi-cuadrada con 1 grado de libertad. Del resultado anterior,$$V$$ y$$Z^2$$ son independientes. Recordemos que la función de generación de momento de una suma de variables independientes es producto de los MGFs. Así, tomar momento generando funciones en la ecuación$$U = V + Z^2$$ da$\frac{1}{(1 - 2t)^{n/2}} = \E(e^{t V}) \frac{1}{(1 - 2 t)^{1/2}}, \quad t \lt \frac{1}{2}$ Resolver que tenemos$$\E(e^{t V}) = 1 \big/ (1 - 2 t)^{(n-1)/2}$$ para$$t \lt 1/2$$ y por lo tanto$$V$$ tiene la distribución chi-cuadrada con$$n - 1$$ grados de libertad.

La variable$$V$$ asociada al estadístico$$S^2$$ juega un papel crítico en la construcción de estimaciones de intervalos y pruebas de hipótesis para la desviación estándar de distribución$$\sigma$$ cuando$$\mu$$ se desconoce la media de distribución (casi siempre el caso).

La media y varianza$$S^2$$ de

1. $$\E(S^2) = \sigma^2$$
2. $$\var(S^2) = 2 \sigma^4 \big/ (n - 1)$$
Prueba

Estos resultados se derivan de la distribución de chi-cuadrado$$V$$ y las propiedades estándar de valor esperado y varianza.

Como antes, estos resultados de momento son casos especiales de los resultados generales obtenidos en la sección Varianza de la Muestra. Nuevamente, como estimador de$$\sigma^2$$, la parte (a) significa que$$S^2$$ es imparcial, y la parte (b) significa que$$S^2$$ es consistente. Tenga en cuenta también que$$\var(S^2)$$ es más grande que$$\var(W^2)$$ (no es sorprendente), por un factor de$$\frac{n}{n - 1}$$.

La covarianza y correlación entre la varianza de la muestra especial y la varianza de la muestra estándar son

1. $$\cov(W^2, S^2) = 2 \sigma^4 / n$$
2. $$\cor(W^2, S^2) = \sqrt{(n - 1) / n}$$
Prueba

Estos resultados se deduce de los resultados generales obtenidos en la sección sobre varianza muestral y el hecho de que$$\sigma_4 = 3 \sigma^4$$.

Obsérvese que la correlación no depende de los parámetros$$\mu$$ y$$\sigma$$, y converge a 1 como$$n \to \infty$$,

### La$$T$$ Variable

Recordemos que la$$t$$ distribución de Student con$$k \in \N_+$$ grados de libertad tiene función de densidad de probabilidad$f(t) = C_k \left( 1 + \frac{t^2}{k} \right)^{-(k + 1) / 2}, \quad t \in \R$ donde$$C_k$$ está la constante normalizadora apropiada. La distribución tiene media 0 si$$k \gt 1$$ y varianza$$k / (k - 2)$$ si$$k \gt 2$$. En esta subsección, el punto principal a recordar es que la$$t$$ distribución con$$k$$ grados de libertad es la distribución de$\frac{Z}{\sqrt{V / k}}$ donde$$Z$$ tiene la distribución normal estándar;$$V$$ tiene la distribución chi-cuadrada con$$k$$ grados de libertad; y$$Z$$ y$$V$$ son independientes. Nuestro objetivo es derivar la distribución de$T = \frac{M - \mu}{S / \sqrt{n}}$ Note que$$T$$ sea similar a la puntuación estándar$$Z$$ asociada$$M$$, pero con la desviación estándar de la muestra$$S$$ reemplazando la desviación estándar de distribución$$\sigma$$. La variable$$T$$ juega un papel crítico en la construcción de estimaciones de intervalos y pruebas de hipótesis para la media de distribución$$\mu$$ cuando$$\sigma$$ se desconoce la desviación estándar de distribución.

Como es habitual,$$Z$$ denotemos la puntuación estándar asociada a la media muestral$$M$$, y vamos a$$V$$ denotar la variable chi-cuadrada asociada a la varianza muestral$$S^2$$. Entonces$T = \frac{Z}{\sqrt{V / (n - 1)}}$ y de ahí$$T$$ tiene la$$t$$ distribución estudiantil con$$n - 1$$ grados de libertad.

Prueba

En la definición de$$T$$, dividir el numerador y denominador por$$\sigma / \sqrt{n}$$. El numerador es entonces$$(M - \mu) \big/ (\sigma / \sqrt{n}) = Z$$ y el denominador es$$S / \sigma = \sqrt{V / (n - 1)}$$. Dado que$$Z$$ y$$V$$ son independientes,$$Z$$ tiene la distribución normal estándar, y$$V$$ tiene la distribución chi-squre con$$n - 1$$ grados de libertad, se deduce que$$T$$ tiene la$$t$$ distribución estudiantil con$$n - 1$$ grados de libertad.

En el simulador de distribución especial, seleccione la$$t$$ distribución. Varíe el parámetro de grado de libertad y anote la forma y ubicación de la función de densidad de probabilidad y la barra de desviación$$\pm$$ estándar media. Para valores seleccionados de los parámetros, ejecute el experimento 1000 veces y compare la función de densidad empírica y los momentos con la función de densidad de distribución y momentos.

## El modelo de dos muestras

Supongamos que$$\bs{X} = (X_1, X_2, \ldots, X_m)$$ es una muestra aleatoria$$m$$ de tamaño de la distribución normal con media$$\mu \in \R$$ y desviación estándar$$\sigma \in (0, \infty)$$, y que$$\bs{Y} = (Y_1, Y_2, \ldots, Y_n)$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución normal con media$$\nu \in \R$$ y desviación estándar$$\tau \in (0, \infty)$$. Por último, supongamos que$$\bs{X}$$ y$$\bs{Y}$$ son independientes. Por supuesto, todos los resultados anteriores en el modelo de una muestra se aplican a$$\bs{X}$$ y$$\bs{Y}$$ por separado, pero ahora nos interesan las estadísticas que son útiles en procedimientos inferenciales que comparan las dos distribuciones normales. Utilizaremos la notación básica establecida anteriormente, pero indicaremos la dependencia de la muestra.

El modelo de dos muestras (o más generalmente el modelo multimuestra) ocurre naturalmente cuando una variable básica en el experimento estadístico se filtra de acuerdo con una o más variables distintas (a menudo variables nominales). Por ejemplo, en los datos de cigarras, los pesos de las cigarras macho y los pesos de las cigarras hembras pueden ajustarse a observaciones del modelo normal de dos muestras. El peso de la variable básica se filtra por la variable género. Si el peso se filtra por género y especie, podríamos tener observaciones del modelo normal de 6 muestras.

### La diferencia en las medias de la muestra

Sabemos por nuestro trabajo por encima de eso$$M(\bs{X})$$ y$$M(\bs{Y})$$ tenemos distribuciones normales. Además, estas medias muestrales son independientes porque las muestras subyacentes$$\bs{X}$$ y$$\bs{Y}$$ son independientes. De ahí que de una propiedad básica de la distribución normal se deduce que cualquier combinación lineal de$$M(\bs{X})$$ y$$M(\bs{Y})$$ se distribuirá normalmente también. Para procedimientos inferenciales que comparan las medias de distribución$$\mu$$ y$$\nu$$, la combinación lineal que es más importante es la diferencia.

$$M(\bs{X}) - M(\bs{Y})$$tiene una distribución normal con media y varianza dada por

1. $$\E\left[(M(\bs{X}) - M(\bs{Y})\right] = \mu - \nu$$
2. $$\var\left[(M(\bs{X}) - M(\bs{Y})\right] = \sigma^2 / m + \tau^2 / n$$

De ahí que la puntuación estándar$Z = \frac{\left[(M(\bs{X}) - M(\bs{Y})\right] - (\mu - \nu)}{\sqrt{\sigma^2 / m + \tau^2 / n}}$ tenga la distribución normal estándar. Esta puntuación estándar juega un papel fundamental en la construcción de estimaciones de intervalo y prueba de hipótesis para la diferencia$$\mu - \nu$$ cuando se$$\tau$$ conocen las desviaciones estándar de distribución$$\sigma$$ y.

### Relaciones de varianzas de la muestra

A continuación mostraremos que las proporciones de ciertos múltiplos de las varianzas muestrales (ambas versiones) de$$\bs{X}$$ y$$\bs{Y}$$ tienen $$F$$distribuciones. Recordemos que la$$F$$ distribución con$$j \in \N_+$$ grados de libertad en el numerador y$$k \in \N_+$$ grados de libertad en el denominador es la distribución de$\frac{U / j}{V / k}$ donde$$U$$ tiene la distribución chi-cuadrada con$$j$$ grados de libertad;$$V$$ tiene el chi-cuadrado distribución con$$k$$ grados de libertad; y$$U$$ y$$V$$ son independientes. La$$F$$ distribución se nombra en honor a Ronald Fisher y tiene función de densidad de probabilidad$f(x) = C_{j,k} \frac{x^{(j-2) / 2}}{\left[1 + (j / k) x\right]^{(j + k) / 2}}, \quad 0 \lt x \lt \infty$ donde$$C_{j,k}$$ está la constante normalizadora apropiada. La media es$$\frac{k}{k - 2}$$ if$$k \gt 2$$, y la varianza es$$2 \left(\frac{k}{k - 2}\right)^2 \frac{j + k - 2}{j (k - 4)}$$ if$$k \gt 4$$.

La variable aleatoria dada a continuación tiene la$$F$$ distribución con$$m$$ grados de libertad en el numerador y$$n$$ grados de libertad en el denominador:$\frac{W^2(\bs{X}) / \sigma^2}{W^2(\bs{Y}) / \tau^2}$

Prueba

Usando la notación en la subsección sobre las varianzas especiales de la muestra, tenga en cuenta que$$W^2(\bs{X}) / \sigma^2 = U(\bs{X}) / m$$ y$$W^2(\bs{Y}) / \tau^2 = U(\bs{Y}) / n$$. El resultado luego sigue inmediatamente desde entonces$$U(\bs{X})$$ y$$U(\bs{Y})$$ son variables chi-cuadrado independientes con$$m$$ y$$n$$ grados de libertad, respectivamente.

La variable aleatoria dada a continuación tiene la$$F$$ distribución con$$m - 1$$ grados de libertad en el numerador y$$n - 1$$ grados de libertad en el denominador:$\frac{S^2(\bs{X}) / \sigma^2}{S^2(\bs{Y}) / \tau^2}$

Prueba

Usando la notación en la subsección sobre las varianzas de muestra estándar, tenga en cuenta que$$S^2(\bs{X}) / \sigma^2 = V(\bs{X}) \big/ (m - 1)$$ y$$S^2(\bs{Y}) / \tau^2 = V(\bs{Y}) \big/ (n - 1)$$. El resultado luego sigue inmediatamente ya que$$V(\bs{X})$$ y$$V(\bs{Y})$$ son variables chi-cuadrado independientes con$$m - 1$$ y$$n - 1$$ grados de libertad, respectivamente.

Estas variables son útiles para construir estimaciones de intervalos y pruebas de hipótesis de la relación de las desviaciones estándar$$\sigma / \tau$$. La elección de la$$F$$ variable depende de si las medias$$\mu$$ y$$\nu$$ son conocidas o desconocidas. Por lo general, por supuesto, las medias son desconocidas y por lo tanto se utiliza la estadística anterior.

En el simulador de distribución especial, seleccione la$$F$$ distribución. Varíe los parámetros de grados de libertad y anote la forma y ubicación de la función de densidad de probabilidad y la barra de desviación$$\pm$$ estándar media. Para valores seleccionados de los parámetros, ejecute el experimento 1000 veces y compare la función de densidad empírica y los momentos con la función de densidad de distribución verdadera y los momentos.

### La$$T$$ Variable

Nuestra construcción final en el modelo normal de dos muestras dará como resultado una variable que tiene la$$t$$ distribución estudiantil. Esta variable juega un papel fundamental en la construcción de estimaciones de intervalo y prueba de hipótesis para la diferencia$$\mu - \nu$$ cuando las desviaciones estándar de distribución$$\sigma$$ y$$\tau$$ son desconocidas. La construcción requiere la suposición adicional de que las desviaciones estándar de distribución son las mismas:$$\sigma = \tau$$. Esta suposición es razonable si existe una variabilidad inherente en las variables de medición que no cambia incluso cuando se aplican diferentes tratamientos a los objetos de la población.

Obsérvese primero que la puntuación estándar asociada a la diferencia en las medias de la muestra se convierte en$Z = \frac{[M(\bs{Y}) - M(\bs{X})] - (\nu - \mu)}{\sigma \sqrt{1 / m + 1 / n}}$ Para construir nuestra variable deseada, primero necesitamos una estimación de$$\sigma^2$$. Un enfoque natural es considerar un promedio ponderado de las varianzas de la muestra$$S^2(\bs{X})$$ y$$S^2(\bs{Y})$$, con los grados de libertad como los factores de peso (esto se denomina estimación agrupada de$$\sigma^2$$. Por lo tanto, vamos$S^2(\bs{X}, \bs{Y}) = \frac{(m - 1) S^2(\bs{X}) + (n - 1) S^2(\bs{Y})}{m + n - 2}$

La variable aleatoria$$V$$ dada a continuación tiene la distribución chi-cuadrada con$$m + n - 2$$ grados de libertad:$V = \frac{(m - 1)S^2(\bs{X}) + (n - 1) S^2(\bs{Y})}{\sigma^2}$

Prueba

La variable se puede expresar como la suma de variables chi-cuadradas independientes.

Las variables$$M(\bs{Y}) - M(\bs{X})$$ y$$S^2(\bs{X}, \bs{Y})$$ son independientes.

Prueba

Los siguientes pares de variables son independientes:$$(M(\bs{X}), S(\bs{X}))$$ y$$(M(\bs{Y}, S(\bs{Y}))$$;$$M(\bs{X})$$ y$$S(\bs{X})$$;$$M(\bs{Y})$$ y$$S(\bs{Y})$$

La variable aleatoria$$T$$ que se da a continuación tiene la$$t$$ distribución estudiantil con$$m + n - 2$$ grados de libertad. $T = \frac{[M(\bs{Y}) - M(\bs{X})] - (\nu - \mu)}{S(\bs{X}, \bs{Y}) \sqrt{1 / m + 1 / n}}$

Prueba

La variable aleatoria se puede escribir como$$Z / \sqrt{V / (m + n - 2}$$ donde$$Z$$ está la variable normal estándar dada anteriormente y$$V$$ es la variable chi-cuadrada dada anteriormente. Además,$$Z$$ y$$V$$ son independientes por el resultado anterior.

## El modelo de muestra bivariado

Supongamos ahora que$$\left((X_1, Y_1), (X_2, Y_2), \ldots, (X_n, Y_n)\right)$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución normal bivariada con medias$$\mu \in \R$$ y$$\nu \in \R$$, desviaciones estándar$$\sigma \in (0, \infty)$$ y$$\tau \in (0, \infty)$$, y correlación$$\rho \in [0, 1]$$. Por supuesto,$$\bs{X} = (X_1, X_2, \ldots, X_n)$$ es una muestra aleatoria de tamaño$$n$$ de la distribución normal con media$$\mu$$ y desviación estándar$$\sigma$$, y$$\bs{Y} = (Y_1, Y_2, \ldots, Y_n)$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución normal con media$$\nu$$ y desviación estándar$$\tau$$, por lo que los resultados arriba en el modelo de una muestra aplicar a$$\bs{X}$$ e$$\bs{Y}$$ individualmente. Por lo tanto, nuestro interés en esta sección está en la relación entre diversos$$\bs{X}$$ y$$\bs{Y}$$ estadísticas y propiedades de la covarianza muestral.

El modelo bivariado (o más generalmente multivariado) ocurre de forma natural al considerar dos (o más) variables en el experimento estadístico. Por ejemplo, las alturas de los padres y las alturas de los hijos en los datos de altura de Pearson bien pueden ajustarse a observaciones del modelo normal bivariado.

En la notación que hemos utilizado anteriormente, recordemos que$$\sigma^3 = \E\left[(X - \mu)^3\right] = 0$$,$$\sigma_4 = \E\left[(X - \mu)^4\right] = 3 \sigma^4$$,$$\tau_3 = \E\left[(Y - \nu)^3\right] = 0$$,$$\tau_4 = \E\left[(Y - \nu)^4\right] = 3 \tau^4$$,$$\delta = \cov(X, Y) = \sigma \tau \rho$$. y$$\delta_2 = \E[(X - \mu)^2 (Y - \nu)^2] = \sigma^2 \tau^2 (1 + 2 \rho^2)$$.

El vector de datos$$((X_1, Y_1), (X_2, Y_2), \ldots (X_n, Y_n))$$ tiene una distribución normal multivariada.

1. El vector medio tiene una forma de bloque, siendo cada bloque$$(\mu, \nu)$$.
2. La matriz varianza-covarianza tiene una forma de bloque diagonal, siendo cada bloque$$\left[\begin{matrix} \sigma^2 & \sigma \tau \rho \\ \sigma \tau \rho & \tau^2 \end{matrix} \right]$$.
Prueba

Esto se desprende de los resultados estándar para la distribución normal multivariada. Por supuesto, los bloques en las partes (a) y (b) son simplemente la media y la matriz de varianza-covarianza de una sola observación$$(X, Y)$$.

### Medios de muestra

$$\left(M(\bs{X}), M(\bs{Y})\right)$$tiene una distribución normal bivariada. La covarianza y correlación son

1. $$\cov\left[M(\bs{X}), M(\bs{Y})\right] = \sigma \tau \rho / n$$
2. $$\cor\left[M(\bs{X}), M(\bs{Y})\right] = \rho$$
Prueba

La distribución normal bivariada se desprende del resultado anterior ya que se$$(M(\bs{X}), M(\bs{Y}))$$ puede obtener del vector de datos mediante una transformación lineal. Las partes (a) y (b) siguen de nuestros resultados generales anteriores.

Por supuesto, conocemos las medias individuales y varianzas de$$M(\bs{X})$$ y$$M(\bs{Y})$$ a partir del modelo de una muestra anterior. De ahí que conocemos la distribución completa de$$(M(\bs{X}), M(\bs{Y}))$$.

### Varianzas de la muestra

La covarianza y correlación entre las varianzas especiales de la muestra son

1. $$\cov\left[W^2(\bs{X}), W^2(\bs{Y})\right] = 2 \sigma^2 \tau^2 \rho^2 / n$$
2. $$\cor\left[W^2(\bs{X}), W^2(\bs{Y})\right] = \rho^2$$
Prueba

Estos resultados se derivan de nuestros resultados generales anteriores y la forma especial de$$\delta_2$$,$$\sigma_4$$, y$$\tau_4$$.

La covarianza y correlación entre las varianzas de la muestra estándar son

1. $$\cov\left[S^2(\bs{X}), S^2(\bs{Y})\right] = 2 \sigma^2 \tau^2 \rho^2 / (n - 1)$$
2. $$\cor\left[S^2(\bs{X}), S^2(\bs{Y})\right] = \rho^2$$
Prueba

Estos resultados se derivan de nuestros resultados generales anteriores y la forma especial de$$\delta$$,$$\delta_2$$,$$\sigma_4$$, y$$\tau_4$$.

### Covarianza de la muestra

Si$$\nu$$ se conocen$$\mu$$ y se conocen (de nuevo generalmente una suposición artificial), un estimador natural de la covarianza de distribución$$\delta$$ es la versión especial de la covarianza de la muestra$W(\bs{X}, \bs{Y}) = \frac{1}{n} \sum_{i=1}^n (X_i - \mu)(Y_i - \nu)$

La media y varianza$$W(\bs{X}, \bs{Y})$$ de

1. $$\E[W(\bs{X}, \bs{Y})] = \sigma \tau \rho$$
2. $$\var[W(\bs{X}, \bs{Y})] = \sigma^2 \tau^2 (1 + \rho^2) / n$$
Prueba

Estos resultados se derivan de nuestros resultados generales anteriores y la forma especial de$$\delta$$ y$$\delta_2$$.

Si$$\mu$$ y$$\nu$$ son desconocidos (de nuevo generalmente el caso), entonces un estimador natural de la covarianza de distribución$$\delta$$ es la covarianza de la muestra estándar$S(\bs{X}, \bs{Y}) = \frac{1}{n - 1} \sum_{i=1}^n [X_i - M(\bs{X})][Y_i - M(\bs{Y})]$

La media y varianza de la varianza muestral son

1. $$\E[S(\bs{X}, \bs{Y})] = \sigma \tau \rho$$
2. $$\var[S(\bs{X}, \bs{Y})] = \sigma^2 \tau^2 (1 + \rho^2) \big/ (n - 1)$$
Prueba

Estos resultados se derivan de nuestros resultados generales anteriores y la forma especial de$$\delta$$ y$$\delta_2$$.

## Ejercicios Computacionales

Utilizamos la notación básica establecida anteriormente para las muestras$$\bs{X}$$ y$$\bs{Y}$$, y para las estadísticas$$M$$,$$W^2$$,$$S^2$$,$$T$$, y así sucesivamente.

Supongamos que los pesos netos (en gramos) de 25 bolsas de M&Ms forman una muestra aleatoria$$\bs{X}$$ a partir de la distribución normal con media 50 y desviación estándar 4. Encuentra cada uno de los siguientes:

1. La media y desviación estándar de$$M$$.
2. La media y desviación estándar de$$W^2$$.
3. La media y desviación estándar de$$S^2$$.
4. La media y desviación estándar de$$T$$.
5. $$\P(M \gt 49, S^2 \lt 20))$$.
6. $$\P(-1 \lt T \lt 1)$$.
Responder
1. $$50, \; 4 / 5$$
2. $$16, \; 16 \sqrt{2} / 5$$
3. $$16, \; 8 / \sqrt{3}$$
4. $$0, \; 2 \sqrt{3 / 11}$$
5. $$0.7291$$
6. $$0.6727$$

Supongamos que las puntuaciones de matemáticas SAT de 16 estudiantes de Alabama forman una muestra aleatoria$$\bs{X}$$ a partir de la distribución normal con media 550 y desviación estándar 20, mientras que las puntuaciones de matemáticas SAT de 25 estudiantes de Georgia forman una muestra aleatoria$$\bs{Y}$$ a partir de la distribución normal con media 540 y desviación estándar 15. Las dos muestras son independientes. Encuentra cada uno de los siguientes:

1. La media y desviación estándar de$$M(\bs{X})$$.
2. La media y desviación estándar de$$M(\bs{Y})$$.
3. La media y desviación estándar de$$M(\bs{X}) - M(\bs{Y})$$.
4. $$\P[M(\bs{X}) \gt M(\bs{Y})]$$.
5. La media y desviación estándar de$$S^2(\bs{X})$$.
6. La media y desviación estándar de$$S^2(\bs{Y})$$.
7. La media y desviación estándar de$$S^2(\bs{X}) / S^2(\bs{Y})$$
8. $$\P[S(\bs{X}) \gt S(\bs{Y})]$$.
Responder
1. $$550, \; 5$$
2. $$540, \; 3$$
3. $$10, \; \sqrt{34}$$
4. $$0.9568$$
5. $$400, \; 80 \sqrt{10 / 3}$$
6. $$225, \; 75 \sqrt{3} / 2$$
7. $$64 / 33, \; \frac{32}{165} \sqrt{74 / 3}$$
8. $$0.8750$$

This page titled 6.8: Propiedades especiales de muestras normales is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform.