13.3: Muestras aleatorias simples y estadísticas

Última actualización
Guardar como PDF

Page ID: 151059

Paul Pfeiffer
Rice University

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

Muestras aleatorias simples y estadísticas

Formulamos la noción de una muestra aleatoria (simple), que es básica para gran parte de la estadística clásica. Una vez formulada, podemos aplicar la teoría de probabilidad para exhibir varias ideas básicas de análisis estadístico.

Comenzamos con la noción de una distribución poblacional. Una población puede ser casi cualquier colección de individuos o entidades. Asociada a cada miembro hay una cantidad o una entidad a la que se le puede asignar un número. La cantidad varía a lo largo de la población. La distribución poblacional es la distribución de esa cantidad entre los miembros de la población.

Si se pudiera observar a cada miembro, la distribución poblacional podría determinarse por completo. Sin embargo, eso no siempre es factible. Para obtener información sobre la distribución poblacional, seleccionamos “al azar” un subconjunto de la población y observar cómo varía la cantidad a lo largo de la muestra. Esperemos que la distribución muestral dé una aproximación útil a la distribución poblacional.

El proceso de muestreo

Tomamos una muestra de tamaño$n$, lo que significa que seleccionamos n miembros de la población y observamos la cantidad asociada a cada uno. La selección se realiza de tal manera que en cualquier juicio es igualmente probable que cada miembro sea seleccionado. Además, el muestreo se realiza de tal manera que el resultado de cualquier selección no afecta, y no se ve afectado por, las demás. Parece que estamos describiendo un juicio compuesto. Modelamos el proceso de muestreo de la siguiente manera:

Let$X_i$,$1 \le i \le n$ ser la variable aleatoria para el i-ésimo ensayo de componentes. Entonces la clase$\{X_i: 1 \le i \le n\}$ es iid, teniendo cada miembro la distribución poblacional.

Esto proporciona un modelo para el muestreo ya sea de una población muy grande (a menudo denominada población infinita) o muestreo con reemplazo de una población pequeña.

El objetivo es determinar en la medida de lo posible sobre el carácter de la población. Dos parámetros importantes son la media y la varianza. Queremos la media poblacional y la varianza poblacional. Si la muestra es representativa de la población, entonces la media de la muestra y la varianza muestral deben aproximarse a las cantidades poblacionales.

El proceso de muestreo es la clase iid$\{X_i: 1 \le i \le n\}$.
Una muestra aleatoria es una observación, o realización,$(t_1, t_2, \cdot\cdot\cdot, t_n)$ del proceso de muestreo.

El promedio muestral y la media poblacional

Considerar el promedio numérico de los valores en la muestra$\bar{x} = \dfrac{1}{n} \sum_{i = 1}^{n} t_i$. Esta es una observación del promedio muestral

$A_n = \dfrac{1}{n} \sum_{i = 1}^{n} X_i = \dfrac{1}{n} S_n$

La suma muestral$S_n$ y el promedio muestral$A_n$ son variables aleatorias. Si se hiciera otra observación (otra muestra tomada), el valor observado de estas cantidades probablemente sería diferente. Ahora$S_n$ y$A_n$ son funciones de las variables aleatorias$\{X_i: 1 \le i \le n\}$ en el proceso de muestreo. Como tal, tienen distribuciones relacionadas con la distribución poblacional (la distribución común de la$X_i$). Según el teorema del límite central, para cualquier muestra de tamaño razonable deben distribuirse aproximadamente de manera normal. Como muestran los ejemplos que demuestran el teorema del límite central, el tamaño de la muestra no necesita ser grande en muchos casos. Ahora bien, si la media poblacional$E[X]$ es$\mu$ y la varianza poblacional$\text{Var} [X]$ es$\sigma^2$, entonces

$E[S_n] = \sum_{i = 1}^{n} E[X_i] = nE[X] = n\mu$y$\text{Var}[S_n] = \sum_{i = 1}^{n} \text{Var} [X_i] = n \text{Var} [X] = n \sigma^2$

para que

$E[A_n] = \dfrac{1}{n} E[S_n] = \mu$y$\text{Var}[A_n] = \dfrac{1}{n^2} \text{Var} [S_n] = \sigma^2/n$

Aquí radica la clave de la utilidad de una muestra grande. La media del promedio muestral$A_n$ es la misma que la media poblacional, pero la varianza del promedio muestral es$1/n$ por la varianza poblacional. De esta manera, para una muestra suficientemente grande, la probabilidad es alta de que el valor observado del promedio muestral sea cercano a la media poblacional. La desviación estándar poblacional, como medida de la variación, se reduce por un factor$1/\sqrt{n}$.

Ejemplo$\PageIndex{1}$ Sample size

Supongamos que una población tiene media$\mu$ y varianza$\sigma^2$. Se va a tomar$n$ una muestra de tamaño. Hay preguntas complementarias:

Si$n$ se da, ¿cuál es la probabilidad de que el promedio de la muestra se encuentre a distancia a de la media poblacional?
¿Qué valor de$n$ se requiere para asegurar una probabilidad de al menos p de que el promedio muestral se encuentre dentro de la distancia a de la media poblacional?

Solución

Supongamos que la varianza de la muestra es conocida o puede aproximarse razonablemente. Si el tamaño de la muestra$n$ es razonablemente grande, dependiendo de la distribución poblacional (como se vio en las demostraciones anteriores), entonces$A_n$ es aproximadamente$N(\mu, \sigma^2/n)$.

1. Tamaño de muestra dado, probabilidad a determinar.

$p = P(|A_n - \mu| \le a) = P(|\dfrac{A_n - \mu}{\sigma/\sqrt{n}}| \le \dfrac{a \sqrt{n}}{\sigma} = 2\phi (a \sqrt{n}/\sigma) -1$

2. Tamaño de muestra a determinar, probabilidad especificada.

$2 \phi (a \sqrt{n}/\sigma) - 1 \ge p$iff$\phi (a\sqrt{n} /\sigma) \ge \dfrac{p + 1}{2}$

Encuentra a partir de una tabla o mediante el uso de la función normal inversa el valor de$x = a\sqrt{n}/\sigma$ requerido para hacer al$\phi (x)$ menos$(p + 1)/2$. Entonces

$n \ge \sigma^2 (x/a)^2 = (\dfrac{\sigma}{a})^2 x^2$

Podemos usar la función de MATLAB norminv para calcular los valores de$x$ para varios$p$.

p = [0.8 0.9 0.95 0.98 0.99];
x = norminv(0,1,(1+p)/2);
disp([p;x;x.^2]')
    0.8000    1.2816    1.6424
    0.9000    1.6449    2.7055
    0.9500    1.9600    3.8415
    0.9800    2.3263    5.4119
    0.9900    2.5758    6.6349

Para$p = 0.95$,$\sigma = 2$,$a = 0.2$,$n \ge (2/0.2)^2 3.8415 = 384.15$. Use al menos 385 o quizás 400 debido a la incertidumbre sobre el real$\sigma^2$

La idea de una estadística

En función de las variables aleatorias en el proceso de muestreo, el promedio muestral es un ejemplo de estadística.

Definición: estadística

Un estadístico es una función de la clase$\{X_i: 1 \le i \le n\}$ que utiliza explícitamente no hay parámetros desconocidos de la población.

Ejemplo$\PageIndex{2}$ Statistics as functions of the sampling progress

La variable aleatoria

$W = \dfrac{1}{n} \sum_{i = 1}^{n} (X_i - \mu)^2$, donde$\mu = E[X]$

no es una estadística, ya que utiliza el parámetro desconocido$\mu$. Sin embargo, lo siguiente es una estadística.

$V_n^* = \dfrac{1}{n} \sum_{i = 1}^{n} (X_i - A_n)^2 = \dfrac{1}{n} \sum_{i = 1}^{n} X_i^2 - A_n^2$

Parecería que$V_n^*$ podría ser una estimación razonable de la varianza poblacional. Sin embargo, el siguiente resultado muestra que es deseable una ligera modificación.

Ejemplo$\PageIndex{3}$ An estimator for the population variance

La estadística

$V_n = \dfrac{1}{n - 1} \sum_{i = 1}^{n} (X_i - A_n)^2$

es un estimador para la varianza poblacional.

VERIFICACIÓN

Considerar la estadística

$V_n^* = \dfrac{1}{n} \sum_{i = 1}^{n} (X_i - A_n)^2 = \dfrac{1}{n} \sum_{i = 1}^{n} X_i^2 - A_n^2$

Señalando que$E[X^2] = \sigma^2 + \mu^2$, usamos la última expresión para mostrar

$E[V_n^*] = \dfrac{1}{n} n (\sigma^2 + \mu^2) - (\dfrac{\sigma^2}{n} + \mu^2) = \dfrac{n - 1}{n} \sigma^2$

La cantidad tiene un sesgo en el promedio. Si consideramos

$V_n = \dfrac{n}{n - 1} V_n^* = \dfrac{1}{n - 1} \sum_{i = 1}^{n} (X_i - A_n)^2$, luego$E[V_n] = \dfrac{n}{n - 1} \dfrac{n - 1}{n} \sigma^2 = \sigma^2$

La cantidad$V_n$ con$1/(n - 1)$ en lugar de a menudo$1/n$ se denomina varianza de la muestra para distinguirla de la varianza poblacional. Si el conjunto de números

$(t_1, t_2, \cdot\cdot\cdot, t_N)$

representan el conjunto completo de valores en una población de$N$ integrantes, la varianza para la población estaría dada por

$\sigma^2 = \dfrac{1}{N} \sum_{i = 1}^{N} t_i^2 - (\dfrac{1}{N} \sum_{i = 1}^{N} t_i)^2$

Aquí usamos$1/N$ en lugar de$1/(N -1)$.

Dado que el estadístico$V_n$ tiene valor medio$\sigma^2$, parece un candidato razonable para un estimador de la varianza poblacional. Si preguntamos qué tan bueno es, debemos considerar su varianza. Como variable aleatoria, tiene varianza. Una evaluación similar a la de la media, pero más complicada en detalle, muestra que

$\text{Var} [V_n] = \dfrac{1}{n} (\mu_4 - \dfrac{n - 3}{n - 1} \sigma^4)$donde$\mu_4 = E[(X - \mu)^4]$

Para grandes$n$,$\text{Var} [V_n]$ es pequeño, por lo que$V_n$ es un buen estimador de muestra grande para$\sigma^2$.

Ejemplo$\PageIndex{4}$ A sampling demonstration of the CLT

Considerar una variable aleatoria poblacional$X$ ~ uniforme [-1, 1]. Entonces$E[X] = 0$ y$\text{Var} [X] = 1/3$. Tomamos 100 muestras de tamaño 100 y determinamos las sumas de las muestras. Esto da una muestra de tamaño 100 de la variable aleatoria de suma muestral$S_{100}$, la cual tiene media cero y varianza 100/3. Para cada valor observado de la variable aleatoria de suma de muestra, se grafica la fracción de sumas observadas menores o iguales a ese valor. Esto produce una función de distribución experimental para$S_{100}$, que se compara con la función de distribución para una variable aleatoria$Y$ ~$N(0, 100/3)$.

rand('seed',0)    % Seeds random number generator for later comparison
tappr                                         % Approximation setup
Enter matrix [a b] of x-range endpoints  [-1 1]
Enter number of x approximation points  100
Enter density as a function of t  0.5*(t<=1)
Use row matrices X and PX as in the simple case

qsample                                 % Creates sample
Enter row matrix of VALUES  X
Enter row matrix of PROBABILITIES  PX
Sample size n =  10000                  % Master sample size 10,000
Sample average ex = 0.003746
Approximate population mean E(X) = 1.561e-17
Sample variance vx = 0.3344
Approximate population variance V(X) = 0.3333
m = 100;
a = reshape(T,m,m);                     % Forms 100 samples of size 100
A = sum(a);                             % Matrix A of sample sums
[t,f] = csort(A,ones(1,m));             % Sorts A and determines cumulative
p = cumsum(f)/m;                        % fraction of elements <= each value
pg = gaussian(0,100/3,t);               % Gaussian dbn for sample sum values
plot(t,p,'k-',t,pg,'k-.')               % Comparative plot
% Plotting details                      (see Figure 13.3.1)

$La Figura uno es una gráfica de dos parcelas, titulada Teorema de límite central para sumas de muestra. El eje horizontal está etiquetado, los valores de suma de la muestra, y el eje vertical se etiqueta, fracción acumulativa. Los valores en el eje horizontal oscilan entre -15 y 20 en incrementos de 5. Los valores en el eje vertical van de 0 a 1 en incrementos de 0.1. Hay dos leyendas dentro de la gráfica. La primera lee, X uniforme en [-1 1], y la segunda lee, E [X] = 0 Var [X] = 1/3. La primera gráfica es una línea lisa y discontinua, etiquetada como gaussiana. La segunda parcela es una línea continua vacilante y dentada etiquetada como experimental. Ambas parcelas siguen generalmente la misma forma. Comienzan en la parte inferior derecha aproximadamente en (-12, 0) con una pendiente positiva, y se mueven hacia la derecha, aumentando a un ritmo creciente. Casi en el punto medio de la gráfica, aproximadamente (0, 0.5), las gráficas se ajustan y comienzan a aumentar a un ritmo decreciente, acercándose a la esquina superior derecha de la gráfica mientras se estrecha hacia una línea horizontal. La línea gaussiana y discontinua sigue la descripción de este camino con mayor precisión, mientras que la línea experimental sólida parece estar estrechamente ajustada a la trayectoria de la línea gaussiana con algunas imperfecciones que hacen que se duplique de manera desigual en un par de puntos a lo largo del camino.$
Figura 13.3.1. El teorema del límite central para las sumas muestrales.