10.2: La media muestral - Un estimador/ estimación

Última actualización

30 oct 2022
Guardar como PDF
- 10.02: La media muestral - Un estimador
- 10.3: Intervalos de confianza

Masayuki Yano, James Douglass Penn, George Konidaris, & Anthony T Patera
Massachusetts Institute of Technology via MIT OpenCourseWare

$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$

$\newcommand{\id}{\mathrm{id}}$ $\newcommand{\Span}{\mathrm{span}}$

( \newcommand{\kernel}{\mathrm{null}\,}\) $\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$ $\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$ $\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\id}{\mathrm{id}}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\kernel}{\mathrm{null}\,}$

$\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$

$\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$

$\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$ $\newcommand{\AA}{\unicode[.8,0]{x212B}}$

$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$

$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$

$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vectorC}[1]{\textbf{#1}}$

$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$

$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$

$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$

$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$

$\newcommand{\avec}{\mathbf a}$

$\newcommand{\bvec}{\mathbf b}$

$\newcommand{\cvec}{\mathbf c}$

$\newcommand{\dvec}{\mathbf d}$

$\newcommand{\dtil}{\widetilde{\mathbf d}}$

$\newcommand{\evec}{\mathbf e}$

$\newcommand{\fvec}{\mathbf f}$

$\newcommand{\nvec}{\mathbf n}$

$\newcommand{\pvec}{\mathbf p}$

$\newcommand{\qvec}{\mathbf q}$

$\newcommand{\svec}{\mathbf s}$

$\newcommand{\tvec}{\mathbf t}$

$\newcommand{\uvec}{\mathbf u}$

$\newcommand{\vvec}{\mathbf v}$

$\newcommand{\wvec}{\mathbf w}$

$\newcommand{\xvec}{\mathbf x}$

$\newcommand{\yvec}{\mathbf y}$

$\newcommand{\zvec}{\mathbf z}$

$\newcommand{\rvec}{\mathbf r}$

$\newcommand{\mvec}{\mathbf m}$

$\newcommand{\zerovec}{\mathbf 0}$

$\newcommand{\onevec}{\mathbf 1}$

$\newcommand{\real}{\mathbb R}$

$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$

$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$

$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$

$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$

$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$

$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$

$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$

$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$

$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$

$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$

$\newcommand{\bcal}{\cal B}$

$\newcommand{\ccal}{\cal C}$

$\newcommand{\scal}{\cal S}$

$\newcommand{\wcal}{\cal W}$

$\newcommand{\ecal}{\cal E}$

$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$

$\newcommand{\gray}[1]{\color{gray}{#1}}$

$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$

$\newcommand{\rank}{\operatorname{rank}}$

$\newcommand{\row}{\text{Row}}$

$\newcommand{\col}{\text{Col}}$

$\renewcommand{\row}{\text{Row}}$

$\newcommand{\nul}{\text{Nul}}$

$\newcommand{\var}{\text{Var}}$

$\newcommand{\corr}{\text{corr}}$

$\newcommand{\len}[1]{\left|#1\right|}$

$\newcommand{\bbar}{\overline{\bvec}}$

$\newcommand{\bhat}{\widehat{\bvec}}$

$\newcommand{\bperp}{\bvec^\perp}$

$\newcommand{\xhat}{\widehat{\xvec}}$

$\newcommand{\vhat}{\widehat{\vvec}}$

$\newcommand{\uhat}{\widehat{\uvec}}$

$\newcommand{\what}{\widehat{\wvec}}$

$\newcommand{\Sighat}{\widehat{\Sigma}}$

$\newcommand{\lt}{<}$

$\newcommand{\gt}{>}$

$\newcommand{\amp}{&}$

$\definecolor{fillinmathshade}{gray}{0.9}$

Ilustremos la idea de la media muestral en términos de un experimento de volteo de monedas, en el que una moneda es volteada $n$ veces. A diferencia de los casos anteriores, la moneda puede ser injusta, es decir, la probabilidad de cabezas $\theta$ ,, puede no ser igual a $1 / 2$ . Suponemos que no conocemos el valor de $\theta$ , y deseamos estimar a $\theta$ partir de los datos recopilados a través de volteretas de $n$ monedas. En otras palabras, se trata de un problema de estimación de parámetros, donde se encuentra el parámetro desconocido $\theta$ . Si bien este capítulo sirve como requisito previo para los capítulos de subsecuencia sobre los métodos de Montecarlo -en los que aplicamos conceptos probabilísticos para calcular áreas y más generalmente integrales-, de hecho el capítulo actual se centra en cómo podríamos deducir parámetros físicos a partir de mediciones ruidosas. En definitiva, las estadísticas pueden aplicarse ya sea a cantidades físicas tratadas como variables aleatorias o a cantidades deterministas que se reinterpretan como aleatorias (o pseudoaleatorias).

Al igual que en el capítulo anterior, asociamos el resultado de $n$ flips con un vector aleatorio consistente en variables aleatorias de Bernoulli $n$ i.i.d., $\left(B_{1}, B_{2}, \ldots, B_{n}\right),$ donde cada una $B_{i}$ toma el valor de 1 con probablemente de $\theta$ y 0 con probabilidad de $1-\theta$ . Las variables aleatorias son i.i.d. porque el resultado de un flip es independiente de otro flip y estamos usando la misma moneda.

Definimos la media muestral de los volteos de $n$ monedas como $\bar{B}_{n} \equiv \frac{1}{n} \sum_{i=1}^{n} B_{i},$ que es igual a la fracción de volteretas que son cabezas. Debido a que $\bar{B}_{n}$ es una transformación (es decir, suma) de variables aleatorias, también es una variable aleatoria. Intuitivamente, dado un gran número de volteos, “esperamos” que la fracción de volteos que son cabezas -la frecuencia de las cabezas- se acerque a la probabilidad de una cabeza, $\theta$ , por $n$ suficientemente grande. Por esta razón, la media muestral es nuestro estimador en el contexto de la estimación de parámetros. Debido a que el estimador estima el parámetro $\theta$ , lo denotaremos por $\widehat{\Theta}_{n}$ , y viene dado por $\widehat{\Theta}_{n}=\bar{B}_{n}=\frac{1}{n} \sum_{i=1}^{n} B_{i} .$ Note que la media muestral es un ejemplo de una estadística -una función de una muestra que devuelva una variable aleatoria- que, en este caso, se pretende estimar la parámetro $\theta$ .

Deseamos estimar el parámetro a partir de una realización particular de volteos de monedas (es decir, una realización de nuestra muestra aleatoria). Para cualquier realización particular, calculamos nuestra estimación como $\hat{\theta}_{n}=\hat{b}_{n} \equiv \frac{1}{n} \sum_{i=1}^{n} b_{i},$ dónde $b_{i}$ está el resultado particular del $i$ -ésimo giro. Es importante señalar que los $b_{i}, i=1, \ldots, n$ , son números, cada uno tomando el valor de 0 o 1. Así, $\hat{\theta}_{n}$ es un número y no una distribución (aleatoria). Resumamos las distinciones:

	r.v.?	Descripción
$\theta$	no	Parámetro a estimar que gobierna el comportamiento de la distribución subyacente
$\widehat{\Theta}_{n}$	si	Estimador para el parámetro $\theta$
$\hat{\theta}_{n}$	no	Estimación para el parámetro $\theta$ obtenido de una realización particular de nuestra muestra

En general, cómo $\widehat{\Theta}_{n}$ se distribuye la variable aleatoria -en particular sobre $\theta$ - determina si $\widehat{\Theta}_{n}$ es un buen estimador para el parámetro $\theta$ . Un ejemplo de convergencia de $\hat{\theta}_{n}$ a $\theta$ con $n$ se muestra en la Figura 10.1. A medida que $n$ aumenta, $\hat{\theta}$ converge $\theta$ para esencialmente toda realización de $B_{i}$ 's Esto se desprende del hecho de que $\widehat{\Theta}_{n}$ es un estimador imparcial de $\theta$ - un estimador cuyo esperado valor es igual al parámetro true. Esto lo probaremos en breve.

Para obtener una mejor comprensión del comportamiento de $\widehat{\Theta}_{n}$ , podemos construir la distribución empírica de $\widehat{\Theta}_{n}$ realizando una gran cantidad de experimentos para un dado $n$ . Denotemos el número de

Screen Shot 2022-03-27 a las 8.53.26 PM.png — Figura 10.1: Convergencia de estimación con $n$ una realización particular de volteretas de monedas.

experimentos por $n_{\exp }$ . En el primer experimento, trabajamos con una realización $\left(b_{1}, b_{2}, \ldots, b_{n}\right)^{\exp 1}$ y obtenemos la estimación calculando la media, es decir, de $\exp 1:\left(b_{1}, b_{2}, \ldots, b_{n}\right)^{\exp 1} \quad \Rightarrow \quad \bar{b}_{n}^{\exp 1}=\frac{1}{n} \sum_{i=1}^{n}\left(b_{i}\right)^{\exp 1} .$ manera similar, para el segundo experimento, trabajamos con una nueva realización para obtener $\exp 2:\left(b_{1}, b_{2}, \ldots, b_{n}\right)^{\exp 2} \quad \Rightarrow \quad \bar{b}_{n}^{\exp 2}=\frac{1}{n} \sum_{i=1}^{n}\left(b_{i}\right)^{\exp 2} .$ Repitiendo los $n_{\exp }$ tiempos del procedimiento, finalmente obtenemos $\exp n_{\exp }:\left(b_{1}, b_{2}, \ldots, b_{n}\right)^{\exp n_{\exp }} \Rightarrow \bar{b}_{n}^{\exp n_{\exp }}=\frac{1}{n} \sum_{i=1}^{n}\left(b_{i}\right)^{\exp n_{\exp }} .$ Observamos que $\bar{b}_{n}$ puede tomar cualquier valor $k / n, k=0, \ldots, n$ . Podemos calcular la frecuencia de $\bar{b}_{n}$ tomar un cierto valor, es decir, el número de experimentos que produce $\bar{b}_{n}=k / n$ .

El resultado numérico de realizar 10,000 experimentos para $n=2,10,100$ , y 1000 volteretas se muestran en la Figura 10.2. La distribución empírica de $\widehat{\Theta}_{n}$ espectáculos que con $\widehat{\Theta}_{n}$ mayor frecuencia toma los valores cercanos al parámetro subyacente a $\theta$ medida que aumenta el número de volteretas $n$ ,,. Así, el experimento numérico confirma que efectivamente $\widehat{\Theta}_{n}$ es un buen estimador de $\theta$ si $n$ es suficientemente grande.

Habiendo visto que nuestra estimación converge al parámetro verdadero $\theta$ en la práctica, ahora analizaremos el comportamiento de convergencia con el parámetro verdadero relacionando la media de la muestra con una distribución binomial. Recordemos, que la distribución binomial representa el número de cabezas obtenidas al voltear una moneda $n$ veces, es decir, si $Z_{n} \sim \mathcal{B}(n, \theta)$ , entonces $Z_{n}=\sum_{i=1}^{n} B_{i},$ donde $B_{i}, i=1, \ldots, n$ , son la variable aleatoria de Bernoulli i.d., que representa el resultado de los volteos de monedas (teniendo cada uno el probabilidad de cabeza de $\theta$ ). La distribución binomial y la media muestral se relacionan por $\widehat{\Theta}_{n}=\frac{1}{n} Z_{n}$

Screen Shot 2022-03-27 a las 8.54.36 PM.png

(a) $n=2$

Screen Shot 2022-03-27 a las 8.54.44 PM.png

b) $n=10$

Screen Shot 2022-03-27 a las 8.54.54 PM.png

c) $n=100$

Screen Shot 2022-03-27 a las 8.55.02 PM.png

d) $n=1000$

Figura 10.2: Distribución empírica de $\widehat{\Theta}_{n}$ para $n=2,10,100$ , y 1000 y $\theta=1 / 2$ obtenida de 10,000 experimentos.

La media (un parámetro determinista) de la media muestral (una variable aleatoria) es $E\left[\widehat{\Theta}_{n}\right]=E\left[\frac{1}{n} Z_{n}\right]=\frac{1}{n} E\left[Z_{n}\right]=\frac{1}{n}(n \theta)=\theta .$ En otras palabras, $\widehat{\Theta}_{n}$ es un estimador imparcial de $\theta$ . La varianza de la media $\begin{aligned} \operatorname{Var}\left[\widehat{\Theta}_{n}\right] &=E\left[\left(\widehat{\Theta}_{n}-E\left[\widehat{\Theta}_{n}\right]\right)^{2}\right]=E\left[\left(\frac{1}{n} Z_{n}-\frac{1}{n} E\left[Z_{n}\right]\right)^{2}\right]=\frac{1}{n^{2}} E\left[\left(Z_{n}-E\left[Z_{n}\right]\right)^{2}\right] \\ &=\frac{1}{n^{2}} \operatorname{Var}\left[Z_{n}\right]=\frac{1}{n^{2}} n \theta(1-\theta)=\frac{\theta(1-\theta)}{n} . \end{aligned}$ muestral es La desviación estándar de $\widehat{\Theta}_{n}$ es $\sigma_{\hat{\Theta}_{n}}=\sqrt{\operatorname{Var}\left[\widehat{\Theta}_{n}\right]}=\sqrt{\frac{\theta(1-\theta)}{n}} .$ Así, la desviación estándar de $\widehat{\Theta}_{n}$ disminuye con $n$ , y en particular tiende a cero as $1 / \sqrt{n}$ . Esto implica que $\widehat{\Theta}_{n} \rightarrow \theta$ como $n \rightarrow \infty$ debido a que es muy poco probable que $\widehat{\Theta}_{n}$ va a tomar en un valor muchas desviaciones estándar alejadas de la media. En otras palabras, el estimador converge al parámetro verdadero con el número de volteos.

Search

Text Color

Text Size

Margin Size

Font Type

Support Center

How can we help?