7.1: Estimadores

Última actualización
Guardar como PDF

Page ID: 152033

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\Z}{\mathbb{Z}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)\(\newcommand{\bias}{\text{bias}}\)\(\newcommand{\mse}{\text{mse}}\)\(\newcommand{\eff}{\text{eff}}\)\(\newcommand{\bs}{\boldsymbol}\)

El modelo estadístico básico

Como es habitual, nuestro punto de partida es un experimento aleatorio con un espacio muestral subyacente y una medida de probabilidad\(\P\). En el modelo estadístico básico, tenemos una variable aleatoria observable\(\bs{X}\) tomando valores en un conjunto\(S\). Recordemos que en general, esta variable puede tener una estructura bastante complicada. Por ejemplo, si el experimento consiste en muestrear\(n\) objetos de una población y registrar diversas mediciones de interés, entonces el vector de datos tiene la forma\[ \bs{X} = (X_1, X_2, \ldots, X_n) \] donde\(X_i\) está el vector de mediciones para el objeto\(i\) th. El caso especial más importante es cuando\((X_1, X_2, \ldots, X_n)\) son independientes e idénticamente distribuidos (IID). En este caso\(\bs{X}\) es una muestra aleatoria de tamaño\(n\) a partir de la distribución de una variable de medición subyacente\(X\).

Estadísticas

Recordemos también que una estadística es una función observable de la variable de resultado del experimento aleatorio:\(\bs{U} = \bs{u}(\bs{X})\) donde\( \bs{u} \) es una función conocida desde\( S \) dentro de otro conjunto\( T \). Así, un estadístico es simplemente una variable aleatoria derivada de la variable de observación\(\bs{X}\), con la suposición de que también\(\bs{U}\) es observable. Como indica la notación,\(\bs{U}\) suele ser también vectorizado. Tenga en cuenta que el vector de datos original\(\bs{X}\) es en sí mismo una estadística, pero generalmente nos interesan las estadísticas derivadas de\(\bs{X}\). Se\(\bs{U}\) puede calcular una estadística para responder a una pregunta inferencial. En este contexto, si la dimensión de\(\bs{U}\) (como vector) es menor que la dimensión de\(\bs{X}\) (como suele ser el caso), entonces hemos logrado la reducción de datos. Idealmente, nos gustaría lograr una reducción significativa de datos sin pérdida de información sobre la pregunta inferencial en cuestión.

Parámetros

En el sentido técnico, un parámetro\(\bs{\theta}\) es función de la distribución de\(\bs{X}\), tomando valores en un espacio de parámetros\(T\). Normalmente, la distribución de\(\bs{X}\) tendrá parámetros\(k \in \N_+\) reales de interés, por lo que\(\bs{\theta}\) tiene la forma\(\bs{\theta} = (\theta_1, \theta_2, \ldots, \theta_k)\) y por lo tanto\(T \subseteq \R^k\). En muchos casos, uno o más de los parámetros son desconocidos, y deben estimarse a partir de la variable de datos\(\bs{X}\). Este es uno de los problemas estadísticos más importantes y básicos de todos, y es el tema de este capítulo. Si\( \bs{U} \) es un estadístico, entonces la distribución de\( \bs{U} \) dependerá de los parámetros de\( \bs{X} \), y así también lo harán los constructos distribucionales como medias, varianzas, covarianzas, funciones de densidad de probabilidad y así sucesivamente. Por lo general, suprimemos esta dependencia notacionalmente para evitar que nuestras expresiones matemáticas se vuelvan demasiado imposibles de manejar, pero es muy importante darse cuenta de que la dependencia subyacente está presente. Recuerde que la idea crítica es que al observar un valor\( \bs{u} \) de una estadística (ojalá)\( \bs{U} \) obtengamos información sobre los parámetros desconocidos.

Estimadores

Supongamos ahora que tenemos un parámetro real desconocido\(\theta\) tomando valores en un espacio de parámetros\(T \subseteq \R\). Un estadístico de valor real\(U = u(\bs{X})\) que se utiliza para estimar\(\theta\) se denomina, apropiadamente, un estimador de\(\theta\). Así, el estimador es una variable aleatoria y por lo tanto tiene una distribución, una media, una varianza, y así sucesivamente (todas las cuales, como se señaló anteriormente, generalmente dependerán de ellas\( \theta \)). Cuando realmente ejecutamos el experimento y observamos los datos\(\bs{x}\), el valor observado\(u = u(\bs{x})\) (un solo número) es la estimación del parámetro\(\theta\). Las siguientes definiciones son básicas.

Supongamos que\( U \) es una estadística utilizada como estimador de un parámetro\( \theta \) con valores en\( T \subseteq \R \). Para\( \theta \in T \),

\( U - \theta \)es el error.
\(\bias(U) = E(U - \theta) = \E(U) - \theta \)es el sesgo de\( U \)
\(\mse(U) = \E\left[(U - \theta)^2\right] \)es el error cuadrático medio de\( U \)

Así el error es la diferencia entre el estimador y el parámetro que se estima, por lo que por supuesto el error es una variable aleatoria. El sesgo de\( U \) es simplemente el error esperado, y el error cuadrático medio (el nombre lo dice todo) es el cuadrado esperado del error. Tenga en cuenta que sesgo y error cuadrático medio son funciones de\( \theta \in T \). Las siguientes definiciones son un complemento natural de la definición de sesgo.

Supongamos nuevamente que\( U \) es una estadística utilizada como estimador de un parámetro\( \theta \) con valores en\( T \subseteq \R \).

\(U\)es imparcial si\(\bias(U) = 0\), o equivalentemente\(\E(U) = \theta\), para todos\(\theta \in T\).
\(U\)está sesgado negativamente si\(\bias(U) \le 0\), o equivalentemente\(\E(U) \le \theta\), para todos\(\theta \in T\).
\(U\)está sesgado positivamente si\(\bias(U) \ge 0\), o equivalentemente\(\E(U) \ge \theta\), para todos\(\theta \in T\).

Así, para un estimador imparcial, el valor esperado del estimador es el parámetro que se estima, claramente una propiedad deseable. Por otro lado, un estimador con sesgo positivo sobreestima el parámetro, en promedio, mientras que un estimador sesgado negativamente subestima el parámetro en promedio. Nuestras definiciones de sesgo negativo y positivo son débiles en el sentido de que las desigualdades débiles\(\le\) y\(\ge\) se utilizan. Hay definiciones fuertes correspondientes, por supuesto, utilizando las fuertes desigualdades\(\lt\) y\(\gt\). Obsérvese, sin embargo, que ninguna de estas definiciones puede ser aplicable. Por ejemplo, podría darse el caso que\(\bias(U) \lt 0\) para algunos\(\theta \in T\),\(\bias(U) = 0\) para otros\(\theta \in T\), y\(\bias(U) \gt 0\) para otros más\(\theta \in T\).

\(\mse(U) = \var(U) + \bias^2(U)\)

Prueba

Esto se desprende de las propiedades básicas de valor esperado y varianza:\[ \E[(U - \theta)^2] = \var(U - \theta) + [\E(U - \theta)]^2 = \var(U) + \bias^2(U) \]

En particular, si el estimador es imparcial, entonces el error cuadrático medio de\(U\) es simplemente la varianza de\(U\).

Idealmente, nos gustaría tener estimadores imparciales con un pequeño error cuadrático medio. Sin embargo, esto no siempre es posible, y el resultado en (3) muestra la delicada relación entre sesgo y error cuadrático medio. En la siguiente sección veremos un ejemplo con dos estimadores de un parámetro que son múltiplos entre sí; uno es imparcial, pero el otro tiene menor error cuadrático medio. Sin embargo, si tenemos dos estimadores imparciales de\(\theta\), naturalmente preferimos el de menor varianza (error cuadrático medio).

Supongamos que\( U \) y\( V \) son estimadores imparciales de un parámetro\( \theta \) con valores en\( T \subseteq \R \).

\( U \)es más eficiente que\( V \) si\( \var(U) \le \var(V) \).
La eficiencia relativa de\(U\) con respecto a\(V\) es\[ \eff(U, V) = \frac{\var(V)}{\var(U)} \]

Propiedades asintóticas

Supongamos nuevamente que tenemos un parámetro real\( \theta \) con valores posibles en un espacio de parámetros\( T \). A menudo en un experimento estadístico, observamos una secuencia infinita de variables aleatorias a lo largo del tiempo\(\bs{X} = (X_1, X_2, \ldots,)\),, de manera que en el tiempo\( n \) hemos observado\( \bs{X}_n = (X_1, X_2, \ldots, X_n) \). En esta configuración a menudo tenemos una fórmula general que define un estimador de\(\theta\) para cada tamaño de muestra\(n\). Técnicamente, esto da una secuencia de estimadores de valor real de\(\theta\):\( \bs{U} = (U_1, U_2, \ldots) \) donde\( U_n \) es una función de valor real de\( \bs{X}_n \) para cada uno\( n \in \N_+ \). En este caso, podemos discutir las propiedades asintóticas de los estimadores como\(n \to \infty\). La mayoría de las definiciones son generalizaciones naturales de las anteriores.

La secuencia de estimadores\(\bs{U} = (U_1, U_2, \ldots)\) es asintóticamente imparcial si\( \bias(U_n) \to 0\) como\(n \to \infty\) para cada\(\theta \in T \), o equivalentemente,\(\E(U_n) \to \theta\) como\(n \to \infty\) para cada uno\(\theta \in T\).

Supongamos que\(\bs{U} = (U_1, U_2, \ldots)\) y\(\bs{V} = (V_1, V_2, \ldots)\) son dos secuencias de estimadores que son asintóticamente imparciales. La eficiencia relativa asintótica de\(\bs{U}\) a\(\bs{V}\) es\[ \lim_{n \to \infty} \eff(U_n, V_n) = \lim_{n \to \infty} \frac{\var(V_n)}{\var(U_n)} \] asumir que el límite existe.

Naturalmente, esperamos que nuestros estimadores mejoren, a medida que\(n\) aumente el tamaño de la muestra, y en cierto sentido que converjan al parámetro as\( n \to \infty \). Esta idea general se conoce como consistencia. Una vez más, para el resto de esta discusión, asumimos que\(\bs{U} = (U_1, U_2, \ldots)\) es una secuencia de estimadores para un parámetro de valor real\( \theta \), con valores en el espacio de parámetros\( T \).

Consistencia

\( \bs{U} \)es consistente si\(U_n \to \theta\) como\(n \to \infty\) en probabilidad para cada uno\(\theta \in T\). Es decir, en\( \P\left(\left|U_n - \theta\right| \gt \epsilon\right) \to 0\)\(n \to \infty\) cuanto a cada\(\epsilon \gt 0\) y\(\theta \in T\).
\( \bs{U} \)es consistente en la media cuadrática si es\( \mse(U_n) = \E[(U_n - \theta)^2] \to 0 \) así\( n \to \infty \)\( \theta \in T \).

Aquí está la conexión entre las dos definiciones:

Si\( \bs{U} \) es consistente en la media cuadrática, entonces\(\bs{U}\) es consistente.

Prueba

De la desigualdad de Markov,\[ \P\left(\left|U_n - \theta\right| \gt \epsilon\right) = \P\left[(U_n - \theta)^2 \gt \epsilon^2\right] \le \frac{\E\left[(U_n - \theta)^2\right]}{\epsilon^2} \to 0 \text{ as } n \to \infty \]

Esa consistencia cuadrática media implica consistencia simple es simplemente una versión estadística del teorema que establece que la convergencia media-cuadrada implica convergencia en probabilidad. Aquí hay otra buena consecuencia de la consistencia cuadrática media.

Si\( \bs{U} \) es consistente en la media cuadrática, entonces\( \bs{U} \) es asintóticamente imparcial.

Prueba

Este resultado se deriva del hecho de que el error medio absoluto es menor que el error cuadrático medio raíz, lo que a su vez es un caso especial de un resultado general para las normas. Consulta la sección avanzada sobre espacios vectoriales para más detalles. Entonces, usando este resultado y la desigualdad del triángulo ordinario para el valor esperado tenemos\[ |\E(U_n - \theta)| \le \E(|U_n - \theta|) \le \sqrt{\E[(U_n - \theta)]^2} \to 0 \text{ as } n \to \infty \] De ahí en\( \E(U_n) \to \theta \)\( n \to \infty \) cuanto a\( \theta \in T \).

En las siguientes subsecciones, revisaremos varios problemas básicos de estimación que se estudiaron en el capítulo sobre Muestras Aleatorias.

Estimación en el Modelo de Variable Única

Supongamos que\( X \) es una variable aleatoria básica de valor real para un experimento, con media\( \mu \in \R\) y varianza\( \sigma^2 \in (0, \infty) \). Muestreamos de la distribución de\( X \) para producir una secuencia\(\bs{X} = (X_1, X_2, \ldots)\) de variables independientes, cada una con la distribución de\( X \). Para cada uno\( n \in \N_+ \),\( \bs{X}_n = (X_1, X_2, \ldots, X_n) \) es una muestra aleatoria de tamaño\(n\) a partir de la distribución de\(X\).

Estimación de la media

Esta subsección es una revisión de algunos resultados obtenidos en la sección sobre la Ley de Números Grandes en el capítulo sobre Muestras Aleatorias. Recordemos que un estimador natural de la media de distribución\(\mu\) es la media de la muestra, definida por\[ M_n = \frac{1}{n} \sum_{i=1}^n X_i, \quad n \in \N_+ \]

Propiedades de\( \bs M = (M_1, M_2, \ldots) \) como secuencia de estimadores de\( \mu \).

\(\E(M_n) = \mu\)por lo que\(M_n\) es imparcial para\( n \in \N_+ \)
\(\var(M_n) = \sigma^2 / n\)pues\( n \in \N_+ \) así\( \bs M \) es consistente.

La consistencia de\(\bs M\) es simplemente la débil ley de los grandes números. Además, hay una serie de casos especiales importantes de los resultados en (10). Consulte la sección de Media de la Muestra para conocer los detalles.

Casos especiales de la media muestral

Supongamos que\(X = \bs{1}_A\), la variable indicadora para un evento\(A\) que tiene probabilidad\(\P(A)\). Entonces la media muestral para una muestra aleatoria de tamaño\( n \in \N_+ \) a partir de la distribución de\( X \) es la frecuencia relativa o probabilidad empírica de\(A\), denotada\(P_n(A)\). Por lo tanto,\(P_n(A)\) es un estimador imparcial de\( \P(A) \) for\( n \in \N_+ \) y\( (\P_n(A): n \in \N_+) \) es consistente..
Supongamos que\(F\) denota la función de distribución de una variable aleatoria de valor real\(Y\). Entonces para fijo\(y \in \R\), la función de distribución empírica\(F_n(y)\) es simplemente la media muestral para una muestra aleatoria de tamaño\(n \in \N_+\) a partir de la distribución de la variable indicadora\(X = \bs{1}(Y \le y)\). Por lo tanto,\(F_n(y)\) es un estimador imparcial de\( F(y) \) for\( n \in \N_+ \) y\( (F_n(y): n \in \N_+) \) es consistente.
Supongamos que\(U\) es una variable aleatoria con una distribución discreta en un conjunto contable\(S\) y\(f\) denota la función de densidad de probabilidad de\(U\). Entonces para fijo\(u \in S\), la función de densidad de probabilidad empírica\(f_n(u)\) es simplemente la media muestral para una muestra aleatoria de tamaño\(n \in \N_+\) a partir de la distribución de la variable indicadora\(X = \bs{1}(U = u)\). Por lo tanto,\(f_n(u)\) es un estimador imparcial de\( f(u) \) for\( n \in \N_+ \) y\( (f_n(u): n \in \N_+) \) es consistente.

Estimación de la varianza

Esta subsección es una revisión de algunos resultados obtenidos en la sección sobre la Varianza de la Muestra en el capítulo sobre Muestras Aleatorias. También asumimos que el cuarto momento central\(\sigma_4 = \E\left[(X - \mu)^4\right]\) es finito. Recordemos que\(\sigma_4 / \sigma^4\) es la curtosis de\(X\). Recordemos primero que si\(\mu\) se conoce (casi siempre una suposición artificial), entonces un estimador natural de\(\sigma^2\) es una versión especial de la varianza de la muestra, definida por\[ W_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \mu)^2, \quad n \in \N_+ \]

Propiedades de\( \bs W^2 = (W_1^2, W_2^2, \ldots) \) como secuencia de estimadores de\( \sigma^2 \).

\(\E\left(W_n^2\right) = \sigma^2\)por lo que\(W_n^2\) es imparcial para\( n \in \N_+ \)
\(\var\left(W_n^2\right) = \frac{1}{n}(\sigma_4 - \sigma^4)\)pues\( n \in \N_+ \) así\(\bs W^2\) es consistente.

Prueba

\( \bs W^2 \)corresponde al muestreo de la distribución de\( (X - \mu)^2 \). Esta distribución como media\( \sigma^2 \) y varianza\( \sigma_4 - \sigma^4 \), por lo que los resultados siguen inmediatamente del teorema (10).

Si\(\mu\) se desconoce (la suposición más razonable), entonces un estimador natural de la varianza de distribución es la versión estándar de la varianza de la muestra, definida por\[ S_n^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - M_n)^2, \quad n \in \{2, 3, \ldots\} \]

Propiedades de\( \bs S^2 = (S_2^2, S_3^2, \ldots) \) como secuencia de estimadores de\( \sigma^2 \)

\(\E\left(S_n^2\right) = \sigma^2\)por lo que\(S_n^2\) es imparcial para\( n \in \{2, 3, \ldots\} \)
\(\var\left(S_n^2\right) = \frac{1}{n} \left(\sigma_4 - \frac{n - 3}{n - 1} \sigma^4 \right)\)por\( n \in \{2, 3, \ldots\} \) lo que\(\bs S^2\) es una secuencia consistente.

Naturalmente, nos gustaría comparar las secuencias\( \bs W^2 \) y\( \bs S^2 \) como estimadores de\( \sigma^2 \). Pero nuevamente recuerden que\( \bs W^2 \) solo tiene sentido si\( \mu \) se sabe.

Comparación de\( \bs W^2 \) y\( \bs S^2 \)

\(\var\left(W_n^2\right) \lt \var(S_n^2)\)para\( n \in \{2, 3, \ldots\} \).
La eficiencia relativa asintótica de\(\bs W^2\) a\(\bs S^2\) es 1.

Entonces por (a)\(W_n^2\) es mejor que\(S_n^2\) para\( n \in \{2, 3, \ldots\} \), asumiendo que eso\(\mu\) se sabe para que realmente podamos usar\(W_n^2\). Esto quizás no sea sorprendente, pero por (b)\(S_n^2\) funciona casi tan bien como\(W_n^2\) para una muestra de gran tamaño\( n \). Por supuesto, la desviación estándar de la muestra\(S_n\) es un estimador natural de la desviación estándar de distribución\(\sigma\). Desafortunadamente, este estimador está sesgado. Aquí hay un resultado más general:

Supongamos que\( \theta \) es un parámetro con valores posibles en\(T \subseteq (0, \infty) \) (con al menos dos puntos) y que\( U \) es una estadística con valores en\( T \). Si\( U^2 \) es un estimador imparcial de\( \theta^2 \) entonces\( U \) es un estimador sesgado negativamente de\( \theta \).

Prueba

Tenga en cuenta que\[ \var(U) = \E(U^2) - [\E(U)]^2 = \theta^2 - [\E(U)]^2, \quad \theta \in T \]\( T \) Since tiene por lo menos dos puntos,\( U \) no puede ser determinista así\( \var(U) \gt 0 \). De ello se deduce que\( [\E(U)]^2 \lt \theta^2 \) así\( \E(U) \lt \theta \) para\( \theta \in T \).

Por lo tanto, no debemos estar demasiado obsesionados con la propiedad imparcial. Para la mayoría de las distribuciones de muestreo, no habrá estadística\(U\) con la propiedad que\(U\) sea un estimador imparcial de\(\sigma\) y\(U^2\) sea un estimador imparcial de\(\sigma^2\).

Estimación en el Modelo Bivariado

En esta subsección revisamos algunos de los resultados obtenidos en la sección de Correlación y Regresión en el capítulo sobre Muestras Aleatorias

Supongamos que\( X \) y\( Y \) son variables aleatorias de valor real para un experimento, por lo que\( (X, Y) \) tiene una distribución bivariada en\( \R^2 \). Dejar\( \mu = \E(X)\) y\( \sigma^2 = \var(X) \) denotar la media y varianza de\( X \), y let\( \nu = \E(Y) \) y\( \tau^2 = \var(Y) \) denotar la media y varianza de\( Y \). Para los parámetros bivariados, vamos a\( \delta = \cov(X, Y) \) denotar la covarianza de distribución y\( \rho = \cor(X, Y) \) la correlación de distribución. También necesitamos un momento de orden superior: vamos\( \delta_2 = \E\left[(X - \mu)^2 (Y - \nu)^2\right] \), y como de costumbre, asumimos que todos los parámetros existen. Entonces los espacios de parámetros generales son\( \mu, \, \nu \in \R \),\( \sigma^2, \, \tau^2 \in (0, \infty) \),\( \delta \in \R \), y\( \rho \in [0, 1] \). Supongamos ahora que se muestrea\( (X, Y) \) a partir de la distribución de para generar una secuencia de variables independientes\(\left((X_1, Y_1), (X_2, Y_2), \ldots\right)\), cada una con la distribución de\( (X, Y) \). Como de costumbre, vamos a dejar\(\bs{X}_n = (X_1, X_2, \ldots, X_n)\) y\(\bs{Y}_n = (Y_1, Y_2, \ldots, Y_n)\); estas son muestras aleatorias\(n\) de tamaño de las distribuciones de\(X\) y\(Y\), respectivamente.

Como ahora tenemos dos variables subyacentes, necesitamos mejorar algo nuestra notación. Ayudará a definir las versiones deterministas de nuestras estadísticas. Entonces si\( \bs x = (x_1, x_2, \ldots) \) y\( \bs y = (y_1, y_2, \ldots) \) son secuencias de números reales y\( n \in \N_+ \), definimos las funciones de covarianza media y especial por\ begin {align*} m_n (\ bs x) & =\ frac {1} {n}\ sum_ {i=1} ^n x_i\\ w_n (\ bs x,\ bs y) & =\ frac {1} {n}\ sum_ {i=1} ^n (x_i -\ mu) (y_i -\ nu)\ end {align*} Si\( n \in \{2, 3, \ldots\} \) definimos las funciones varianza y covarianza estándar por\ begin {align*} s_n^2 (\ bs x) & =\ frac {1} {n - 1}\ sum_ {i=1} ^n [x_i - m_n (\ bs x)] ^2\\ s_n (\ bs x,\ bs y) & =\ frac {1} {n - 1}\ sum_ {i=1} n [x_i - m_n (\ bs x)] [y_i - m_n (\ bs y)]\ end {align*} Debe quedar claro a partir del contexto si estamos usando el argumento único o versión de dos argumentos de\( s_n \). En este punto, tenga en cuenta que\( s_n(\bs x, \bs x) = s_n^2(\bs x)\).

Estimación de la covarianza

Si\(\mu\) y\(\nu\) son conocidos (casi siempre una suposición artificial), entonces un estimador natural de la covarianza de distribución\(\delta\) es una versión especial de la covarianza de la muestra, definida por\[ W_n = w_n\left(\bs{X}, \bs{Y}\right) = \frac{1}{n} \sum_{i=1}^n (X_i - \mu)(Y_i - \nu), \quad n \in \N_+\]

Propiedades de\( \bs W = (W_1, W_2, \ldots) \) como secuencia de estimadores de\( \delta \).

\(\E\left(W_n\right) = \delta\)por lo que\(W_n\) es imparcial para\( n \in \N_+ \).
\( \var\left(W_n\right) = \frac{1}{n}(\delta_2 - \delta^2) \)pues\( n \in \N_+ \) así\(\bs W\) es consistente.

Prueba

Ya hemos hecho esta prueba antes, pero es tan básica que vale la pena repetirla. Tenga en cuenta que\( \bs W \) corresponde al muestreo de la distribución de\( (X - \mu) (Y - \nu) \). Esta distribución como media\( \delta \) y varianza\( \delta_2 - \delta^2 \), por lo que los resultados siguen inmediatamente del Teorema (10).

Si\(\mu\) y\(\nu\) son desconocidos (generalmente el supuesto más razonable), entonces un estimador natural de la covarianza de distribución\(\delta\) es la versión estándar de la covarianza de la muestra, definida por\[ S_n = s_n(\bs X , \bs Y) = \frac{1}{n - 1} \sum_{i=1}^n [X_i - m_n(\bs X)][Y_i - m_n(\bs Y)], \quad n \in \{2, 3, \ldots\}\]

Propiedades de\( \bs S = (S_2, S_3, \ldots) \) como secuencia de estimadores de\( \delta \).

\(\E\left(S_n\right) = \delta\)por lo que\( S_n \) es imparcial para\( n \in \{2, 3, \ldots\} \).
\( \var\left(S_n\right) = \frac{1}{n}\left(\delta_2 + \frac{1}{n - 1} \sigma^2 \tau^2 - \frac{n - 2}{n - 1} \delta^2\right) \)pues\( n \in \{2, 3, \ldots\} \) así\(\bs S\) es consistente.

Una vez más, ya que tenemos dos secuencias competidoras de estimadores de\( \delta \), nos gustaría compararlas.

Comparación de\(\bs W\) y\(\bs S\) como estimadores de\(\delta\):

\(\var\left(W_n\right) \lt \var\left(S_n\right)\)para\( n \in \{2, 3, \ldots\} \).
La eficiencia relativa asintótica de\(\bs W\) a\(\bs S\) es 1.

Así,\(U_n\) es mejor que\(V_n\) para\( n \in \{2, 3, \ldots\} \), suponiendo que\(\mu\) y\( \nu \) se conozcan para que realmente podamos usar\(W_n\). Pero para grandes\( n \),\(V_n\) funciona casi tan bien como\(U_n\).

Estimación de la correlación

Un estimador natural de la correlación de distribución\(\rho\) es la correlación muestral\[ R_n = \frac{s_n (\bs X, \bs Y)}{s_n(\bs X) s_n(\bs Y)}, \quad n \in \{2, 3, \ldots\} \] Tenga en cuenta que esta estadística es una función no lineal de la covarianza muestral y las dos desviaciones estándar de la muestra. Para la mayoría de las distribuciones de\((X, Y)\), no tenemos ninguna esperanza de computar el sesgo o error cuadrático medio de este estimador. Si pudiéramos calcular el valor esperado, probablemente encontraríamos que el estimador está sesgado. Por otro lado, aunque no podamos calcular el error cuadrático medio, una simple aplicación de la ley de los números grandes muestra que\(R_n \to \rho\) como\(n \to \infty\) con la probabilidad 1. Por lo tanto,\( \bs R = (R_2, R_3, \ldots) \) es al menos consistente.

Estimación de los coeficientes de regresión

Recordemos que la línea de regresión de distribución, con\(X\) como la variable predictora y\(Y\) como la variable de respuesta, es\(y = a + b \, x\) donde\[ a = \E(Y) - \frac{\cov(X, Y)}{\var(X)} \E(X), \quad b = \frac{\cov(X, Y)}{\var(X)} \] Por otro lado, la línea de regresión muestral, basada en la muestra de tamaño\( n \in \{2, 3, \ldots\} \), es\(y = A_n + B_n x\) donde Por\[ A_n = m_n(\bs Y) - \frac{s_n(\bs X, \bs Y)}{s_n^2(\bs X )} m_n(\bs X), \quad B_n = \frac{s_n(\bs X, \bs Y)}{s_n^2(\bs X)} \] supuesto, la estadística \(A_n\)y\(B_n\) son estimadores naturales de los parámetros\(a\) y\(b\), respectivamente, y en cierto sentido, se derivan de nuestros estimadores previos de la media de distribución, varianza y covarianza. Una vez más, para la mayoría de las distribuciones de\((X, Y)\), sería difícil calcular el sesgo y los errores cuadráticos medios de estos estimadores. Pero las aplicaciones de la ley de grandes números muestran que con probabilidad 1,\( A_n \to a \) y\( B_n \to b \) como\( n \to \infty \), así al menos\( \bs A = (A_2, A_3, \ldots) \) y\( \bs B = (B_2, B_3, \ldots) \) son consistentes.

Ejercicios y Casos Especiales

La distribución de Poisson

Consideremos un ejemplo sencillo que ilustre algunas de las ideas anteriores. Recordemos que la distribución de Poisson con parámetro\(\lambda \in (0, \infty)\) tiene función de densidad de probabilidad\(g\) dada por\[ g(x) = e^{-\lambda} \frac{\lambda^x}{x!}, \quad x \in \N \] La distribución de Poisson se utiliza a menudo para modelar el número de puntos aleatorios en una región de tiempo o espacio, y se estudia con más detalle en el capítulo sobre el proceso de Poisson. El parámetro\(\lambda\) es proporcional al tamaño de la región de tiempo o espacio; la constante de proporcionalidad es la tasa promedio de los puntos aleatorios. La distribución lleva el nombre de Simeon Poisson.

Supongamos que\(X\) tiene la distribución de Poisson con parámetro\(\lambda\). De ahí

\(\mu = \E(X) = \lambda\)
\(\sigma^2 = \var(X) = \lambda\)
\(\sigma_4 = \E\left[(X - \lambda)^4\right] = 3 \lambda^2 + \lambda\)

Prueba

Recordemos la notación de permutación\( x^{(n)} = x (x - 1) \cdots (x - n + 1) \) para\( x \in \R \) y\( n \in \N \). El valor esperado\( \E[X^{(n)}] \) es el momento factorial\( X \) de orden\( n \). Es fácil ver que los momentos factoriales son\( \E\left[X^{(n)}\right] = \lambda^n \) para\( n \in \N \). De esto se desprenden los resultados.

Supongamos ahora que se muestrea de la distribución de\( X \) para producir una secuencia de variables aleatorias independientes\( \bs{X} = (X_1, X_2, \ldots) \), cada una teniendo la distribución de Poisson con parámetro desconocido\( \lambda \in (0, \infty) \). Nuevamente,\(\bs{X}_n = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n \in \N_+\) a partir de la distribución para cada uno\( n \in \N \). Del ejercicio anterior,\(\lambda\) se encuentra tanto la media como la varianza de la distribución, de manera que podríamos usar ya sea la media muestral\(M_n\) o la varianza muestral\(S_n^2\) como estimador de\(\lambda\). Ambos son imparciales, entonces, ¿cuál es mejor? Naturalmente, utilizamos el error cuadrático medio como nuestro criterio.

Comparación de\(\bs M\) a\(\bs S^2\) como estimadores de\(\lambda\).

\(\var\left(M_n\right) = \frac{\lambda}{n}\)para\( n \in \N_+ \).
\(\var\left(S_n^2\right) = \frac{\lambda}{n} \left(1 + 2 \lambda \frac{n}{n - 1} \right)\)para\( n \in \{2, 3, \ldots\} \).
\(\var\left(M_n\right) \lt \var\left(S_n^2\right)\)así que\( M_n \) para\( n \in \{2, 3, \ldots\} \).
La eficiencia relativa asintótica de\(\bs M\) a\(\bs S^2\) es\(1 + 2 \lambda\).

Entonces nuestra conclusión es que la media de la muestra\(M_n\) es un mejor estimador del parámetro\(\lambda\) que la varianza de la muestra\(S_n^2\) para\( n \in \{2, 3, \ldots\} \), y la diferencia en la calidad aumenta con\( \lambda \).

Ejecutar el experimento de Poisson 100 veces para varios valores del parámetro. En cada caso, computar los estimadores\(M\) y\(S^2\). ¿Qué estimador parece funcionar mejor?

A menudo se supone que la emisión de partículas elementales de una muestra de material radiactivo en un intervalo de tiempo sigue la distribución de Poisson. Así, supongamos que el conjunto de datos de emisiones alfa es una muestra de una distribución de Poisson. Estimar el parámetro de tasa\(\lambda\).

usando la media de la muestra
usando la varianza de la muestra

Contestar

8.367
8.649

Ejercicios de Simulación

En el experimento de medias muestrales, establezca la distribución de muestreo en gamma. Aumente el tamaño de la muestra con la barra de desplazamiento y anote gráfica y numéricamente las propiedades imparciales y consistentes. Ejecutar el experimento 1000 veces y comparar la media de la muestra con la media de distribución.

Ejecutar el experimento de estimación normal 1000 veces para varios valores de los parámetros.

Comparar el sesgo empírico y el error cuadrático medio de\(M\) con los valores teóricos.
Comparar el sesgo empírico y el error cuadrático medio de\(S^2\) y\(W^2\) de con sus valores teóricos. ¿Qué estimador parece funcionar mejor?

En el experimento de emparejamiento, la variable aleatoria es el número de coincidencias. Ejecute la simulación 1000 veces y compare

la media de la muestra a la media de distribución.
la función de densidad empírica a la función de densidad de probabilidad.

Ejecutar el experimento exponencial 1000 veces y comparar la desviación estándar de la muestra con la desviación estándar de distribución.

Ejercicios de Análisis de Datos

Para los datos de velocidad de luz de Michelson, compute la media de la muestra y la varianza muestral

Contestar

852.4, 6242.67

Para los datos de densidad terrestre de Cavendish, compute la media de la muestra y la varianza de la muestra.

Contestar

5.448, 0.048817

Para los datos de paralaje del sol de Short, compute la media de la muestra y la varianza de la muestra.

Contestar

8.616, 0.561032

Considera los datos de Cicada.

Calcular la media muestral y la varianza muestral de la variable de longitud corporal.
Calcular la media muestral y la varianza muestral de la variable de peso corporal.
Calcular la covarianza muestral y la correlación muestral entre las variables de longitud corporal y peso corporal.

Contestar

24.0, 3.92
0.180, 0.003512
0.0471, 0.4012

Considere los datos de M&M.

Calcular la media muestral y la varianza muestral de la variable peso neto.
Calcular la media muestral y la varianza muestral del número total de caramelos.
Calcular la covarianza muestral y la correlación muestral entre el número de caramelos y el peso neto.

Contestar

57.1, 5.68
49.215, 2.3163
2.878, 0.794

Considere los datos de Pearson.

Calcular la media muestral y la varianza muestral de la talla del padre.
Calcular la media muestral y la varianza muestral de la talla del hijo.
Calcular la covarianza muestral y la correlación muestral entre la talla del padre y la altura del hijo.

Contestar

67.69, 7.5396
68.68, 7.9309
3.875, 0.501

Los estimadores de la media, varianza y covarianza que hemos considerado en esta sección han sido naturales en cierto sentido. Sin embargo, para otros parámetros, no está claro cómo incluso encontrar un estimador razonable en primer lugar. En los siguientes apartados, consideraremos el problema de construir estimadores. Luego volvemos al estudio de las propiedades matemáticas de los estimadores, y consideramos la cuestión de cuándo podemos saber que un estimador es el mejor posible, dados los datos.