7.5: Mejores estimadores imparciales

Última actualización
Guardar como PDF

Page ID: 152039

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\Z}{\mathbb{Z}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)\(\newcommand{\bias}{\text{bias}}\)\(\newcommand{\MSE}{\text{MSE}}\)\(\newcommand{\bs}{\boldsymbol}\)

Teoría Básica

Consideremos nuevamente el modelo estadístico básico, en el que tenemos un experimento aleatorio que da como resultado una variable aleatoria observable\(\bs{X}\) tomando valores en un conjunto\(S\). Una vez más, el experimento es típicamente para muestrear\(n\) objetos de una población y registrar una o más mediciones para cada ítem. En este caso, la variable aleatoria observable tiene la forma\[ \bs{X} = (X_1, X_2, \ldots, X_n) \] donde\(X_i\) está el vector de mediciones para el ítem\(i\) th.

Supongamos que\(\theta\) es un parámetro real de la distribución de\(\bs{X}\), tomando valores en un espacio de parámetros\(\Theta\). Dejar\(f_\theta\) denotar la función de densidad de probabilidad de\(\bs{X}\) for\(\theta \in \Theta\). Tenga en cuenta que los operadores de valor esperado, varianza y covarianza también dependen de ellos\(\theta\), aunque a veces suprimiremos esto para evitar que la notación se vuelva demasiado poco manejable.

Definiciones

Supongamos ahora que\(\lambda = \lambda(\theta)\) es un parámetro de interés del que se deriva\(\theta\). (Por supuesto,\(\lambda\) podría ser\(\theta\) en sí mismo, pero más generalmente podría ser una función de\(\theta\).) En esta sección consideraremos el problema general de encontrar el mejor estimador de\(\lambda\) entre una determinada clase de estimadores imparciales. Recordemos que si\(U\) es un estimador imparcial de\(\lambda\), entonces\(\var_\theta(U)\) es el error cuadrático medio. El error cuadrático medio es nuestra medida de la calidad de los estimadores imparciales, por lo que las siguientes definiciones son naturales.

Supongamos que\(U\) y\(V\) son estimadores imparciales de\(\lambda\).

Si\(\var_\theta(U) \le \var_\theta(V)\) para todos\(\theta \in \Theta \) entonces\(U\) es un estimador uniformemente mejor que\(V\).
Si\(U\) es uniformemente mejor que cualquier otro estimador imparcial de\(\lambda\), entonces\(U\) es un Estimador imparcial de varianza mínima uniforme (UMVUE) de\(\lambda\).

Dados los estimadores imparciales\( U \) y\( V \) de\( \lambda \), puede darse el caso de que\(U\) tenga varianza menor para algunos valores de\(\theta\) mientras que\(V\) tiene varianza menor para otros valores de\(\theta\), por lo que ninguno de los estimadores es uniformemente mejor que el otro. Por supuesto, un estimador imparcial de varianza mínima es lo mejor que podemos esperar.

El límite inferior de Cramér-Rao

Mostraremos que en condiciones leves, existe un límite inferior en la varianza de cualquier estimador imparcial del parámetro\(\lambda\). Así, si podemos encontrar un estimador que logre este límite inferior para todos\(\theta\), entonces el estimador debe ser un UMVUE de\(\lambda\). La derivada de la función de verosimilitud logarítmica, a veces llamada score, jugará un papel crítico en nuestra anailsis. Un papel menor, pero aún importante, lo juega el negativo de la segunda derivada de la función de verosimilitud logarítmica. La vida será mucho más fácil si le damos nombres a estas funciones.

Para\(\bs{x} \in S\) y\(\theta \in \Theta\), define\ begin {align} L_1 (\ bs {x},\ theta) & =\ frac {d} {d\ theta}\ ln\ left (f_\ theta (\ bs {x})\ derecha)\\ L_2 (\ bs {x},\ theta) & = -\ frac {d} {d\ theta} L_1 (\ bs {x},\ theta) = -\ frac {d^2} {d\ theta^2}\ ln\ izquierda (f_\ theta (\ bs {x})\ derecha)\ end {align}

En el resto de esta subsección, consideramos las estadísticas\(h(\bs{X})\) donde\(h: S \to \R\) (y así en particular,\(h\) no depende de\(\theta\)). Necesitamos una suposición fundamental:

Consideraremos solo estadísticas\( h(\bs{X}) \) con\(\E_\theta\left(h^2(\bs{X})\right) \lt \infty\) for\(\theta \in \Theta\). También asumimos que\[ \frac{d}{d \theta} \E_\theta\left(h(\bs{X})\right) = \E_\theta\left(h(\bs{X}) L_1(\bs{X}, \theta)\right) \] Esto equivale a la suposición de que el operador derivado\(d / d\theta\) puede intercambiarse con el operador de valor esperado\(\E_\theta\).

Prueba

Observe primero que\[\frac{d}{d \theta} \E\left(h(\bs{X})\right)= \frac{d}{d \theta} \int_S h(\bs{x}) f_\theta(\bs{x}) \, d \bs{x}\] Por otro lado,\ begin {align}\ E_\ theta\ left (h (\ bs {X}) L_1 (\ bs {X},\ theta)\ derecha) & =\ E_\ theta\ left (h (\ bs {X})\ frac {d} {d\ theta}\ ln\ left (f_\ theta (\ bs {X})\ derecha)\ derecha) =\ int_s h (\ bs {x})\ frac {d} {d\ theta}\ ln\ izquierda (f_\ theta (\ bs {x})\ derecha) f_\ theta (\ bs {x})\, d\ bs {x}\\ & =\ int_s h (\ bs {x})\ frac {\ frac {d} {d\ theta} f_\ theta (\ bs {x})} {f_\ theta (\ bs {x})} f_\ theta (\ bs {x})\, d\ bs {x} =\ int_s h (\ bs {x})\ frac d} {d\ theta} f_\ theta (\ bs {x})\, d\ bs {x} =\ int_s\ frac {d} {d\ theta} h (\ bs {x}) f_\ theta (\ bs {x})\, d\ bs {x}\ end {align} Así las dos expresiones son iguales si y solo si podemos intercambiar los operadores derivados e integrales.

En términos generales, la suposición fundamental se cumplirá si\(f_\theta(\bs{x})\) es diferenciable en función de\(\theta\), con una derivada que sea conjuntamente continua en\(\bs{x}\) y\(\theta\), y si el conjunto de\(\left\{\bs{x} \in S: f_\theta(\bs{x}) \gt 0 \right\}\) soportes no depende de\(\theta\).

\(\E_\theta\left(L_1(\bs{X}, \theta)\right) = 0\)para\(\theta \in \Theta\).

Prueba

Esto se desprende de la suposición fundamental al permitir\(h(\bs{x}) = 1\)\(\bs{x} \in S\).

Si\(h(\bs{X})\) es una estadística entonces

\[ \cov_\theta\left(h(\bs{X}), L_1(\bs{X}, \theta)\right) = \frac{d}{d \theta} \E_\theta\left(h(\bs{X})\right) \]

Prueba

Primero señalar que la covarianza es simplemente el valor esperado del producto de las variables, ya que la segunda variable tiene la media 0 por el teorema anterior. El resultado se desprende entonces de la condición básica.

\(\var_\theta\left(L_1(\bs{X}, \theta)\right) = \E_\theta\left(L_1^2(\bs{X}, \theta)\right)\)

Prueba

Esto sigue ya que\(L_1(\bs{X}, \theta)\) tiene media 0 por el teorema anterior.

El siguiente teorema da el límite inferior general de Cramér-Rao sobre la varianza de un estadístico. El límite inferior lleva el nombre de Harold Cramér y CR Rao:

Si\(h(\bs{X})\) es una estadística entonces\[ \var_\theta\left(h(\bs{X})\right) \ge \frac{\left(\frac{d}{d \theta} \E_\theta\left(h(\bs{X})\right) \right)^2}{\E_\theta\left(L_1^2(\bs{X}, \theta)\right)} \]

Prueba

De la desigualdad Cauchy-Scharwtz (correlación),\[\cov_\theta^2\left(h(\bs{X}), L_1(\bs{X}, \theta)\right) \le \var_\theta\left(h(\bs{X})\right) \var_\theta\left(L_1(\bs{X}, \theta)\right)\] El resultado ahora se desprende de los dos teoremas anteriores.

Ahora podemos dar la primera versión del límite inferior de Cramér-Rao para estimadores imparciales de un parámetro.

Supongamos ahora que\(\lambda(\theta)\) es un parámetro de interés y\(h(\bs{X})\) es un estimador imparcial de\(\lambda\). Entonces\[ \var_\theta\left(h(\bs{X})\right) \ge \frac{\left(d\lambda / d\theta\right)^2}{\E_\theta\left(L_1^2(\bs{X}, \theta)\right)} \]

Prueba

Esto se deduce inmediatamente del límite inferior de Cramér-Rao, ya que\(\E_\theta\left(h(\bs{X})\right) = \lambda\) para\(\theta \in \Theta\).

Un estimador de\(\lambda\) que logre el límite inferior de Cramér-Rao debe ser un estimador imparcial de varianza mínima uniforme (UMVUE) de\(\lambda\).

La igualdad se mantiene en el teorema anterior, y por lo tanto\(h(\bs{X})\) es un UMVUE, si y solo si existe una función\(u(\theta)\) tal que (con probabilidad 1)\[ h(\bs{X}) = \lambda(\theta) + u(\theta) L_1(\bs{X}, \theta) \]

Prueba

La igualdad se mantiene en la desigualdad Cauchy-Schwartz si y solo si las variables aleatorias son transformaciones lineales entre sí. Recordemos también que\(L_1(\bs{X}, \theta)\) tiene media 0.

La cantidad\(\E_\theta\left(L^2(\bs{X}, \theta)\right)\) que ocurre en el denominador de los límites inferiores en los dos teoremas anteriores se llama el número de información de Fisher de\(\bs{X}\), llamado así por Sir Ronald Fisher. El siguiente teorema da una versión alternativa del número de información de Fisher que suele ser computacionalmente mejor.

Si existen los derivados apropiados y si los intercambios apropiados son permisibles, entonces\[ \E_\theta\left(L_1^2(\bs{X}, \theta)\right) = \E_\theta\left(L_2(\bs{X}, \theta)\right) \]

El siguiente teorema da la segunda versión del límite inferior de Cramér-Rao para estimadores imparciales de un parámetro.

Si\(\lambda(\theta)\) es un parámetro de interés y\(h(\bs{X})\) es un estimador imparcial de\(\lambda\) entonces

\[ \var_\theta\left(h(\bs{X})\right) \ge \frac{\left(d\lambda / d\theta\right)^2}{\E_\theta\left(L_2(\bs{X}, \theta)\right)} \]

Prueba

Esto se desprende de los resultados anteriores.

Muestras Aleatorias

Supongamos ahora que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) a partir de la distribución de una variable aleatoria\(X\) que tiene función de densidad de probabilidad\(g_\theta\) y tomando valores en un conjunto\(R\). Así\(S = R^n\). Utilizaremos letras minúsculas para la derivada de la función de probabilidad logarítmica de\(X\) y la negativa de la segunda derivada de la función de probabilidad logarítmica de\(X\).

Para\(x \in R\) y\(\theta \in \Theta\) definir\ begin {align} l (x,\ theta) & =\ frac {d} {d\ theta}\ ln\ izquierda (g_\ theta (x)\ derecha)\\ l_2 (x,\ theta) & = -\ frac {d^2} {d\ theta^2}\ ln\ izquierda (g_\ theta (x)\ derecha)\ fin {align}

\(L^2\)se puede escribir en términos de\(l^2\) y se\(L_2\) puede escribir en términos de\(l_2\):

\(\E_\theta\left(L^2(\bs{X}, \theta)\right) = n \E_\theta\left(l^2(X, \theta)\right)\)
\(\E_\theta\left(L_2(\bs{X}, \theta)\right) = n \E_\theta\left(l_2(X, \theta)\right)\)

El siguiente teorema da la segunda versión del límite inferior general de Cramér-Rao sobre la varianza de un estadístico, especializado para muestras aleatorias.

Si\( h(\bs{X}) \) es una estadística entonces

\[ \var_\theta\left(h(\bs{X})\right) \ge \frac{\left(\frac{d}{d\theta} \E_\theta\left(h(\bs{X})\right) \right)^2}{n \E_\theta\left(l^2(X, \theta)\right)} \]

El siguiente teorema da la tercera versión del límite inferior de Cramér-Rao para estimadores imparciales de un parámetro, especializado para muestras aleatorias.

Supongamos ahora que\(\lambda(\theta)\) es un parámetro de interés y\(h(\bs{X})\) es un estimador imparcial de\(\lambda\). Entonces\[ \var_\theta\left(h(\bs{X})\right) \ge \frac{(d\lambda / d\theta)^2}{n \E_\theta\left(l^2(X, \theta)\right)} \]

Tenga en cuenta que el límite inferior de Cramér-Rao varía inversamente con el tamaño de la muestra\(n\). La siguiente versión da la cuarta versión del límite inferior de Cramér-Rao para estimadores imparciales de un parámetro, nuevamente especializados para muestras aleatorias.

Si existen los derivados apropiados y los intercambios apropiados son permisibles) entonces\[ \var_\theta\left(h(\bs{X})\right) \ge \frac{\left(d\lambda / d\theta\right)^2}{n \E_\theta\left(l_2(X, \theta)\right)} \]

Para resumir, tenemos cuatro versiones del límite inferior de Cramér-Rao para la varianza de una estimación imparcial de\(\lambda\): la versión 1 y la versión 2 en el caso general, y la versión 1 y la versión 2 en el caso especial que\(\bs{X}\) es una muestra aleatoria de la distribución de\(X\). Si un estimador ubicado de\(\lambda\) logra el límite inferior, entonces el estimador es un UMVUE.

Ejemplos y Casos Especiales

Aplicaremos los resultados anteriores a varias familias paramétricas de distribuciones. Primero tenemos que recordar alguna notación estándar. Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) a partir de la distribución de una variable aleatoria de valor real\(X\) con media\(\mu\) y varianza\(\sigma^2\). La media de la muestra es\[ M = \frac{1}{n} \sum_{i=1}^n X_i \] Recordemos eso\(\E(M) = \mu\) y\(\var(M) = \sigma^2 / n\). La versión especial de la varianza de muestra, cuando\(\mu\) se conoce, y la versión estándar de la varianza de muestra son, respectivamente,\ begin {align} W^2 & =\ frac {1} {n}\ sum_ {i=1} ^n (x_i -\ mu) ^2\\ S^2 & =\ frac {1} {n - 1}\ sum_ {i=1} ^n (x_i - M) ^2\ end {align}

La distribución de Bernoulli

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de la distribución de Bernoulli con parámetro de éxito desconocido\(p \in (0, 1)\). En el lenguaje habitual de confiabilidad,\(X_i = 1\) significa éxito en juicio\(i\) y\(X_i = 0\) significa fracaso en juicio\(i\); la distribución lleva el nombre de Jacob Bernoulli. Recordemos que la distribución de Bernoulli tiene función de densidad de probabilidad Se satisface\[ g_p(x) = p^x (1 - p)^{1-x}, \quad x \in \{0, 1\} \] la suposición básica. Además, recordemos que la media de la distribución de Bernoulli es\(p\), mientras que la varianza es\(p (1 - p)\).

\(p (1 - p) / n\)es el límite inferior de Cramér-Rao para la varianza de estimadores imparciales de\(p\).

La media muestral\(M\) (que es la proporción de éxitos) alcanza el límite inferior en el ejercicio anterior y por lo tanto es un UMVUE de\(p\).

La distribución de Poisson

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de la distribución de Poisson con parámetro\(\theta \in (0, \infty)\). Recordemos que esta distribución suele utilizarse para modelar el número de puntos aleatorios en una región de tiempo o espacio y se estudia con más detalle en el capítulo sobre el Proceso de Poisson. La distribución de Poisson lleva el nombre de Simeon Poisson y tiene función de densidad de probabilidad Se satisface\[ g_\theta(x) = e^{-\theta} \frac{\theta^x}{x!}, \quad x \in \N \] la suposición básica. Recordemos también que la media y varianza de la distribución son ambas\(\theta\).

\(\theta / n\)es el límite inferior de Cramér-Rao para la varianza de estimadores imparciales de\(\theta\).

La media muestral\(M\) alcanza el límite inferior en el ejercicio anterior y por lo tanto es un UMVUE de\(\theta\).

La distribución normal

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) a partir de la distribución normal con media\(\mu \in \R\) y varianza\(\sigma^2 \in (0, \infty)\). Recordemos que la distribución normal juega un papel especialmente importante en la estadística, en parte por el teorema del límite central. La distribución normal se usa ampliamente para modelar cantidades físicas sujetas a numerosos errores aleatorios pequeños y tiene una función de densidad de probabilidad\[ g_{\mu,\sigma^2}(x) = \frac{1}{\sqrt{2 \, \pi} \sigma} \exp\left[-\left(\frac{x - \mu}{\sigma}\right)^2 \right], \quad x \in \R\]

El supuesto básico se satisface con respecto a ambos parámetros. Recordemos también que el cuarto momento central es\(\E\left((X - \mu)^4\right) = 3 \, \sigma^4\).

\(\sigma^2 / n\)es el límite inferior de Cramér-Rao para la varianza de estimadores imparciales de\(\mu\).

La media muestral\(M\) alcanza el límite inferior en el ejercicio anterior y por lo tanto es un UMVUE de\(\mu\).

\(\frac{2 \sigma^4}{n}\)es el límite inferior de Cramér-Rao para la varianza de estimadores imparciales de\(\sigma^2\).

La varianza muestral\(S^2\) tiene varianza\(\frac{2 \sigma^4}{n-1}\) y por lo tanto no alcanza el límite inferior en el ejercicio anterior.

Si\(\mu\) se conoce, entonces la varianza especial de la muestra\(W^2\) alcanza el límite inferior anterior y por lo tanto es un UMVUE de\(\sigma^2\).

Si\(\mu\) se desconoce, ningún estimador imparcial de\(\sigma^2\) alcanza el límite inferior de Cramér-Rao arriba.

Prueba

Esto se desprende del resultado anterior sobre igualdad en la desigualdad Cramér-Rao.

La distribución Gamma

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) a partir de la distribución gamma con parámetro de forma conocido\(k \gt 0\) y parámetro de escala desconocido\(b \gt 0\). La distribución gamma se utiliza a menudo para modelar tiempos aleatorios y ciertos otros tipos de variables aleatorias positivas, y se estudia con más detalle en el capítulo sobre Distribuciones especiales. La función de densidad de probabilidad es\[ g_b(x) = \frac{1}{\Gamma(k) b^k} x^{k-1} e^{-x/b}, \quad x \in (0, \infty) \] La suposición básica se satisface con respecto a\(b\). Además, la media y varianza de la distribución gamma son\(k b\) y\(k b^2\), respectivamente.

\(\frac{b^2}{n k}\)es el límite inferior de Cramér-Rao para la varianza de estimadores imparciales de\(b\).

\(\frac{M}{k}\)alcanza el límite inferior en el ejercicio anterior y por lo tanto es un UMVUE de\(b\).

La distribución beta

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria\(n\) de tamaño de la distribución beta con parámetro izquierdo\(a \gt 0\) y parámetro derecho\(b = 1\). Las distribuciones beta son ampliamente utilizadas para modelar proporciones aleatorias y otras variables aleatorias que toman valores en intervalos acotados, y se estudian con más detalle en el capítulo sobre Distribuciones especiales. En nuestro caso especializado, la función de densidad de probabilidad de la distribución muestral es\[ g_a(x) = a \, x^{a-1}, \quad x \in (0, 1) \]

El supuesto básico se satisface con respecto a\(a\).

La media y varianza de la distribución son

\(\mu = \frac{a}{a+1}\)
\(\sigma^2 = \frac{a}{(a + 1)^2 (a + 2)}\)

El límite inferior de Cramér-Rao para la varianza de estimadores imparciales de\(\mu\) is\(\frac{a^2}{n \, (a + 1)^4}\).

La media muestral\(M\) no alcanza el límite inferior de Cramér-Rao en el ejercicio anterior, y por lo tanto no es un UMVUE de\(\mu\).

La distribución uniforme

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) a partir de la distribución uniforme sobre\([0, a]\) dónde\(a \gt 0\) está el parámetro desconocido. Así, la función de densidad de probabilidad de la distribución de muestreo es\[ g_a(x) = \frac{1}{a}, \quad x \in [0, a] \]

No se satisface el supuesto básico.

El límite inferior de Cramér-Rao para la varianza de estimadores imparciales de\(a\) is\(\frac{a^2}{n}\). Por supuesto, el Teorema de Cramér-Rao no aplica, por el ejercicio anterior.

Recordemos que\(V = \frac{n+1}{n} \max\{X_1, X_2, \ldots, X_n\}\) es imparcial y tiene varianza\(\frac{a^2}{n (n + 2)}\). Esta varianza es menor que el límite de Cramér-Rao en el ejercicio anterior.

La razón por la que no se satisface la suposición básica es que el conjunto de soporte\(\left\{x \in \R: g_a(x) \gt 0\right\}\) depende del parámetro\(a\).

Mejores Estimadores Lineales Imsesgados

Consideramos ahora un problema algo especializado, pero uno que se ajuste al tema general de esta sección. Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una secuencia de variables aleatorias observables de valor real que no están correlacionadas y tienen la misma media desconocida\(\mu \in \R\), pero posiblemente diferentes desviaciones estándar. Vamos a\(\bs{\sigma} = (\sigma_1, \sigma_2, \ldots, \sigma_n)\) donde\(\sigma_i = \sd(X_i)\) para\(i \in \{1, 2, \ldots, n\}\).

Consideraremos estimadores de\(\mu\) que son funciones lineales de las variables de resultado. Específicamente, consideraremos estimadores de la siguiente forma, donde se va a determinar el vector de coeficientes\(\bs{c} = (c_1, c_2, \ldots, c_n)\):\[ Y = \sum_{i=1}^n c_i X_i \]

\(Y\)es imparcial si y solo si\(\sum_{i=1}^n c_i = 1\).

La varianza de\(Y\) es\[ \var(Y) = \sum_{i=1}^n c_i^2 \sigma_i^2 \]

La varianza se minimiza, sujeta a la restricción imparcial, cuando\[ c_j = \frac{1 / \sigma_j^2}{\sum_{i=1}^n 1 / \sigma_i^2}, \quad j \in \{1, 2, \ldots, n\} \]

Prueba

Utilice el método de multiplicadores Lagrange (llamado así por Joseph-Louis Lagrange).

Este ejercicio muestra cómo construir el Mejor Estimador Lineal Imsesgado (AZUL) de\(\mu\), asumiendo que\(\bs{\sigma}\) se conoce el vector de desviaciones estándar.

Supongamos ahora\(i \in \{1, 2, \ldots, n\}\) que\(\sigma_i = \sigma\) para que las variables de resultado tengan la misma desviación estándar. En particular, este sería el caso si las variables de resultado forman una muestra aleatoria de tamaño\(n\) a partir de una distribución con media\(\mu\) y desviación estándar\(\sigma\).

En este caso se minimiza la varianza cuando\(c_i = 1 / n\) para cada uno\(i\) y por lo tanto\(Y = M\), la media muestral.

Este ejercicio muestra que la media muestral\(M\) es el mejor estimador lineal imparcial de\(\mu\) cuando las desviaciones estándar son las mismas, y que además, no necesitamos conocer el valor de la desviación estándar.