Saltar al contenido principal
LibreTexts Español

7.6: Estadísticas suficientes, completas y auxiliares

  • Page ID
    152043
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\Z}{\mathbb{Z}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)\(\newcommand{\bias}{\text{bias}}\)\(\newcommand{\MSE}{\text{MSE}}\)\(\newcommand{\bs}{\boldsymbol}\)

    Teoría Básica

    El modelo estadístico básico

    Consideremos nuevamente el modelo estadístico básico, en el que tenemos un experimento aleatorio con una variable aleatoria observable\(\bs X\) tomando valores en un conjunto\(S\). Una vez más, el experimento es típicamente para muestrear\(n\) objetos de una población y registrar una o más mediciones para cada ítem. En este caso, la variable de resultado tiene la forma\[ \bs X = (X_1, X_2, \ldots, X_n) \] donde\(X_i\) está el vector de mediciones para el ítem\(i\) th. En general, suponemos que la distribución de\(\bs X\) depende de que un parámetro\(\theta\) tome valores en un espacio de parámetros\(T\). El parámetro también\(\theta\) puede ser vectorizado. A veces usaremos subíndices en funciones de densidad de probabilidad, valores esperados, etc. para denotar la dependencia de\(\theta\).

    Como es habitual, el caso especial más importante\(\bs X\) es cuando se trata de una secuencia de variables aleatorias independientes, distribuidas idénticamente. En este caso\(\bs X\) es una muestra aleatoria de la distribución común.

    Estadísticas Suficientes

    Dejar\(U = u(\bs X)\) ser una estadística tomando valores en un conjunto\(R\). Intuitivamente,\(U\) es suficiente para\(\theta\) si\(U\) contiene toda la información sobre\(\theta\) eso está disponible en toda la variable de datos\(\bs X\). Aquí está la definición formal:

    Un estadístico\(U\) es suficiente para\(\theta\) si la distribución condicional de\(\bs X\) dado\(U\) no depende de\(\theta \in T\).

    La suficiencia está relacionada con el concepto de reducción de datos. Supongamos que\(\bs X\) toma valores en\(\R^n\). Si podemos encontrar una estadística suficiente\(\bs U\) que tome valores\(\R^j\), entonces podemos reducir el vector de datos original\(\bs X\) (cuya dimensión\(n\) suele ser grande) al vector de estadísticas\(\bs U\) (cuya dimensión\(j\) suele ser mucho más pequeña) sin pérdida de información sobre el parámetro\(\theta\).

    El siguiente resultado da una condición de suficiencia que es equivalente a esta definición.

    Let\(U = u(\bs X)\) Ser una estadística tomando valores\(R\), y let\(f_\theta\) y\(h_\theta\) denotar las funciones de densidad de probabilidad de\(\bs X\) y\(U\) respectivamente. Entonces\(U\) es suficiente para si y solo\(\theta\) si la función en\( S \) dada a continuación no depende de\( \theta \in T \):\[ \bs x \mapsto \frac{f_\theta(\bs x)}{h_\theta[u(\bs x)]} \]

    Prueba

    La distribución conjunta de\((\bs X, U)\) se concentra en el conjunto\(\{(\bs x, y): \bs x \in S, y = u(\bs x)\} \subseteq S \times R\). El PDF condicional de\(\bs X\) dado\(U = u(\bs x)\) está\(f_\theta(\bs x) \big/ h_\theta[u(\bs x)]\) en este conjunto, y es 0 en caso contrario.

    La definición captura con precisión la noción intuitiva de suficiencia dada anteriormente, pero puede ser difícil de aplicar. Debemos conocer de antemano una estadística de candidatos\(U\), y luego debemos ser capaces de computar la distribución condicional de\(\bs X\) dado\(U\). El teorema de factorización de Fisher-Neyman dado a continuación a menudo permite la identificación de una estadística suficiente a partir de la forma de la función de densidad de probabilidad de\(\bs X\). Se llama así por Ronald Fisher y Jerzy Neyman.

    Teorema de Factorización de Fisher-Neyman. Let\(f_\theta\) denotar la función de densidad de probabilidad de\(\bs X\) y supongamos que\(U = u(\bs X)\) es una estadística tomando valores en\(R\). Entonces\(U\) es suficiente para\(\theta\) si y solo si existe\(G: R \times T \to [0, \infty)\) y\(r: S \to [0, \infty)\) tal que\[ f_\theta(\bs x) = G[u(\bs x), \theta] r(\bs x); \quad \bs x \in S, \; \theta \in T \]

    Prueba

    Vamos a\( h_\theta \) denotar el PDF de\( U \) para\( \theta \in T \). Si\( U \) es suficiente para\( \theta \), entonces del teorema anterior, la función\( r(\bs x) = f_\theta(\bs x) \big/ h_\theta[u(\bs x)] \) for\( \bs x \in S\) no depende de\( \theta \in T \). De ahí\( f_\theta(\bs x) = h_\theta[u(\bs x)] r(\bs x) \) para\( (\bs x, \theta) \in S \times T \) y así lo\((\bs x, \theta) \mapsto f_\theta(\bs x) \) ha hecho la forma dada en el teorema. Por el contrario, supongamos que\( (\bs x, \theta) \mapsto f_\theta(\bs x) \) tiene la forma dada en el teorema. Entonces existe una constante positiva\( C \) tal que\( h_\theta(y) = C G(y, \theta) \) para\( \theta \in T \) y\( y \in R \). De ahí\( f_\theta(\bs x) \big/ h_\theta[u(x)] = r(\bs x) / C\) para\( \bs x \in S \), independiente de\( \theta \in T \).

    Tenga en cuenta que\(r\) depende sólo de los datos\(\bs x\) pero no del parámetro\(\theta\). Menos técnicamente,\(u(\bs X)\) es suficiente para\(\theta\) si la función de densidad de probabilidad\(f_\theta(\bs x)\) depende del vector de datos\(\bs x\) y el parámetro\(\theta\) sólo a través de\(u(\bs x)\).

    Si\(U\) y\(V\) son estadísticas equivalentes y\(U\) es suficiente para\(\theta\) entonces\(V\) es suficiente para\(\theta\).

    Estadísticas Mínimas Suficientes

    Toda la variable de datos\(\bs X\) es trivialmente suficiente para\(\theta\). Sin embargo, como se señaló anteriormente, generalmente existe una estadística\(U\) que es suficiente\(\theta\) y tiene una dimensión más pequeña, para que podamos lograr una reducción real de datos. Naturalmente, nos gustaría encontrar la estadística\(U\) que tenga la dimensión más pequeña posible. En muchos casos, esta dimensión más pequeña\(j\) será la misma que la dimensión\(k\) del vector de parámetros\(\theta\). No obstante, como veremos, este no es necesariamente el caso;\(j\) puede ser menor o mayor que\(k\). Un ejemplo basado en la distribución uniforme se da en (38).

    Supongamos que una estadística\(U\) es suficiente para\(\theta\). Entonces\(U\) es mínimamente suficiente si\(U\) es una función de cualquier otra estadística\(V\) que sea suficiente para\(\theta\).

    Una vez más, la definición capta con precisión la noción de suficiencia mínima, pero es difícil de aplicar. El siguiente resultado da una condición equivalente.

    Dejemos\(f_\theta\) denotar la función de densidad de probabilidad de\(\bs X\) correspondiente al valor del parámetro\(\theta \in T\) y supongamos que\(U = u(\bs X)\) es una estadística tomando valores en\(R\). Entonces\(U\) es mínimamente suficiente para\(\theta\) si se mantiene la siguiente condición: para\(\bs x \in S\) y\(\bs y \in S\)\[ \frac{f_\theta(\bs x)}{f_\theta(\bs{y})} \text{ is independent of } \theta \text{ if and only if } u(\bs x) = u(\bs{y}) \]

    Prueba

    Supongamos que se cumple la condición en el teorema. Entonces el PDF\(f_\theta\) de\( \bs X \) debe tener la forma dada en el teorema de factorización (3) así\(U\) es suficiente para\(\theta\). A continuación, supongamos que\(V = v(\bs X)\) es otra estadística suficiente para\( \theta \), tomando valores en\( R \). Del teorema de factorización, existe\( G: R \times T \to [0, \infty) \) y\( r: S \to [0, \infty) \) tal que\( f_\theta(\bs x) = G[v(\bs x), \theta] r(\bs x) \) para\( (\bs x, \theta) \in S \times T \). De ahí si\( \bs x, \bs y \in S \) y\( v(\bs x) = v(\bs y) \) entonces\[\frac{f_\theta(\bs x)}{f_\theta(\bs{y})} = \frac{G[v(\bs x), \theta] r(\bs x)}{G[v(\bs{y}), \theta] r(\bs{y})} = \frac{r(\bs x)}{r(\bs y)}\] no depende de\( \theta \in \Theta \). De ahí a partir de la condición en el teorema,\( u(\bs x) = u(\bs y) \) y se deduce que\( U \) es una función de\( V \).

    Si\(U\) y\(V\) son estadísticas equivalentes y\(U\) es mínimamente suficiente para\(\theta\) entonces\(V\) es mínimamente suficiente para\(\theta\).

    Propiedades de Estadísticas Suficientes

    La suficiencia se relaciona con varios de los métodos de construcción de estimadores que hemos estudiado.

    Supongamos que\(U\) es suficiente para\(\theta\) y que existe un estimador de máxima verosimilitud de\(\theta\). Entonces existe un estimador de máxima verosimilitud\(V\) que es función de\(U\).

    Prueba

    Del teorema de factorización (3), la función de verosimilitud logarítmica para\( \bs x \in S \) es\[\theta \mapsto \ln G[u(\bs x), \theta] + \ln r(\bs x)\] De ahí\(\theta\) que un valor de que maximice esta función, si existe, debe ser una función de\(u(\bs x)\).

    En particular, supongamos que\(V\) es el estimador único de máxima verosimilitud de\(\theta\) y que\(V\) es suficiente para\(\theta\). Si\(U\) es suficiente para\(\theta\) entonces\(V\) es una función de\(U\) por el teorema anterior. De ahí se deduce que\(V\) es mínimamente suficiente para\(\theta\). Nuestro siguiente resultado se aplica al análisis bayesiano.

    Supongamos que la estadística\(U = u(\bs X)\) es suficiente para el parámetro\(\theta\) y que\( \theta \) es modelada por una variable aleatoria\( \Theta \) con valores en\( T \). Entonces la distribución posterior de\( \Theta \) dado\( \bs X = \bs x \in S \) es una función de\( u(\bs x) \).

    Prueba

    Dejar\( h \) denotar el PDF previo de\( \Theta \) y\( f(\cdot \mid \theta) \) el PDF condicional de\( \bs X \) dado\( \Theta = \theta \in T \). Por el teorema de factorización (3), este PDF condicional tiene la forma\( f(\bs x \mid \theta) = G[u(\bs x), \theta] r(\bs x) \) para\( \bs x \in S \) y\( \theta \in T \). El PDF posterior de\( \Theta \) dado\( \bs X = \bs x \in S \) es\[ h(\theta \mid \bs x) = \frac{h(\theta) f(\bs x \mid \theta)}{f(\bs x)}, \quad \theta \in T \] donde la función en el denominador es la PDF marginal de\( \bs X \), o simplemente la constante normalizadora para la función de\( \theta \) en el numerador. Supongamos que\( \Theta \) tiene una distribución continua encendida\( T \), así que\( f(\bs x) = \int_T h(t) G[u(\bs x), t] r(\bs x) dt \) para\( \bs x \in S \). Entonces el PDF posterior se simplifica a\[ h(\theta \mid \bs x) = \frac{h(\theta) G[u(\bs x), \theta]}{\int_T h(t) G[u(\bs x), t] dt} \] lo que depende\(\bs x \in S \) sólo a través\( u(\bs x) \).

    Continuando con el establecimiento del análisis bayesiano, supongamos que\( \theta \) se trata de un parámetro de valor real. Si usamos la función de pérdida media cuadrada habitual, entonces el estimador bayesiano lo es\( V = \E(\Theta \mid \bs X) \). Por el resultado anterior,\( V \) es una función de las estadísticas suficientes\( U \). Es decir,\( \E(\Theta \mid \bs X) = \E(\Theta \mid U) \).

    El siguiente resultado es el teorema de Rao-Blackwell, llamado así por CR Rao y David Blackwell. El teorema muestra cómo se puede utilizar una estadística suficiente para mejorar un estimador imparcial.

    Teorema de Rao-Blackwell. Supongamos que eso\(U\)\(V\) es suficiente para\(\theta\) y que es un estimador imparcial de un parámetro real\(\lambda = \lambda(\theta)\). Entonces también\(\E_\theta(V \mid U)\) es un estimador imparcial de\( \lambda \) y es uniformemente mejor que\(V\).

    Prueba

    Esto se desprende de las propiedades básicas del valor esperado condicional y la varianza condicional. Primero, ya que\(V\) es una función de\(\bs X\) y\(U\)\(\E_\theta(V \mid U)\) es suficiente para\(\theta\), es una estadística válida; es decir, no depende de\(\theta\), a pesar de la dependencia\(\theta\) formal del valor esperado. Siguiente,\(\E_\theta(V \mid U)\) es una función de\(U\) y\(\E_\theta[\E_\theta(V \mid U)] = \E_\theta(V) = \lambda\) para\(\theta \in \Theta\). Así\(\E_\theta(V \mid U)\) es un estimador imparcial de\(\lambda\). Por último\(\var_\theta[\E_\theta(V \mid U)] = \var_\theta(V) - \E_\theta[\var_\theta(V \mid U)] \le \var_\theta(V)\) para cualquiera\(\theta \in T\).

    Estadísticas Completas

    Supongamos que\(U = u(\bs X)\) es una estadística tomando valores en un conjunto\(R\). Entonces\(U\) es una estadística completa para\(\theta\) si para alguna función\(r: R \to \R\)\[ \E_\theta\left[r(U)\right] = 0 \text{ for all } \theta \in T \implies \P_\theta\left[r(U) = 0\right] = 1 \text{ for all } \theta \in T \]

    Para entender esta condición de aspecto bastante extraño, supongamos que\(r(U)\) es una estadística construida a partir de la\(U\) que se está utilizando como estimador de 0 (pensado como una función de\(\theta\)). La condición de integridad significa que el único estimador imparcial de este tipo es el estadístico que es 0 con probabilidad 1.

    Si\(U\) y\(V\) son estadísticas equivalentes y\(U\) está completo para\(\theta\) entonces\(V\) está completo para\(\theta\).

    El siguiente resultado muestra la importancia de las estadísticas que son a la vez completas y suficientes; se le conoce como el teorema de Lehmann-Scheffé, llamado así por Erich Lehmann y Henry Scheffé.

    Teorema de Lehmann-Scheffé. Supongamos que\(U\) es suficiente\(\theta\) y completo para y que\(V = r(U)\) es un estimador imparcial de un parámetro real\(\lambda = \lambda(\theta)\). Entonces\(V\) es un estimador imparcial de varianza mínima uniforme (UMVUE) de\(\lambda\).

    Prueba

    Supongamos que\(W\) es un estimador imparcial de\(\lambda\). Por el teorema de Rao-Blackwell (10), también\(\E(W \mid U)\) es un estimador imparcial de\(\lambda\) y es uniformemente mejor que\(W\). Ya que\(\E(W \mid U)\) es una función de\(U\), se deduce de la completitud que\(V = \E(W \mid U)\) con probabilidad 1.

    Estadísticas auxiliares

    Supongamos que\(V = v(\bs X)\) es una estadística tomando valores en un conjunto\(R\). Si la distribución de\(V\) no depende de\(\theta\), entonces\(V\) se llama estadística auxiliar para\(\theta\).

    Así, la noción de estadística auxiliar es complementaria a la noción de estadística suficiente. Una estadística suficiente contiene toda la información disponible sobre el parámetro; una estadística auxiliar no contiene información sobre el parámetro. El siguiente resultado, conocido como Teorema de Basu y llamado así por Debabrata Basu, hace que este punto sea más preciso.

    Teorema de Basu. Supongamos que\(U\) es completo y suficiente para un parámetro\(\theta\) y que\(V\) es una estadística auxiliar para\( \theta \). Entonces\(U\) y\(V\) son independientes.

    Prueba

    Let\(g\) denotar la función de densidad de probabilidad de\(V\) y let\(v \mapsto g(v \mid U)\) denotar la función de densidad de probabilidad condicional de\(V\) dado\(U\). A partir de propiedades de valor esperado condicional,\(\E[g(v \mid U)] = g(v)\) para\(v \in R\). Pero luego de la completitud,\(g(v \mid U) = g(v)\) con probabilidad 1.

    Si\(U\) y\(V\) son estadísticas equivalentes y\(U\) es auxiliar para\(\theta\) entonces\(V\) es auxiliar para\(\theta\).

    Aplicaciones y distribuciones especiales

    En esta subsección, exploraremos estadísticas suficientes, completas y auxiliares para una serie de distribuciones especiales. Como siempre, asegúrate de probar los problemas tú mismo antes de mirar las soluciones.

    La distribución de Bernoulli

    Recordemos que la distribución de Bernoulli con parámetro\(p \in (0, 1)\) es una distribución discreta\( \{0, 1\} \) con función de densidad de probabilidad\( g \) definida por\[ g(x) = p^x (1 - p)^{1-x}, \quad x \in \{0, 1\} \] Supongamos que\(\bs X = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de la distribución de Bernoulli con parámetro\(p\). Equivalentemente,\(\bs X\) es una secuencia de ensayos de Bernoulli, de manera que en el lenguaje habitual de confiabilidad,\(X_i = 1\) si el juicio\(i\) es un éxito, y\(X_i = 0\) si el juicio\(i\) es un fracaso. La distribución de Bernoulli lleva el nombre de Jacob Bernoulli y se estudia con más detalle en el capítulo sobre los juicios de Bernoulli

    Vamos a\(Y = \sum_{i=1}^n X_i\) denotar el número de éxitos. Recordemos que\(Y\) tiene la distribución binomial con parámetros\(n\) y\(p\), y tiene la función de densidad de probabilidad\( h \) definida por\[ h(y) = \binom{n}{y} p^y (1 - p)^{n-y}, \quad y \in \{0, 1, \ldots, n\} \]

    \(Y\)es suficiente para\(p\). Específicamente, para\( y \in \{0, 1, \ldots, n\} \), la distribución condicional de\(\bs X\) dado\(Y = y\) es uniforme sobre el conjunto de puntos\[ D_y = \left\{(x_1, x_2, \ldots, x_n) \in \{0, 1\}^n: x_1 + x_2 + \cdots + x_n = y\right\} \]

    Prueba

    El PDF conjunto\( f \) de\( \bs X \) se define por\[ f(\bs x) = g(x_1) g(x_2) \cdots g(x_n) = p^y (1 - p)^{n-y}, \quad \bs x = (x_1, x_2, \ldots, x_n) \in \{0, 1\}^n \] donde\( y = \sum_{i=1}^n x_i \). Ahora vamos\( y \in \{0, 1, \ldots, n\} \). Dado\( Y = y \),\( \bs X \) se concentra en\( D_y \) y por\[ \P(\bs X = \bs x \mid Y = y) = \frac{\P(\bs X = \bs x)}{\P(Y = y)} = \frac{p^y (1 - p)^{n-y}}{\binom{n}{y} p^y (1 - p)^{n-y}} = \frac{1}{\binom{n}{y}}, \quad \bs x \in D_y \] supuesto,\( \binom{n}{y} \) es la cardinalidad de\(D_y\).

    Este resultado es intuitivamente atractivo: en una secuencia de ensayos de Bernoulli, toda la información sobre la probabilidad de éxito\(p\) está contenida en el número de éxitos\(Y\). El orden particular de los éxitos y fracasos no proporciona información adicional. Por supuesto, la suficiencia de se\(Y\) desprende más fácilmente del teorema de factorización (3), pero la distribución condicional proporciona una visión adicional.

    \(Y\)está completo para\(p\) en el espacio de parámetros\( (0, 1) \).

    Prueba

    Si\(r: \{0, 1, \ldots, n\} \to \R\), entonces\[\E[r(Y)] = \sum_{y=0}^n r(y) \binom{n}{k} p^y (1 - p)^{n-y} = (1 - p)^n \sum_{y=0}^n r(y) \binom{n}{y} \left(\frac{p}{1 - p}\right)^y\] La última suma es un polinomio en la variable\(t = \frac{p}{1 - p} \in (0, \infty)\). Si este polinomio es 0 para todos\(t \in (0, \infty)\), entonces todos los coeficientes deben ser 0. De ahí que debemos tener\( r(y) = 0 \) para\( y \in \{0, 1, \ldots, n\} \).

    La prueba del último resultado realmente muestra que si el espacio de parámetros es cualquier subconjunto de\( (0, 1) \) contener un intervalo de longitud positiva, entonces\( Y \) está completo para\( p \). Pero la noción de integridad depende en gran medida del espacio de parámetros. El siguiente resultado considera el caso donde\(p\) tiene un conjunto finito de valores.

    Supongamos que el espacio de parámetros\( T \subset (0, 1) \) es un conjunto finito con\( k \in \N_+ \) elementos. Si el tamaño de la muestra\(n \) es al menos\( k \), entonces no\(Y\) está completo para\(p\).

    Prueba

    Supongamos eso\( r: \{0, 1, \ldots, n\} \to \R \) y aquello\( \E[r(Y)] = 0 \) para\( p \in T \). Entonces tenemos\[ \sum_{y=0}^n \binom{n}{y} p^y (1 - p)^{n-y} r(y) = 0, \quad p \in T \] Este es un conjunto de ecuaciones\( k \) lineales, homogéneas en las variables\( (r(0), r(1), \ldots, r(n)) \). Ya que\( n \ge k \), tenemos al menos\( k + 1 \) variables, por lo que hay infinitamente muchas soluciones no triviales.

    La media de la muestra\(M = Y / n\) (la proporción muestral de éxitos) es claramente equivalente a\( Y \) (el número de éxitos), y por lo tanto también es suficiente para\( p \) y está completa para\(p \in (0, 1)\). Recordemos que la media muestral\( M \) es el método de estimador de momentos de\( p \), y es el estimador de máxima verosimilitud de\( p \) en el espacio de parámetros\( (0, 1) \).

    En el análisis bayesiano, el enfoque habitual es modelar\( p \) con una variable aleatoria\( P \) que tenga una distribución beta previa con parámetro izquierdo\( a \in (0, \infty) \) y parámetro derecho\( b \in (0, \infty) \). Entonces la distribución posterior de\( P \) dado\( \bs X \) es beta con parámetro izquierdo\( a + Y \) y parámetro derecho\( b + (n - Y) \). La distribución posterior depende de los datos únicamente a través de la estadística suficiente\( Y \), como lo garantiza el teorema (9).

    La varianza de la muestra\( S^2 \) es un UMVUE de la varianza de distribución\( p (1 - p) \) para\( p \in (0, 1) \), y se puede escribir como\[ S^2 = \frac{Y}{n - 1} \left(1 - \frac{Y}{n}\right) \]

    Prueba

    Recordemos que la varianza muestral se puede escribir como\[S^2 = \frac{1}{n - 1} \sum_{i=1}^n X_i^2 - \frac{n}{n - 1} M^2\] Pero\(X_i^2 = X_i\) ya que\(X_i\) es una variable indicadora, y\(M = Y / n\). Sustituyendo da la representación anterior. En general,\(S^2\) es un estimador imparcial de la varianza de distribución\(\sigma^2\). Pero en este caso,\(S^2\) es una función de la estadística completa, suficiente\(Y\), y de ahí por el teorema de Lehmann Scheffé (13),\(S^2\) es un UMVUE de\(\sigma^2 = p (1 - p)\).

    La distribución de Poisson

    Recordemos que la distribución de Poisson con parámetro\(\theta \in (0, \infty)\) es una distribución discreta\( \N \) con función de densidad de probabilidad\( g \) definida por\[ g(x) = e^{-\theta} \frac{\theta^x}{x!}, \quad x \in \N \] La distribución de Poisson se nombra para Simeon Poisson y se utiliza para modelar el número de puntos aleatorios en la región de tiempo o espacio, bajo ciertas condiciones ideales. El parámetro\(\theta\) es proporcional al tamaño de la región, y es tanto la media como la varianza de la distribución. La distribución de Poisson se estudia con más detalle en el capítulo sobre el proceso de Poisson.

    Supongamos ahora que\(\bs X = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de la distribución de Poisson con parámetro\(\theta\). Recordemos que la suma de las puntuaciones\(Y = \sum_{i=1}^n X_i\) también tiene la distribución de Poisson, pero con parámetro\(n \theta\).

    El estadístico\(Y\) es suficiente para\(\theta\). Específicamente, para\( y \in \N \), la distribución condicional de\( \bs X \) dado\( Y = y \) es la distribución multinomial con\( y \) ensayos, valores de\( n \) ensayo y probabilidades de ensayo uniformes.

    Prueba

    El PDF conjunto\( f \) de\( \bs X \) se define por\[ f(\bs x) = g(x_1) g(x_2) \cdot g(x_n) = \frac{e^{-n \theta} \theta^y}{x_1! x_2! \cdots x_n!}, \quad \bs x = (x_1, x_2, \ldots, x_n) \in \N^n \] donde\( y = \sum_{i=1}^n x_i \). Dado\( Y = y \in \N \), vector aleatorio\( \bs X \) toma valores en el conjunto\(D_y = \left\{\bs x = (x_1, x_2, \ldots, x_n) \in \N^n: \sum_{i=1}^n x_i = y\right\}\). Por otra parte,\[\P(\bs X = \bs x \mid Y = y) = \frac{\P(\bs X = \bs x)}{\P(Y = y)} = \frac{e^{-n \theta} \theta^y / (x_1! x_2! \cdots x_n!)}{e^{-n \theta} (n \theta)^y / y!} = \frac{y!}{x_1! x_2! \cdots x_n!} \frac{1}{n^y}, \quad \bs x \in D_y\] La última expresión es el PDF de la distribución multinomial aseverada en el teorema. Por supuesto, lo importante es que la distribución condicional no depende de ello\( \theta \).

    Como antes, es más fácil usar el teorema de factorización para probar la suficiencia de\( Y \), pero la distribución condicional da alguna visión adicional.

    \(Y\)está completo para\(\theta \in (0, \infty)\).

    Prueba

    Si\(r: \N \to \R\) entonces\[\E\left[r(Y)\right] = \sum_{y=0}^\infty e^{-n \theta} \frac{(n \theta)^y}{y!} r(y) = e^{-n \theta} \sum_{y=0}^\infty \frac{n^y}{y!} r(y) \theta^y\] La última suma es una serie de potencias en\(\theta\) con coeficientes\( n^y r(y) / y! \) para\( y \in \N \). Si esta serie es 0 para todos\(\theta\) en un intervalo abierto, entonces los coeficientes deben ser 0 y por lo tanto\( r(y) = 0 \) para\( y \in \N \).

    Al igual que con nuestra discusión sobre los ensayos de Bernoulli, la media de la muestra\( M = Y / n \) es claramente equivalente\( Y \) y, por lo tanto, también es suficiente para\( \theta \) y completa para\( \theta \in (0, \infty) \). Recordemos que\( M \) es el método de estimador de momentos de\( \theta \) y es el estimador de máxima verosimilitud en el espacio de parámetros\( (0, \infty) \).

    Un UMVUE del parámetro\(\P(X = 0) = e^{-\theta}\) para\( \theta \in (0, \infty) \) es\[ U = \left( \frac{n-1}{n} \right)^Y \]

    Prueba

    La función generadora de probabilidad de\(Y\) es\[ P(t) = \E(t^Y) = e^{n \theta(t - 1)}, \quad t \in \R \] Por\[ \E\left[\left(\frac{n - 1}{n}\right)^Y\right] = \exp \left[n \theta \left(\frac{n - 1}{n} - 1\right)\right] = e^{-\theta}, \quad \theta \in (0, \infty) \] lo tanto, So\( U = [(n - 1) / n]^Y \) es un estimador imparcial de\( e^{-\theta} \). Dado que\( U \) es una función de la estadística completa, suficiente\( Y \), se desprende del teorema de Lehmann Scheffé (13) que\( U \) es un UMVUE de\( e^{-\theta} \).

    La distribución normal

    Recordemos que la distribución normal con media\(\mu \in \R\) y varianza\(\sigma^2 \in (0, \infty)\) es una distribución continua\( \R \) con función de densidad de probabilidad\( g \) definida por\[ g(x) = \frac{1}{\sqrt{2 \, \pi} \sigma} \exp\left[-\frac{1}{2}\left(\frac{x - \mu}{\sigma}\right)^2\right], \quad x \in \R \] La distribución normal a menudo se usa para modelar cantidades físicas sujetas a pequeños, errores aleatorios, y se estudia con más detalle en el capítulo sobre Distribuciones Especiales. Debido al teorema del límite central, la distribución normal es quizás la distribución más importante en la estadística.

    Supongamos que\(\bs X = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución normal con media\(\mu\) y varianza\(\sigma^2\). Entonces cada uno de los siguientes pares de estadísticas es mínimamente suficiente para\( (\mu, \sigma^2) \)

    1. \((Y, V)\)dónde\(Y = \sum_{i=1}^n X_i\) y\(V = \sum_{i=1}^n X_i^2\).
    2. \(\left(M, S^2\right)\)donde\(M = \frac{1}{n} \sum_{i=1}^n X_i\) es la media de la muestra y\(S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - M)^2\) es la varianza de la muestra.
    3. \( (M, T^2) \)donde\( T^2 = \frac{1}{n} \sum_{i=1}^n (X_i - M)^2 \) está la varianza de la muestra sesgada.
    Prueba
    1. El PDF conjunto\( f \) de\( \bs X \) es dado por\[ f(\bs x) = g(x_1) g(x_2) \cdots g(x_n) = \frac{1}{(2 \pi)^{n/2} \sigma^n} \exp\left[-\frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \mu)^2\right], \quad \bs x = (x_1, x_2 \ldots, x_n) \in \R^n \] Después de algún álgebra, esto puede escribirse como\[ f(\bs x) = \frac{1}{(2 \pi)^{n/2} \sigma^n} e^{-n \mu^2 / \sigma^2} \exp\left(-\frac{1}{2 \sigma^2} \sum_{i=1}^n x_i^2 + \frac{2 \mu}{\sigma^2} \sum_{i=1}^n x_i \right), \quad \bs x = (x_1, x_2 \ldots, x_n) \in \R^n\] Se deduce del teorema de factorización (3) que\( (Y, V) \) es suficiente para\(\left(\mu, \sigma^2\right)\). La suficiencia mínima se desprende de la condición en teorema (6).
    2. Tenga en cuenta que\( M = \frac{1}{n} Y, \; S^2 = \frac{1}{n - 1} V - \frac{n}{n - 1} M^2\). De ahí\(\left(M, S^2\right)\) que sea equivalente a\( (Y, V) \) y por lo tanto también\(\left(M, S^2\right)\) es mínimamente suficiente para\(\left(\mu, \sigma^2\right)\).
    3. De igual manera,\( M = \frac{1}{n} Y \) y\( T^2 = \frac{1}{n} V - M^2 \). De ahí\( (M, T^2) \) que sea equivalente a\( (Y, V) \) y por lo tanto también\( (M, T^2) \) es mínimamente suficiente para\( (\mu, \sigma^2) \).

    Recordemos que\( M \) y\( T^2 \) son el método de los estimadores de momentos de\( \mu \) y\( \sigma^2 \), respectivamente, y también son los estimadores de máxima verosimilitud en el espacio de parámetros\( \R \times (0, \infty) \).

    Ejecutar el experimento de estimación normal 1000 veces con diversos valores de los parámetros. Comparar las estimaciones de los parámetros en términos de sesgo y error cuadrático medio.

    En ocasiones se conoce\( \sigma^2 \) la varianza de la distribución normal, pero no la media\( \mu \). Rara vez es el caso el que\( \mu \) se conoce pero no\( \sigma^2 \). No obstante, podemos dar suficientes estadísticas en ambos casos.

    Supongamos nuevamente que\( \bs X = (X_1, X_2, \ldots, X_n) \) es una muestra aleatoria de la distribución normal con media\( \mu \in \R \) y varianza\( \sigma^2 \in (0, \infty)\). Si

    1. Si\( \sigma^2 \) se conoce entonces\( Y = \sum_{i=1}^n X_i \) es mínimamente suficiente para\( \mu \).
    2. Si\( \mu \) se conoce entonces\( U = \sum_{i=1}^n (X_i - \mu)^2 \) es suficiente para\( \sigma^2 \).
    Prueba
    1. Estos resultados se derivan de la segunda ecuación mostrada para el PDF\( f(\bs x) \) de\( \bs X \) en la prueba del teorema anterior.
    2. Este resultado se desprende de la primera ecuación mostrada para el PDF\( f(\bs x) \) de\( bs X \) en la prueba del teorema anterior.

    Por supuesto, por equivalencia, en la parte (a) la media muestral\( M = Y / n \) es mínimamente suficiente para\( \mu \), y en la parte (b) la varianza especial de la muestra\( W = U / n \) es mínimamente suficiente para\( \sigma^2 \). Además, en la parte (a),\( M \) está completa para\( \mu \) en el espacio de parámetros\( \R \) y la varianza muestral\( S^2 \) es auxiliar para\( \mu \) (Recordemos que\( (n - 1) S^2 / \sigma^2 \) tiene la distribución chi-cuadrada con\( n - 1 \) grados de libertad.) Del teorema de Basu (15) se deduce que la media muestral\( M \) y la varianza muestral\( S^2 \) son independientes. Esto lo probamos por medios más directos en la sección sobre propiedades especiales de muestras normales, pero la formulación en términos de estadísticas suficientes y auxiliares da una visión adicional.

    La distribución Gamma

    Recordemos que la distribución gamma con parámetro de forma\(k \in (0, \infty)\) y parámetro de escala\(b \in (0, \infty)\) es una distribución continua\( (0, \infty) \) con función de densidad de probabilidad\( g \) dada por\[ g(x) = \frac{1}{\Gamma(k) b^k} x^{k-1} e^{-x / b}, \quad x \in (0, \infty) \] La distribución gamma se usa a menudo para modelar tiempos aleatorios y ciertos otros tipos de variables aleatorias positivas, y se estudia con más detalle en el capítulo sobre Distribuciones Especiales.

    Supongamos que\(\bs X = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución gamma con parámetro shape\(k\) y parámetro scale\(b\). Cada uno de los siguientes pares de estadísticas es mínimamente suficiente para\((k, b)\)

    1. \((Y, V)\)donde\(Y = \sum_{i=1}^n X_i\) está la suma de las puntuaciones y\(V = \prod_{i=1}^n X_i\) es el producto de las puntuaciones.
    2. \((M, U)\)donde\(M = Y / n\) es la media muestral (aritmética) de\(\bs X\) y\(U = V^{1/n}\) es la media geométrica de la muestra de\(\bs X\).
    Prueba
    1. El PDF conjunto\( f \) de\( \bs X \) está dado por\[ f(\bs x) = g(x_1) g(x_2) \cdots g(x_n) = \frac{1}{\Gamma^n(k) b^{nk}} (x_1 x_2 \ldots x_n)^{k-1} e^{-(x_1 + x_2 + \cdots + x_n) / b}, \quad \bs x = (x_1, x_2, \ldots, x_n) \in (0, \infty)^n \] Del teorema de factorización (3),\( (Y, V) \) es suficiente para\( (k, b) \). La suficiencia mínima se desprende de la condición (6).
    2. Claramente\( M = Y / n \) es equivalente a\( Y \) y\( U = V^{1/n} \) es equivalente a\( V \). De ahí\( (M, U) \) que también sea mínimamente suficiente para\( (k, b) \).

    Recordemos que el método de los estimadores de momentos de\( k \) y\( b \) son\( M^2 / T^2 \) y\( T^2 / M \), respectivamente, donde\( M = \frac{1}{n} \sum_{i=1}^n X_i \) es la media muestral y\( T^2 = \frac{1}{n} \sum_{i=1}^n (X_i - M)^2 \) es la varianza muestral sesgada. Si\( k \) se conoce el parámetro shape,\( \frac{1}{k} M \) es tanto el método de estimador de momentos de\( b \) como el estimador de máxima verosimilitud en el espacio de parámetros\( (0, \infty) \). Obsérvese que no\( T^2 \) es una función de las estadísticas suficientes\( (Y, V) \), y de ahí que los estimadores basados en\( T^2 \) padezcan una pérdida de información.

    Ejecutar el experimento de estimación gamma 1000 veces con diversos valores de los parámetros y el tamaño de la muestra\( n \). Comparar las estimaciones de los parámetros en términos de sesgo y error cuadrático medio.

    La prueba del último teorema realmente muestra que\( Y \) es suficiente para\( b \) si\( k \) se conoce, y eso\( V \) es suficiente para\( k \) si\( b \) se conoce.

    Supongamos nuevamente que\(\bs X = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) a partir de la distribución gamma con parámetro shape\( k \in (0, \infty) \) y parámetro scale\(b \in (0, \infty)\). Entonces\(Y = \sum_{i=1}^n X_i\) está completo para\(b\).

    Prueba

    \( Y \)tiene la distribución gamma con el parámetro shape\( n k \) y el parámetro scale\( b \). De ahí, si\(r: [0, \infty) \to \R\), entonces\[\E\left[r(Y)\right] = \int_0^\infty \frac{1}{\Gamma(n k) b^{n k}} y^{n k-1} e^{-y/b} r(y) \, dy = \frac{1}{\Gamma(n k) b^{n k}} \int_0^\infty y^{n k - 1} r(y) e^{-y / b} \, dy\] La última integral puede interpretarse como la transformada de Laplace de la función\( y \mapsto y^{n k - 1} r(y) \) evaluada en\( 1 / b \). Si esta transformación es 0 para todos\(b\) en un intervalo abierto, entonces\( r(y) = 0 \) casi en todas partes adentro\( (0, \infty) \).

    Supongamos nuevamente que\(\bs X = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución gamma\( (0, \infty) \) con parámetro shape\( k \in (0, \infty) \) y parámetro scale\(b \in (0, \infty)\). Dejar\( M = \frac{1}{n} \sum_{i=1}^n X_i \) denotar la media\( U = (X_1 X_2 \ldots X_n)^{1/n} \) muestral y la media geométrica de la muestra, como antes. Entonces

    1. \( M / U \)es auxiliar para\( b \).
    2. \( M \)y\( M / U \) son independientes.
    Prueba
    1. Podemos tomar\( X_i = b Z_i \) para\( i \in \{1, 2, \ldots, n\} \) donde\( \bs{Z} = (Z_1, X_2, \ldots, Z_n) \) es una muestra aleatoria de tamaño\( n \) de la distribución gamma con el parámetro shape\( k \) y el parámetro scale 1 (la distribución gamma estándar con el parámetro shape\( k \)). Entonces\[ \frac{M}{U} = \frac{1}{n} \sum_{i=1}^n \frac{X_i}{(X_1 X_2 \cdots X_n)^{1/n}} = \frac{1}{n} \sum_{i=1}^n \left(\frac{X_i^n}{X_1 X_2 \cdots X_n}\right)^{1/n} = \frac{1}{n} \sum_{i=1}^n \left(\prod_{j \ne i} \frac{X_i}{X_j}\right)^{1/n} \] Pero\( X_i / X_j = Z_i / Z_j\) para\( i \ne j \), y la distribución de\( \left\{Z_i / Z_j: i, j \in \{1, 2, \ldots, n\}, \; i \ne j\right\} \) no depende de\( b \). De ahí que la distribución de\( M / U \) no dependa de\( b \).
    2. Esto se desprende del teorema de Basú (15), ya que\( M \) es completo\( b \) y suficiente para y\( M / U \) es auxiliar para\( b \).

    La distribución beta

    Recordemos que la distribución beta con parámetro izquierdo\(a \in (0, \infty)\) y parámetro derecho\(b \in (0, \infty)\) es una distribución continua\( (0, 1) \) con función de densidad de probabilidad\( g \) dada por\[ g(x) = \frac{1}{B(a, b)} x^{a-1} (1 - x)^{b-1}, \quad x \in (0, 1)\] donde\( B \) está la función beta. La distribución beta se utiliza a menudo para modelar proporciones aleatorias y otras variables aleatorias que toman valores en intervalos acotados. Se estudia con más detalle en el capítulo de Distribución Especial

    Supongamos que\(\bs X = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución beta con parámetro izquierdo\(a\) y parámetro derecho\(b\). Entonces\((P, Q)\) es mínimamente suficiente para\((a, b)\) dónde\(P = \prod_{i=1}^n X_i\) y\(Q = \prod_{i=1}^n (1 - X_i)\).

    Prueba

    El PDF conjunto\( f \) de\( \bs X \) está dado por\[ f(\bs x) = g(x_1) g(x_2) \cdots g(x_n) = \frac{1}{B^n(a, b)} (x_1 x_2 \cdots x_n)^{a - 1} [(1 - x_1) (1 - x_2) \cdots (1 - x_n)]^{b-1}, \quad \bs x = (x_1, x_2, \ldots, x_n) \in (0, 1)^n \] Del teorema de factorización (3), se deduce que\( (U, V) \) es suficiente para\( (a, b) \). La suficiencia mínima se desprende de la condición (6).

    La prueba también muestra que\( P \) es suficiente para\( a \) si\( b \) se conoce, y eso\( Q \) es suficiente para\( b \) si\( a \) se conoce. Recordemos que el método de los estimadores de momentos de\( a \) y\( b \) son\[ U = \frac{M\left(M - M^{(2)}\right)}{M^{(2)} - M^2}, \quad V = \frac{(1 - M)\left(M - M^{(2)}\right)}{M^{(2)} - M^2} \] respectivamente, donde\( M = \frac{1}{n} \sum_{i=1}^n X_i \) es la media de la muestra y\( M^{(2)} = \frac{1}{n} \sum_{i=1}^n X_i^2 \) es la media de la muestra de segundo orden. Si\( b \) se conoce, el método de estimador de momentos de\( a \) es\( U_b = b M / (1 - M) \), mientras que si\( a \) se conoce, el método de estimador de momentos de\( b \) es\( V_a = a (1 - M) / M \). Ninguno de estos estimadores es una función de las estadísticas suficientes\( (P, Q) \) y así todos sufren una pérdida de información. Por otro lado, si\( b = 1 \), el estimador de máxima verosimilitud de\( a \) en el intervalo\( (0, \infty) \) es\( W = -n / \sum_{i=1}^n \ln X_i \), que es una función de\( P \) (como debe ser).

    Ejecutar el experimento de estimación beta 1000 veces con diversos valores de los parámetros. Comparar las estimaciones de los parámetros.

    La distribución de Pareto

    Recordemos que la distribución de Pareto con parámetro de forma\(a \in (0, \infty)\) y parámetro de escala\(b \in (0, \infty)\) es una distribución continua\( [b, \infty) \) con función de densidad de probabilidad\( g \) dada por\[ g(x) = \frac{a b^a}{x^{a+1}}, \quad b \le x \lt \infty \] La distribución de Pareto, llamada así por Vilfredo Pareto, es una distribución de cola pesada a menudo utilizado para modelar ingresos y ciertos otros tipos de variables aleatorias. Se estudia con más detalle en el capítulo de Distribución Especial.

    Supongamos que\(\bs X = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución de Pareto con parámetro shape\(a\) y parámetro scale\( b \). Entonces\( \left(P, X_{(1)}\right) \) es mínimamente suficiente para\( (a, b) \) dónde\(P = \prod_{i=1}^n X_i\) está el producto de las variables de muestra y dónde\( X_{(1)} = \min\{X_1, X_2, \ldots, X_n\} \) está el estadístico de primer orden.

    Prueba

    El PDF conjunto\( f \) de\( \bs X \) at\( \bs x = (x_1, x_2, \ldots, x_n) \) viene dado por el\[ f(\bs x) = g(x_1) g(x_2) \cdots g(x_n) = \frac{a^n b^{n a}}{(x_1 x_2 \cdots x_n)^{a + 1}}, \quad x_1 \ge b, x_2 \ge b, \ldots, x_n \ge b \] cual se puede reescribir como\[ f(\bs x) = g(x_1) g(x_2) \cdots g(x_n) = \frac{a^n b^{n a}}{(x_1 x_2 \cdots x_n)^{a + 1}} \bs{1}\left(x_{(n)} \ge b\right), \quad (x_1, x_2, \ldots, x_n) \in (0, \infty)^n \] Así el resultado se desprende del teorema de factorización (3). La suficiencia mínima se desprende de la condición (6).

    La prueba también muestra que\( P \) es suficiente para\( a \) si\( b \) se conoce (que suele ser el caso), y eso\( X_{(1)} \) es suficiente para\( b \) si\( a \) se conoce (mucho menos probable). Recordemos que el método de los estimadores de momentos de\( a \) y\( b \) son\[U = 1 + \sqrt{\frac{M^{(2)}}{M^{(2)} - M^2}}, \quad V = \frac{M^{(2)}}{M} \left( 1 - \sqrt{\frac{M^{(2)} - M^2}{M^{(2)}}} \right)\] respectivamente, donde como antes\( M = \frac{1}{n} \sum_{i=1}^n X_i \) es la media muestral y\( M^{(2)} = \sum_{i=1}^n X_i^2 \) la media muestral de segundo orden. Estos estimadores no son funciones de las estadísticas suficientes y por lo tanto sufre de pérdida de información. Por otro lado, los estimadores de máxima verosimilitud de\( a \) y\( b \) sobre el intervalo\( (0, \infty) \) son\[W = \frac{n}{\sum_{i=1}^n \ln X_i - n \ln X_{(1)}}, \quad X_{(1)}\] respectivamente. Estas son funciones de las estadísticas suficientes, como deben ser.

    Ejecutar el experimento de estimación de Pareto 1000 veces con diversos valores de los parámetros\( a \)\( b \) y el tamaño de la muestra\( n \). Comparar el método de estimaciones de momentos de los parámetros con las estimaciones de máxima verosimilitud en términos de sesgo empírico y error cuadrático medio.

    La distribución uniforme

    Recordemos que la distribución uniforme continua en el intervalo\( [a, a + h] \), donde\( a \in \R \) está el parámetro de ubicación y\( h \in (0, \infty) \) es el parámetro de escala, tiene la función de densidad de probabilidad\( g \) dada por Las distribuciones uniformes\[ g(x) = \frac{1}{h}, \quad x \in [a, a + h] \] continuas son ampliamente utilizadas en aplicaciones para modelar un número elegido al azar a partir de un intervalo. Las distribuciones uniformes continuas se estudian con más detalle en el capítulo sobre Distribuciones Especiales. Consideremos primero el caso donde se desconocen ambos parámetros.

    Supongamos que\(\bs X = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución uniforme en el intervalo\([a, a + h]\). Entonces\(\left(X_{(1)}, X_{(n)}\right)\) es mínimamente suficiente para\((a, h)\), donde\( X_{(1)} = \min\{X_1, X_2, \ldots, X_n\} \) está la estadística de primer orden y\( X_{(n)} = \max\{X_1, X_2, \ldots, X_n\} \) es la estadística de último orden.

    Prueba

    El PDF\( f \) de\( \bs X \) está dado por\[ f(\bs x) = g(x_1) g(x_2) \cdots g(x_n) = \frac{1}{h^n}, \quad \bs x = (x_1, x_2, \ldots x_n) \in [a, a + h]^n \] Podemos reescribir el PDF como\[ f(\bs x) = \frac{1}{h^n} \bs{1}[x_{(1)} \ge a] \bs{1}[x_{(n)} \le a + h], \quad \bs x = (x_1, x_2, \ldots, x_n) \in \R^n \] luego se desprende del teorema de factorización (3) que\(\left(X_{(1)}, X_{(n)}\right) \) es suficiente para\( (a, h) \). A continuación, supongamos que\( \bs x, \, \bs y \in \R^n \) y eso\( x_{(1)} \ne y_{(1)} \) o\( x_{(n)} \ne y_{(n)} \). Para un dado\( h \in (0, \infty) \), podemos encontrar fácilmente valores de\( a \in \R \) tal que\( f(\bs x) = 0 \) y\( f(\bs y) = 1 / h^n \), y otros valores de\( a \in \R \) tal que\( f(\bs x) = f(\bs y) = 1 / h^n \). Por condición (6),\(\left(X_{(1)}, X_{(n)}\right) \) es mínimamente suficiente.

    Si\( a \) se conoce el parámetro de ubicación, entonces el estadístico de orden más grande es suficiente para el parámetro de escala\( h \). Pero si\( h \) se conoce el parámetro scale, todavía necesitamos ambas estadísticas de orden para el parámetro location\( a \). Entonces, en este caso, tenemos un solo parámetro de valor real, pero la estadística mínimamente suficiente es un par de variables aleatorias de valor real.

    Supongamos nuevamente que\( \bs X = (X_1, X_2, \ldots, X_n) \) es una muestra aleatoria de la distribución uniforme en el intervalo\( [a, a + h] \).

    1. Si\( a \in \R \) se conoce, entonces\( X_{(n)} \) es suficiente para\( h \).
    2. Si\( h \in (0, \infty) \) se conoce, entonces\( \left(X_{(1)}, X_{(n)}\right) \) es mínimamente suficiente para\( a \).
    Prueba

    Ambas partes se desprenden fácilmente del análisis dado en la prueba del último teorema.

    Ejecutar el experimento de estimación uniforme 1000 veces con diversos valores del parámetro. Comparar las estimaciones del parámetro.

    Recordemos que si se desconocen ambos parámetros, el método de los estimadores de momentos de\( a \) y\( h \) son\( U = 2 M - \sqrt{3} T \) y\( V = 2 \sqrt{3} T \), respectivamente, dónde\( M = \frac{1}{n} \sum_{i=1}^n X_i \) está la media muestral y\( T^2 = \frac{1}{n} \sum_{i=1}^n (X_i - M)^2 \) es la varianza muestral sesgada. Si\( a \) se conoce, el método de estimador de momentos de\( h \) es\( V_a = 2 (M - a) \), mientras que si\( h \) se conoce, el método de estimador de momentos de\( h \) es\( U_h = M - \frac{1}{2} h \). Ninguno de estos estimadores son funciones de las estadísticas mínimamente suficientes, y por lo tanto resultan en pérdida de información.

    El modelo hipergeométrico

    Hasta el momento, en todos nuestros ejemplos, las variables básicas han formado una muestra aleatoria a partir de una distribución. En esta subsección, nuestras variables básicas serán dependientes.

    Recordemos que en el modelo hipergeométrico, tenemos una población de\( N \) objetos, y la\( r \) de los objetos son tipo 1 y los restantes\( N - r \) son tipo 0. El tamaño de la población\( N \) es un entero positivo y el tamaño de tipo 1\( r \) es un número entero no negativo con\( r \le N \). Normalmente se desconocen uno o ambos parámetros. Seleccionamos una muestra aleatoria de\( n \) objetos, sin reemplazo de la población, y dejamos\( X_i \) ser el tipo de objeto\( i \) th elegido. Entonces nuestra secuencia básica de variables aleatorias es\( \bs X = (X_1, X_2, \ldots, X_n) \). Las variables son variables indicadoras distribuidas idénticamente con\( \P(X_i = 1) = r / N \) for\( i \in \{1, 2, \ldots, n\} \), pero son dependientes. Por supuesto, el tamaño de la muestra\( n \) es un entero positivo con\( n \le N \).

    La variable\( Y = \sum_{i=1}^n X_i \) es el número de objetos tipo 1 en la muestra. Esta variable tiene la distribución hipergeométrica con parámetros\( N \),, y\( r \)\( n \), y tiene la función de densidad de probabilidad\( h \) dada por\[ h(y) = \frac{\binom{r}{y} \binom{N - r}{n - y}}{\binom{N}{n}} = \binom{n}{y} \frac{r^{(y)} (N - r)^{(n - y)}}{N^{(n)}}, \quad y \in \{\max\{0, N - n + r\}, \ldots, \min\{n, r\}\} \] (Recordemos la notación de potencia descendente\( x^{(k)} = x (x - 1) \cdots (x - k + 1) \)). La distribución hipergeométrica se estudia con más detalle en el capítulo sobre Modelos de Muestreo Finito.

    \( Y \)es suficiente para\( (N, r) \). Específicamente, para\( y \in \{\max\{0, N - n + r\}, \ldots, \min\{n, r\}\} \), la distribución condicional de\( \bs X \) dado\( Y = y \) es uniforme sobre el conjunto de puntos\[ D_y = \left\{(x_1, x_2, \ldots, x_n) \in \{0, 1\}^n: x_1 + x_2 + \cdots + x_n = y\right\} \]

    Prueba

    Por una simple aplicación de la regla de multiplicación de la combinatoria, el PDF\( f \) de\( \bs X \) viene dado por\[ f(\bs x) = \frac{r^{(y)} (N - r)^{(n - y)}}{N^{(n)}}, \quad \bs x = (x_1, x_2, \ldots, x_n) \in \{0, 1\}^n \] dónde\( y = \sum_{i=1}^n x_i \). Si\( y \in \{\max\{0, N - n + r\}, \ldots, \min\{n, r\}\} \), la distribución condicional de\( \bs X \) dado\( Y = y \) se concentra en\( D_y \) y Por\[ \P(\bs X = \bs x \mid Y = y) = \frac{\P(\bs X = \bs x)}{\P(Y = y)} = \frac{r^{(y)} (N - r)^{(n-y)}/N^{(n)}}{\binom{n}{y} r^{(y)} (N - r)^{(n - y)} / N^{(n)}} = \frac{1}{\binom{n}{y}}, \quad \bs x \in D_y \] supuesto,\( \binom{n}{y} \) es la cardinalidad de\( D_y \).

    Hay claramente fuertes similitudes entre el modelo hipergeométrico y el modelo de ensayos de Bernoulli anterior. De hecho, si el muestreo fuera con reemplazo, se\( p = r / N \) aplicaría el modelo de ensayos de Bernoulli con más que el modelo hipergeométrico. También es interesante señalar que tenemos una única estadística de valor real que es suficiente para dos parámetros de valor real.

    Una vez más, la media de la muestra\( M = Y / n \) es equivalente\( Y \) y por lo tanto también es suficiente para\( (N, r) \). Recordemos que el método de estimador de momentos de\( r \) con\( N \) conocido es\( N M \) y el método de estimador de momento de\( N \) con\( r \) conocido es\( r / M \). El estimador de\( r \) es el que se utiliza en el experimento de captura-recaptura.

    Familias Exponenciales

    Supongamos ahora que nuestro vector de datos\(\bs X\) toma valores en un conjunto\(S\), y que la distribución de\(\bs X\) depende de que un vector de parámetros\(\bs{\theta}\) tome valores en un espacio de parámetros\(\Theta\). La distribución de\(\bs X\) es una familia exponencial\(k\) -parámetro si\(S\) no depende de\(\bs{\theta}\) y si la función de densidad de probabilidad de se\(\bs X\) puede escribir como

    \[ f_\bs{\theta}(\bs x) = \alpha(\bs{\theta}) r(\bs x) \exp\left(\sum_{i=1}^k \beta_i(\bs{\theta}) u_i(\bs x) \right); \quad \bs x \in S, \; \bs{\theta} \in \Theta \]

    dónde\(\alpha\) y\(\left(\beta_1, \beta_2, \ldots, \beta_k\right)\) son funciones de valor real en\(\Theta\), y dónde\(r\) y\(\left(u_1, u_2, \ldots, u_k\right)\) son funciones de valor real en\(S\). Además,\(k\) se supone que es el número entero más pequeño de este tipo. El vector de parámetros a veces\(\bs{\beta} = \left(\beta_1(\bs{\theta}), \beta_2(\bs{\theta}), \ldots, \beta_k(\bs{\theta})\right)\) se llama el parámetro natural de la distribución, y el vector aleatorio a veces\(\bs U = \left(u_1(\bs X), u_2(\bs X), \ldots, u_k(\bs X)\right)\) se llama el estadístico natural de la distribución. Aunque la definición puede parecer intimidante, las familias exponenciales son útiles porque tienen muchas propiedades matemáticas agradables, y porque muchas familias paramétricas especiales son familias exponenciales. En particular, las distribuciones de muestreo de Bernoulli, Poisson, gamma, normal, beta y Pareto consideradas anteriormente son familias exponenciales. Las familias exponenciales de distribuciones se estudian con más detalle en el capítulo sobre distribuciones especiales.

    \(\bs U\)es mínimamente suficiente para\(\bs{\theta}\).

    Prueba

    Eso\( U \) es suficiente para que se\( \theta \) deduce inmediatamente del teorema de factorización. Eso\( U \) es mínimamente suficiente sigue ya que\( k \) es el entero más pequeño en la formulación exponencial.

    Resulta que\(\bs U\) está completo para\(\bs{\theta}\) también, aunque la prueba es más difícil.


    This page titled 7.6: Estadísticas suficientes, completas y auxiliares is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.