Saltar al contenido principal
Library homepage
 
LibreTexts Español

7.3: Máxima verosimilitud

  • Page ID
    152050
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\Z}{\mathbb{Z}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)\(\newcommand{\bias}{\text{bias}}\)\(\newcommand{\mse}{\text{mse}}\)\(\newcommand{\bs}{\boldsymbol}\)

    Teoría Básica

    El Método

    Supongamos nuevamente que tenemos una variable aleatoria observable\(\bs{X}\) para un experimento, que toma valores en un conjunto\(S\). Supongamos también que la distribución de\(\bs{X}\) depende de un parámetro desconocido\(\theta\), tomando valores en un espacio de parámetros\(\Theta\). Por supuesto, nuestra variable de datos casi siempre\(\bs{X}\) será valorada por vectores. El parámetro también\(\theta\) puede ser valorado por vector. Denotaremos la función de densidad de probabilidad de\(\bs{X}\) on\(S\) by\(f_\theta\) for\(\theta \in \Theta\). La distribución de\( \bs{X} \) podría ser discreta o continua.

    La función de verosimilitud es la función que se obtiene al invertir los roles de\(\bs{x}\) y\(\theta\) en la función de densidad de probabilidad; es decir, vemos\(\theta\) como la variable y\(\bs{x}\) como la información dada (que es precisamente el punto de vista en la estimación).

    La función de verosimilitud en\( \bs{x} \in S \) es la función\( L_{\bs{x}}: \Theta \to [0, \infty) \) dada por\[ L_\bs{x}(\theta) = f_\theta(\bs{x}), \quad \theta \in \Theta \]

    En el método de máxima verosimilitud, tratamos de encontrar el valor del parámetro que maximiza la función de verosimilitud para cada valor del vector de datos.

    Supongamos que el valor máximo de\( L_{\bs{x}} \) ocurre en\( u(\bs{x}) \in \Theta \) para cada uno\( \bs{x} \in S \). Entonces el estadístico\( u(\bs{X}) \) es un estimador de máxima verosimilitud de\( \theta \).

    El método de máxima verosimilitud es intuitivamente atractivo; tratamos de encontrar el valor del parámetro que probablemente habría producido los datos que de hecho observamos.

    Dado que la función de logaritmo natural está aumentando estrictamente\( (0, \infty) \), el valor máximo de la función de verosimilitud, si existe, ocurrirá en los mismos puntos que el valor máximo del logaritmo de la función de verosimilitud.

    La función de verosimilitud logarítmica at\( \bs{x} \in S \) es la función\( \ln L_{\bs{x}} \):\[ \ln L_{\bs{x}}(\theta) = \ln f_\theta(\bs{x}), \quad \theta \in \Theta \] Si el valor máximo de\( \ln L_{\bs{x}} \) ocurre en\( u(\bs{x}) \in \Theta \) para cada uno\( \bs{x} \in S \). Entonces el estadístico\( u(\bs{X}) \) es un estimador de máxima verosimilitud de\( \theta \)

    La función de verosimilitud logarítmica suele ser más fácil de trabajar que la función de probabilidad (normalmente porque la función de densidad de probabilidad\(f_\theta(\bs{x})\) tiene una estructura de producto).

    Vector de parámetros

    Un caso especial importante es cuando\(\bs{\theta} = (\theta_1, \theta_2, \ldots, \theta_k)\) es un vector de parámetros\(k\) reales, así que eso\(\Theta \subseteq \R^k\). En este caso, el problema de máxima verosimilitud es maximizar una función de varias variables. Si\(\Theta\) es un conjunto continuo, se pueden utilizar los métodos de cálculo. Si el valor máximo de\(L_\bs{x}\) ocurre en un punto\(\bs{\theta}\) en el interior de\(\Theta\), entonces\(L_\bs{x}\) tiene un máximo local en\(\bs{\theta}\). Por lo tanto, asumiendo que la función de verosimilitud es diferenciable, podemos encontrar este punto resolviendo\[ \frac{\partial}{\partial \theta_i} L_\bs{x}(\bs{\theta}) = 0, \quad i \in \{1, 2, \ldots, k\} \] o de manera equivalente\[ \frac{\partial}{\partial \theta_i} \ln L_\bs{x}(\bs{\theta}) = 0, \quad i \in \{1, 2, \ldots, k\} \] Por otro lado, el valor máximo puede ocurrir en un punto límite de\(\Theta\), o puede no existir en absoluto.

    Muestras Aleatorias

    El caso especial más importante es cuando las variables de datos forman una muestra aleatoria a partir de una distribución.

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) a partir de la distribución de una variable aleatoria\(X\) tomando valores en\(R\), con función de densidad de probabilidad\(g_\theta\) para\(\theta \in \Theta\). Luego\(\bs{X}\) toma valores adentro\(S = R^n\), y las funciones de verosimilitud y log-verosimilitud para\( \bs{x} = (x_1, x_2, \ldots, x_n) \in S \) son\ begin {align*} L_\ bs {x} (\ theta) & =\ prod_ {i=1} ^n g_\ theta (x_i),\ quad\ theta\ in\ Theta\\ ln L_\ bs {x} (\ theta) & =\ sum_ {i=1} ^n\ ln g_\ theta (x_i),\ quad\ theta\ in\ Theta\ final {alinear*}

    Extendiendo el Método y la Propiedad de Invarianza

    Volviendo a la configuración general, supongamos ahora que\(h\) es una función uno a uno desde el espacio de parámetros\(\Theta\) a un conjunto\(\Lambda\). Podemos ver\(\lambda = h(\theta)\) como un nuevo parámetro tomando valores en el espacio\(\Lambda\), y es fácil volver a parametrizar la función de densidad de probabilidad con el nuevo parámetro. Así, vamos\( \hat{f}_\lambda(\bs{x}) = f_{h^{-1}(\lambda)}(\bs{x})\) por\( \bs{x} \in S \) y\( \lambda \in \Lambda \). La función de verosimilitud correspondiente para\( \bs{x} \in S \) es\[ \hat{L}_\bs{x}(\lambda) = L_\bs{x}\left[h^{-1}(\lambda)\right], \quad \lambda \in \Lambda \] Claramente si\(u(\bs{x}) \in \Theta\) maximiza\(L_\bs{x}\) para\(\bs{x} \in S\). Luego\(h\left[u(\bs{x})\right] \in \Lambda\) maximiza\(\hat{L}_\bs{x}\) para\(\bs{x} \in S\). De ello se deduce que si\(U\) es un estimador de máxima verosimilitud para\(\theta\), entonces\(V = h(U)\) es un estimador de máxima verosimilitud para\( \lambda = h(\theta) \).

    Si la función no\(h\) es uno a uno, la función de máxima verosimilitud para el nuevo parámetro no\(\lambda = h(\theta)\) está bien definida, porque no podemos parametrizar la función de densidad de probabilidad en términos de\(\lambda\). Sin embargo, existe una generalización natural del método.

    Supongamos que\( h: \Theta \to \Lambda \), y vamos a\( \lambda = h(\theta) \) denotar el nuevo parámetro. Definir la función de verosimilitud para\( \lambda \) at\( \bs{x} \in S\) por\[ \hat{L}_\bs{x}(\lambda) = \max\left\{L_\bs{x}(\theta): \theta \in h^{-1}\{\lambda\} \right\}; \quad \lambda \in \Lambda \] Si\( v(\bs{x}) \in \Lambda \) maximiza\( \hat{L}_{\bs{x}} \) para cada uno\( \bs{x} \in S \), entonces\( V = v(\bs{X}) \) es un estimador de máxima verosimilitud de\( \lambda \).

    Esta definición extiende el método de máxima verosimilitud a los casos en los que la función de densidad de probabilidad no está completamente parametrizada por el parámetro de interés. El siguiente teorema se conoce como la propiedad de invarianza: si podemos resolver el problema de máxima verosimilitud para\( \theta \) entonces podemos resolver el problema de máxima verosimilitud para\( \lambda = h(\theta) \).

    En la configuración del teorema anterior, si\( U \) es un estimador de máxima verosimilitud de\( \theta \), entonces\( V = h(U) \) es un estimador de máxima verosimilitud de\( \lambda \).

    Prueba

    Como antes, si\(u(\bs{x}) \in \Theta\) maximiza\(L_\bs{x}\) para\(\bs{x} \in S\). Luego\(h\left[u(\bs{x})\right] \in \Lambda\) maximiza\(\hat{L}_\bs{x}\) para\(\bs{x} \in S\).

    Ejemplos y Casos Especiales

    En las siguientes subsecciones, estudiaremos la estimación de máxima verosimilitud para una serie de familias paramétricas especiales de distribuciones. Recordemos que si\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de una distribución con media\(\mu\) y varianza\(\sigma^2\), entonces el método de los estimadores de momentos de\(\mu\) y\(\sigma^2\) son, respectivamente,\ begin {align} M & =\ frac {1} {n}\ sum_ {i=1} ^n x_i\\ T^2 & =\ frac {1} {n}\ sum_ {i=1} ^n (x_i - M) ^2 final\ { align} Por supuesto,\(M\) es la media muestral, y\(T^2 \) es la versión sesgada de la varianza muestral. Estas estadísticas también ocurrirán a veces como estimadores de máxima verosimilitud. Otro estadístico que ocurrirá en algunos de los ejemplos siguientes es\[ M_2 = \frac{1}{n} \sum_{i=1}^n X_i^2 \] la media muestral de segundo orden. Como siempre, asegúrate de probar las derivaciones tú mismo antes de mirar las soluciones.

    La distribución de Bernoulli

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de la distribución de Bernoulli con parámetro de éxito\(p \in [0, 1]\). Recordemos que la función de densidad de probabilidad de Bernoulli es\[ g(x) = p^x (1 - p)^{1 - x}, \quad x \in \{0, 1\} \] Así,\(\bs{X}\) es una secuencia de variables indicadoras independientes con\(\P(X_i = 1) = p\) para cada una\(i\). En el lenguaje habitual de la confiabilidad,\(X_i\) se encuentra el resultado del ensayo\(i\), donde 1 significa éxito y 0 significa fracaso. Vamos a\(Y = \sum_{i=1}^n X_i\) denotar el número de éxitos, para que la proporción de éxitos (la media muestral) sea\(M = Y / n\). Recordemos que\(Y\) tiene la distribución binomial con parámetros\(n\) y\(p\).

    La media muestral\(M\) es el estimador de máxima verosimilitud\(p\) en el espacio de parámetros\( (0, 1) \).

    Prueba

    Tenga en cuenta que\(\ln g(x) = x \ln p + (1 - x) \ln(1 - p)\) para\( x \in \{0, 1\} \) De ahí la función logarítmica de verosimilitud en\( \bs{x} = (x_1, x_2, \ldots, x_n) \in \{0, 1\}^n \) es\[ \ln L_{\bs{x}}(p) = \sum_{i=1}^n [x_i \ln p + (1 - x_i) \ln(1 - p)], \quad p \in (0, 1) \] Diferenciar con respecto\(p\) y simplificar da\[ \frac{d}{dp} \ln L_{\bs{x}}(p) = \frac{y}{p} - \frac{n - y}{1 - p} \] donde\(y = \sum_{i=1}^n x_i\). Por lo tanto, hay un único punto crítico en\(p = y / n = m\). El segundo derivativo es\[ \frac{d^2}{d p^2} \ln L_{\bs{x}}(p) = -\frac{y}{p^2} - \frac{n - 1}{(1 - p)^2} \lt 0 \] De ahí que la función log-verosimilitud sea cóncava hacia abajo y así el máximo ocurre en el punto crítico único\(m\).

    Recordemos que también\(M\) es el método de estimador de momentos de\(p\). Siempre es agradable cuando dos procedimientos de estimación diferentes dan el mismo resultado. A continuación veamos el mismo problema, pero con un espacio de parámetros muy restringido.

    Supongamos ahora que\(p\) toma valores adentro\(\left\{\frac{1}{2}, 1\right\}\). Entonces el estimador de máxima verosimilitud de\(p\) es el estadístico\[ U = \begin{cases} 1, & Y = n\\ \frac{1}{2}, & Y \lt n \end{cases} \]

    1. \(\E(U) = \begin{cases} 1, & p = 1 \\ \frac{1}{2} + \left(\frac{1}{2}\right)^{n+1}, & p = \frac{1}{2} \end{cases}\)
    2. \(U\)está sesgado positivamente, pero es asintóticamente imparcial.
    3. \(\mse(U) = \begin{cases} 0 & p = 1 \\ \left(\frac{1}{2}\right)^{n+2}, & p = \frac{1}{2} \end{cases}\)
    4. \(U\)es consistente.
    Prueba

    Tenga en cuenta que la función de verosimilitud\( \bs{x} = (x_1, x_2, \ldots, x_n) \in \{0, 1\}^n \) es\(L_{\bs{x}}(p) = p^y (1 - p)^{n-y}\) para\( p \in \left\{\frac{1}{2}, 1\right\} \) donde como de costumbre,\(y = \sum_{i=1}^n x_i\). Así\(L_{\bs{x}}\left(\frac{1}{2}\right) = \left(\frac{1}{2}\right)^y\). Por otro lado,\(L_{\bs{x}}(1) = 0\) si\(y \lt n\) mientras\(L_{\bs{x}}(1) = 1\) si\(y = n\). Así, si\(y = n\) el máximo ocurre cuando\(p = 1\) mientras que si\(y \lt n\) el máximo ocurre cuando\(p = \frac{1}{2}\).

    1. Si\(p = 1\) entonces\(\P(U = 1) = \P(Y = n) = 1\), tan trivialmente\(\E(U) = 1\). Si\(p = \frac{1}{2}\),\[ \E(U) = 1 \P(Y = n) + \frac{1}{2} \P(Y \lt n) = 1 \left(\frac{1}{2}\right)^n + \frac{1}{2}\left[1 - \left(\frac{1}{2}\right)^n\right] = \frac{1}{2} + \left(\frac{1}{2}\right)^{n+1} \]
    2. Tenga en cuenta que\( \E(U) \ge p \) y\(\E(U) \to p\) como\(n \to \infty\) tanto en el caso de que\(p = 1\) y\(p = \frac{1}{2}\).
    3. Si\( p = 1 \) entonces\( U = 1 \) con probabilidad 1, así trivialmente\( \mse(U) = 0 \). Si\( p = \frac{1}{2} \),\[ \mse(U) = \left(1 - \frac{1}{2}\right)^2 \P(Y = n) + \left(\frac{1}{2} - \frac{1}{2}\right)^2 \P(Y \lt n) = \left(\frac{1}{2}\right)^2 \left(\frac{1}{2}\right)^n = \left(\frac{1}{2}\right)^{n+2}\]
    4. De (c),\( \mse(U) \to 0 \) como\( n \to \infty \).

    Tenga en cuenta que la distribución de Bernoulli en el último ejercicio modelaría una moneda que sea justa o de dos cabezas. Los dos últimos ejercicios muestran que el estimador de máxima verosimilitud de un parámetro, como la solución a cualquier problema de maximización, depende críticamente del dominio.

    \(U\)es uniformemente mejor que\(M\) en el espacio de parámetros\(\left\{\frac{1}{2}, 1\right\}\).

    Prueba

    Recordemos eso\( \mse(M) = \var(M) = p (1 - p) / n \). Si\( p = 1 \) entonces\( \mse(M) = \mse(U) = 0 \) es así que ambos estimadores den la respuesta correcta. Si\( p = \frac{1}{2} \),\( \mse(U) = \left(\frac{1}{2}\right)^{n+2} \lt \frac{1}{4 n} = \mse(M) \).

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de la distribución de Bernoulli con parámetro de éxito desconocido\(p \in (0, 1)\). Encontrar el estimador de máxima verosimilitud de\(p (1 - p)\), que es la varianza de la distribución muestral.

    Contestar

    Por el principio de invarianza, el estimador es\(M (1 - M)\) donde\(M\) está la media de la muestra.

    La distribución geométrica

    Recordemos que la distribución geométrica en el parámetro\(\N_+\) con éxito\(p \in (0, 1)\) tiene función de densidad de probabilidad\[ g(x) = p (1 - p)^{x-1}, \quad x \in \N_+ \] La distribución geométrica gobierna el número de prueba del primer éxito en una secuencia de ensayos de Bernoulli.

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución geométrica con parámetro desconocido\(p \in (0, 1)\). El estimador de máxima verosimilitud de\(p\) es\(U = 1 / M\).

    Prueba

    Tenga en cuenta que\( \ln g(x) = \ln p + (x - 1) \ln(1 - p) \) para\( x \in \N_+ \). De ahí que la función log-verosimilitud correspondiente a los datos\( \bs{x} = (x_1, x_2, \ldots, x_n) \in \N_+^n \) sea\[ \ln L_\bs{x}(p) = n \ln p + (y - n) \ln(1 - p), \quad p \in (0, 1) \] donde\( y = \sum_{i=1}^n x_i \). Entonces\[ \frac{d}{dp} \ln L(p) = \frac{n}{p} - \frac{y - n}{1 - p} \] La derivada es 0 cuando\( p = n / y = 1 / m \). Por último,\( \frac{d^2}{dp^2} \ln L_\bs{x}(p) = -n / p^2 - (y - n) / (1 - p)^2 \lt 0 \) por lo que el máximo ocurre en el punto crítico.

    Recordemos que también\(U\) es el método de estimador de momentos de\(p\). Siempre es tranquilizador cuando dos procedimientos de estimación diferentes producen el mismo estimador.

    La distribución binomial negativa

    De manera más general, la distribución binomial negativa on\( \N \) con el parámetro shape\( k \in (0, \infty) \) y el parámetro success\( p \in (0, 1) \) tiene función de densidad de probabilidad\[ g(x) = \binom{x + k - 1}{k - 1} p^k (1 - p)^x, \quad x \in \N \] Si\( k \) es un entero positivo, entonces esta distribución gobierna el número de fallas antes de la\( k \) th éxito en una secuencia de ensayos de Bernoulli con parámetro de éxito\( p \). Sin embargo, la distribución tiene sentido para general\( k \in (0, \infty) \). La distribución binomial negativa se estudia con más detalle en el capítulo de Ensayos de Bernoulli.

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) a partir de la distribución binomial negativa\( \N \) con parámetro de forma conocido\( k \) y parámetro de éxito desconocido\( p \in (0, 1) \). El estimador de máxima verosimilitud de\( p \) es\[ U = \frac{k}{k + M} \]

    Prueba

    Tenga en cuenta que\( \ln g(x) = \ln \binom{x + k - 1}{k - 1} + k \ln p + x \ln(1 - p) \) para\( x \in \N \). De ahí que la función log-verosimilitud correspondiente a\( \bs{x} = (x_1, x_2, \ldots, x_n) \in \N^n \) es\[ \ln L_\bs{x}(p) = n k \ln p + y \ln(1 - p) + C, \quad p \in (0, 1) \] donde\( y = \sum_{i=1}^n x_i \) y\( C = \sum_{i=1}^n \ln \binom{x_i + k - 1}{k - 1} \). De ahí\[ \frac{d}{dp} \ln L_\bs{x}(p) = \frac{n k}{p} - \frac{y}{1 - p} \] que la derivada sea 0 cuando\( p = n k / (n k + y) = k / (k + m) \) donde como de costumbre,\( m = y / n \). Finalmente,\( \frac{d^2}{dp^2} \ln L_\bs{x}(p) = - n k / p^2 - y / (1 - p)^2 \lt 0 \), por lo que el máximo ocurre en el punto crítico.

    Una vez más, esto es lo mismo que el método de estimador de momentos de\( p \) con\( k \) conocido.

    La distribución de Poisson

    Recordemos que la distribución de Poisson con parámetro\(r \gt 0\) tiene función de densidad de probabilidad\[ g(x) = e^{-r} \frac{r^x}{x!}, \quad x \in \N \] La distribución de Poisson lleva el nombre de Simeon Poisson y es ampliamente utilizada para modelar el número de puntos aleatorios en una región de tiempo o espacio. El parámetro\( r\) es proporcional al tamaño de la región. La distribución de Poisson se estudia con más detalle en el capítulo sobre el proceso de Poisson.

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución de Poisson con parámetro desconocido\(r \in (0, \infty)\). El estimador de máxima verosimilitud de\(r\) es la media muestral\(M\).

    Prueba

    Tenga en cuenta que\( \ln g(x) = -r + x \ln r - \ln(x!) \) para\( x \in \N \). De ahí que la función log-verosimilitud correspondiente a\( \bs{x} = (x_1, x_2, \ldots, x_n) \in \N^n\) es\[ \ln L_\bs{x}(r) = -n r + y \ln r - C, \quad r \in (0, \infty) \] donde\( y = \sum_{i=1}^n x_i \) y\( C = \sum_{i=1}^n \ln(x_i!) \). De ahí\( \frac{d}{dr} \ln L_\bs{x}(r) = -n + y / r \). La derivada es 0 cuando\( r = y / n = m \). Finalmente,\( \frac{d^2}{dr^2} \ln L_\bs{x}(r) = -y / r^2 \lt 0 \), por lo que el máximo ocurre en el punto crítico.

    Recordemos que para la distribución de Poisson, el parámetro\(r\) es tanto la media como la varianza. Así\(M\) es también el método de estimador de momentos de\(r\). Mostramos en la sección introductoria que\(M\) tiene un error cuadrático medio menor que\(S^2\), aunque ambos son imparciales.

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución de Poisson con parámetro\(r \in (0, \infty)\), y let\(p = \P(X = 0) = e^{-r}\). Encuentre el estimador de máxima verosimilitud\(p\) de dos maneras:

    1. Directamente, encontrando la función de verosimilitud correspondiente al parámetro\(p\).
    2. Mediante el uso del resultado del último ejercicio y la propiedad de invarianza.
    Contestar

    \(e^{-M}\)donde\(M\) está la media de la muestra.

    La distribución normal

    Recordemos que la distribución normal con media\(\mu\) y varianza\(\sigma^2\) tiene función de densidad de probabilidad\[ g(x) = \frac{1}{\sqrt{2 \, \pi} \sigma} \exp \left[-\frac{1}{2} \left(\frac{x - \mu}{\sigma}\right)^2\right], \quad x \in \R \] La distribución normal se utiliza a menudo para modelar cantidades físicas sujetas a pequeños errores aleatorios, y se estudia con más detalle en el capítulo sobre Distribuciones Especiales

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución normal con media\(\mu \in \R\) y varianza desconocidas\(\sigma^2 \in (0, \infty)\). Los estimadores de máxima verosimilitud de\(\mu\) y\(\sigma^2\) son\(M\) y\(T^2\), respectivamente.

    Prueba

    Tenga en cuenta que\[ \ln g(x) = -\frac{1}{2} \ln(2 \pi) - \frac{1}{2} \ln(\sigma^2) - \frac{1}{2 \sigma^2} (x - \mu)^2, \quad x \in \R \] De ahí que la función log-verosimilitud correspondiente a los datos\( \bs{x} = (x_1, x_2, \ldots, x_n) \in \R^n \) es\[ \ln L_\bs{x}(\mu, \sigma^2) = -\frac{n}{2} \ln(2 \pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \mu)^2, \quad (\mu, \sigma^2) \in \R \times (0, \infty) \] Tomar derivadas parciales da\ begin {align*}\ frac {\ parcial} {\ parcial\ mu}\ ln L_\ bs {x} (\ mu,\ sigma^2) &=\ frac {1} {\ sigma^2}\ sum_ {i=1} ^n (x_i -\ mu) =\ frac {1} {\ sigma^2}\ izquierda (\ suma_ {i=1} ^n x_i - n\ mu\ derecha)\\\ frac {\ parcial} {\ parcial\ sigma^2}\ ln L_\ bs {x} (\ mu,\ sigma^2) &= -\ frac {n} {2\ sigma^2} +\ frac {1} {2\ sigma^4}\ sum_ {i=1} ^n (x_i -\ mu) ^2\ final {align*} Las derivadas parciales son 0 cuando\( \mu = \frac{1}{n} \sum_{i=1}^n x_i\) y\( \sigma^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 \). De ahí que el punto crítico único sea\( (m, t^2) \). Finalmente, con un poco más de cálculo, las segundas derivadas parciales evaluadas en el punto crítico son\[ \frac{\partial^2}{\partial \mu^2} \ln L_\bs{x}(m, t^2) = -n / t^2, \; \frac{\partial^2}{\partial \mu \partial \sigma^2} \ln L_\bs{x}(m, t^2) = 0, \; \frac{\partial^2}{\partial (\sigma^2)^2} \ln L_\bs{x}(m, t^2) = -n / t^4\] De ahí que la segunda matriz derivada en el punto crítico sea negativa definida y así el máximo ocurre en el punto crítico.

    Por supuesto,\(M\) y\(T^2\) son también el método de los estimadores de momentos de\(\mu\) y\(\sigma^2\), respectivamente.

    Ejecutar el experimento de estimación Normal 1000 veces para varios valores del tamaño de la muestra\(n\), la media\(\mu\) y la varianza\(\sigma^2\). Para el parámetro\(\sigma^2\), compare el estimador de máxima verosimilitud\(T^2\) con la varianza de la muestra estándar\(S^2\). ¿Qué estimador parece funcionar mejor en términos de error cuadrático medio?

    Supongamos nuevamente que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución normal con media desconocida\(\mu \in \R\) y varianza desconocida\(\sigma^2 \in (0, \infty)\). Encuentre el estimador de máxima verosimilitud de\(\mu^2 + \sigma^2\), que es el segundo momento aproximadamente 0 para la distribución de muestreo.

    Contestar

    Por el principio de invarianza, el estimador es\(M^2 + T^2\) donde\(M\) está la media de la muestra y\(T^2\) es la varianza de la muestra (versión sesgada de la).

    La distribución Gamma

    Recordemos que la distribución gamma con parámetro de forma\(k \gt 0\) y parámetro de escala\(b \gt 0\) tiene función de densidad de probabilidad\[ g(x) = \frac{1}{\Gamma(k) \, b^k} x^{k-1} e^{-x / b}, \quad 0 \lt x \lt \infty \] La distribución gamma se utiliza a menudo para modelar tiempos aleatorios y ciertos otros tipos de variables aleatorias positivas, y se estudia con más detalle en el capítulo sobre Distribuciones Especiales

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución gamma con parámetro de forma conocido\(k\) y parámetro de escala desconocido\(b \in (0, \infty)\). El estimador de máxima verosimilitud de\(b\) es\(V_k = \frac{1}{k} M\).

    Prueba

    Tenga en cuenta que para\( x \in (0, \infty) \),\[ \ln g(x) = -\ln \Gamma(k) - k \ln b + (k - 1) \ln x - \frac{x}{b} \] y por lo tanto la función log-verosimilitud correspondiente a los datos\( \bs{x} = (x_1, x_2, \ldots, x_n) \in (0, \infty)^n \) es\[ \ln L_\bs{x}(b) = - n k \ln b - \frac{y}{b} + C, \quad b \in (0, \infty)\] donde\( y = \sum_{i=1}^n x_i \) y\( C = -n \ln \Gamma(k) + (k - 1) \sum_{i=1}^n \ln x_i \). De ello se deduce que\[ \frac{d}{d b} \ln L_\bs{x}(b) = -\frac{n k}{b} + \frac{y}{b^2} \] La derivada es 0 cuando\( b = y / n k = 1 / k m \). Por último,\( \frac{d^2}{db^2} \ln L_\bs{x}(b) = n k / b^2 - 2 y / b^3 \). En el punto crítico\( b = y / n k \), la segunda derivada es\(-(n k)^3 / y^2 \lt 0\) así que el máximo ocurre en el punto crítico.

    Recordemos que también\(V_k\) es el método de estimador de momentos de\(b\) cuándo\(k\) se conoce. Pero cuando\(k\) se desconoce, el método de los momentos estimador de\(b\) es\(V = \frac{T^2}{M}\).

    Ejecute el experimento de estimación gamma 1000 veces para varios valores del tamaño de la muestra\(n\), el parámetro\(k\) de forma y el parámetro de escala\(b\). En cada caso, compare el método de estimador de momentos\(V\) de\(b\) cuándo\(k\) se desconoce con el método de momentos y estimador de máxima verosimilitud\(V_k\) de\(b\) cuándo\(k\) se conoce. ¿Qué estimador parece funcionar mejor en términos de error cuadrático medio?

    La distribución beta

    Recordemos que la distribución beta con parámetro izquierdo\(a \in (0, \infty)\) y parámetro derecho\(b = 1\) tiene función de densidad de probabilidad\[ g(x) = a x^{a-1}, \quad x \in (0, 1) \] La distribución beta se utiliza a menudo para modelar proporciones aleatorias y otras variables aleatorias que toman valores en intervalos acotados. Se estudia con más detalle en el capítulo de Distribución Especial

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución beta con parámetro izquierdo desconocido\(a \in (0, \infty)\) y parámetro derecho\(b = 1\). El estimador de máxima verosimilitud de\(a\) es\[ W = - \frac{n}{\sum_{i=1}^n \ln X_i} = -\frac{n}{\ln(X_1 X_2 \cdots X_n)} \]

    Prueba

    Tenga en cuenta que\( \ln g(x) = \ln a + (a - 1) \ln x \) para\( x \in (0, \infty) \) De ahí la función log-verosimilitud correspondiente a los datos\( \bs{x} = (x_1, x_2, \ldots, x_n) \in (0, \infty)^n \) es\[ \ln L_\bs{x}(a) = n \ln a + (a - 1) \sum_{i=1}^n \ln x_i, \quad a \in (0, \infty) \]\( \frac{d}{da} \ln L_\bs{x}(a) = n / a + \sum_{i=1}^n \ln x_i \) Thereth La derivada es 0 cuando\( a = -n \big/ \sum_{i=1}^n \ln x_i \). Finalmente,\( \frac{d^2}{da^2} \ln L_\bs{x}(a) = -n / a^2 \lt 0 \), por lo que el máximo ocurre en el punto crítico.

    Recordemos que cuando\(b = 1\), el método de estimador de momentos de\(a\) es\(U_1 = M \big/ (1 - M)\), pero cuando también\(b \in (0, \infty)\) se desconoce, el método de estimador de momentos de\(a\) es\(U = M (M - M_2) \big/ (M_2 - M^2)\). ¿Cuándo\(b = 1\), qué estimador es mejor, el método del estimador de momentos o el estimador de máxima verosimilitud?

    En el experimento de estimación beta, conjunto\(b = 1\). Ejecutar el experimento 1000 veces para varios valores del tamaño de la muestra\(n\) y el parámetro\(a\). En cada caso, comparar los estimadores\(U\),\(U_1\) y\(W\). ¿Qué estimador parece funcionar mejor en términos de error cuadrático medio?

    Finalmente, tenga en cuenta que\( 1 / W \) es la media muestral para una muestra aleatoria de tamaño\( n \) a partir de la distribución de\( -\ln X \). Esta distribución es la distribución exponencial con tasa\( a \).

    La distribución de Pareto

    Recordemos que la distribución de Pareto con parámetro de forma\(a \gt 0\) y parámetro de escala\(b \gt 0\) tiene función de densidad de probabilidad\[ g(x) = \frac{a b^a}{x^{a+1}}, \quad b \le x \lt \infty \] La distribución de Pareto, llamada así por Vilfredo Pareto, es una distribución de cola pesada que a menudo se usa para modelar ingresos y ciertos otros tipos de variables aleatorias. Se estudia con más detalle en el capítulo de Distribución Especial.

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución de Pareto con parámetro de forma\(a \in (0, \infty)\) y parámetro de escala desconocidos\(b \in (0, \infty)\). El estimador de máxima verosimilitud de\( b \) es\( X_{(1)} = \min\{X_1, X_2, \ldots, X_n\} \), el estadístico de primer orden. El estimador de máxima verosimilitud de\( a \) es\[ U = \frac{n}{\sum_{i=1}^n \ln X_i - n \ln X_{(1)}} = \frac{n}{\sum_{i=1}^n \left(\ln X_i - \ln X_{(1)}\right)}\]

    Prueba

    Tenga en cuenta que\( \ln g(x) = \ln a + a \ln b - (a + 1) \ln x \) para\( x \in [b, \infty) \). De ahí que la función log-verosimilitud correspondiente a los datos\( \bs{x} = (x_1, x_2, \ldots, x_n) \) sea\[ \ln L_\bs{x}(a, b) = n \ln a + n a \ln b - (a + 1) \sum_{i=1}^n \ln x_i; \quad 0 \lt a \lt \infty, \, 0 \lt b \le x_i \text{ for each } i \in \{1, 2, \ldots, n\} \] Equivalentemente, el dominio es\( 0 \lt a \lt \infty \) y\( 0 \lt b \le x_{(1)} \). Tenga en cuenta que\( \ln L_{\bs{x}}(a, b) \) está aumentando en\( b \) para cada uno\( a \), y por lo tanto se maximiza cuando\( b = x_{(1)} \) para cada uno\( a \). Siguiente,\[ \frac{d}{d a} \ln L_{\bs{x}}\left(a, x_{(1)}\right) = \frac{n}{a} + n \ln x_{(1)} - \sum_{i=1}^n \ln x_i \] La derivada es 0 cuando\( a = n \big/ \left(\sum_{i=1}^n \ln x_i - n \ln x_{(1)}\right) \). Finalmente,\( \frac{d^2}{da^2} \ln L_\bs{x}\left(a, x_{(1)}\right) = -n / a^2 \lt 0 \), por lo que el máximo ocurre en el punto crítico.

    Recordemos que si\(a \gt 2\), el método de los estimadores de momentos de\(a\) y\( b \) son\[ 1 + \sqrt{\frac{M_2}{M_2 - M^2}}, \; \frac{M_2}{M} \left(1 - \sqrt{\frac{M_2 - M^2}{M_2}}\right)\]

    Abrir el experimento de estimación de Pareto. Ejecutar el experimento 1000 veces para varios valores del tamaño de la muestra\(n\) y los parámetros\(a\) y\( b \). Comparar el método de momentos y estimadores de máxima verosimilitud. ¿Qué estimadores parecen funcionar mejor en términos de sesgo y error cuadrático medio?

    A menudo se conoce el parámetro de escala en la distribución de Pareto.

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución de Pareto con parámetro de forma desconocido\(a \in (0, \infty)\) y parámetro de escala conocido\(b \in (0, \infty)\). El estimador de máxima verosimilitud de\( a \) es\[ U = \frac{n}{\sum_{i=1}^n \ln X_i - n \ln b} = \frac{n}{\sum_{i=1}^n \left(\ln X_i - \ln b \right)}\]

    Prueba

    Modificando la prueba anterior, la función de verosimilitud logarítmica correspondiente a\[ \ln L_\bs{x}(a) = n \ln a + n a \ln b - (a + 1) \sum_{i=1}^n \ln x_i, \quad 0 \lt a \lt \infty \] los datos\( \bs{x} = (x_1, x_2, \ldots, x_n) \) es\[ \frac{d}{d a} \ln L_{\bs{x}}(a) = \frac{n}{a} + n \ln b - \sum_{i=1}^n \ln x_i \] La derivada es La derivada es 0 cuando\( a = n \big/ \left(\sum_{i=1}^n \ln x_i - n \ln b\right) \). Finalmente,\( \frac{d^2}{da^2} \ln L_\bs{x}(a) = -n / a^2 \lt 0 \), por lo que el máximo ocurre en el punto crítico.

    Distribuciones Uniformes

    En esta sección estudiaremos problemas de estimación relacionados con la distribución uniforme que son una buena fuente de conocimiento y contraejemplos. En cierto sentido, nuestro primer problema de estimación es el análogo continuo de un problema de estimación estudiado en la sección de Estadísticas de Orden en el capítulo Modelos de Muestreo Finito. Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución uniforme en el intervalo\([0, h]\), donde\(h \in (0, \infty)\) es un parámetro desconocido. Así, la distribución de muestreo tiene función de densidad de probabilidad\[ g(x) = \frac{1}{h}, \quad x \in [0, h] \] Primero revisemos los resultados de la última sección.

    El método de estimador de momentos de\(h\) es\(U = 2 M\). El estimador\(U\) satisface las siguientes propiedades:

    1. \(U\)es imparcial.
    2. \(\var(U) = \frac{h^2}{3 n}\)así\(U\) es consistente.

    Ahora encontremos el estimador de máxima verosimilitud

    El estimador de máxima verosimilitud de\(h\) es\(X_{(n)} = \max\{X_1, X_2, \ldots, X_n\}\), el estadístico de orden\(n\) th. El estimador\(X_{(n)}\) satisface las siguientes propiedades:

    1. \(\E\left(X_{(n)}\right) = \frac{n}{n + 1} h\)
    2. \(\bias\left(X_{(n)}\right) = -\frac{h}{n+1}\)por lo que\(X_{(n)}\) es sesgado negativamente pero asintóticamente imparcial.
    3. \(\var\left(X_{(n)}\right) = \frac{n}{(n+2)(n+1)^2} h^2\)
    4. \(\mse\left(X_{(n)}\right) = \frac{2}{(n+1)(n+2)}h^2\)por lo que\(X_{(n)}\) es consistente.
    Prueba

    La función de verosimilitud correspondiente a los datos\( \bs{x} = (x_1, x_2, \ldots, x_n) \) es\( L_\bs{x}(h) = 1 / h^n \)\( h \ge x_i \) para cada uno\( i \in \{1, 2, \ldots n\} \). El dominio es equivalente a\( h \ge x_{(n)} \). La función\( h \mapsto 1 / h^n \) es decreciente, y así el máximo ocurre en el valor más pequeño, a saber\( x_{(n)} \). Las partes (a) y (c) son reexpresiones de resultados de la sección de estadísticas de orden. Las partes (b) y (d) siguen de (a) y (c).

    Dado que el valor esperado de\(X_{(n)}\) es un múltiplo conocido del parámetro\(h\), podemos construir fácilmente un estimador imparcial.

    Vamos\(V = \frac{n+1}{n} X_{(n)}\). El estimador\(V\) satisface las siguientes propiedades:

    1. \(V\)es imparcial.
    2. \(\var(V) = \frac{h^2}{n(n + 2)}\)por lo que\(V\) es consistente.
    3. La eficiencia relativa asintótica de\(V\) a\(U\) es infinita.
    Prueba

    Las partes (a) y (b) siguen del resultado anterior y propiedades básicas del valor esperado y varianza. Para la parte c),\[ \frac{\var(U)}{\var(V)} = \frac{h^2 / 3 n}{h^2 / n (n + 2)} = \frac{n + 2}{3} \to \infty \text{ as } n \to \infty \]

    La última parte muestra que la versión imparcial\(V\) del estimador de máxima verosimilitud es un estimador mucho mejor que el método del estimador de momentos\(U\). De hecho, un estimador como\(V\), cuyo error cuadrático medio disminuye en el orden de\(\frac{1}{n^2}\), se llama súper eficiente. Ahora, habiendo encontrado un estimador realmente bueno, veamos si podemos encontrar uno realmente malo. Un candidato natural es un estimador basado en\(X_{(1)} = \min\{X_1, X_2, \ldots, X_n\}\), el estadístico de primer orden. El siguiente resultado hará que los cómputos sean muy fáciles.

    La muestra\(\bs{X} = (X_1, X_2, \ldots, X_n)\) satisface las siguientes propiedades:

    1. \(h - X_i\)se distribuye uniformemente\([0, h]\) para cada uno\(i\).
    2. \((h - X_1, h - X_2, \ldots, h - X_n)\)es también una muestra aleatoria de la distribución uniforme en\([0, h]\).
    3. \(X_{(1)}\)tiene la misma distribución que\(h - X_{(n)}\).
    Prueba
    1. Esto es una consecuencia simple del hecho de que las distribuciones uniformes se conservan bajo transformaciones lineales en la variable aleatoria.
    2. Esto se desprende de (a) y que el hecho de que si\( \bs{X} \) es una secuencia de variables independientes, entonces así es\( (h - X_1, h - X_2, \ldots, h - X_n) \).
    3. De la parte (b),\( X_{(1)} = \min\{X_1, X_2, \ldots, X_n\} \) tiene la misma distribución que\( \min\{h - X_1, h - X_2, \ldots, h - X_n\} = h - \max\{X_1, X_2, \ldots, X_n\} = h - X_{(n)} \).

    Ahora podemos construir nuestro estimador realmente malo.

    Vamos\(W = (n + 1)X_{(1)}\). Entonces

    1. \( W \)es un estimador imparcial de\( h \).
    2. \(\var(W) = \frac{n}{n+2} h^2\), por lo que ni siquiera\(W\) es consistente.
    Prueba

    Estos resultados se desprenden de los anteriores:

    1. \( \E(X_{(1)}) = h - \E(X_{(n)}) = h - \frac{n}{n + 1} h = \frac{1}{n + 1} h \)y por lo tanto\( \E(W) = h \).
    2. \( \var(W) = (n + 1)^2 \var(X_{(1)}) = (n + 1)^2 \var(h - X_{(n)}) = (n + 1)^2 \frac{n}{(n + 1)^2 (n + 2)} h^2 = \frac{n}{n + 2} h^2\).

    Ejecutar el experimento de estimación uniforme 1000 veces para varios valores del tamaño de la muestra\(n\) y el parámetro\(a\). En cada caso, comparar el sesgo empírico y el error cuadrático medio de los estimadores con sus valores teóricos. Clasificar los estimadores en términos de error cuadrático medio empírico.

    Nuestra próxima serie de ejercicios demostrará que el estimador de máxima verosimilitud no es necesariamente único. Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de la distribución uniforme en el intervalo\([a, a + 1]\), donde\(a \in \R\) es un parámetro desconocido. Así, la distribución de muestreo tiene función de densidad de probabilidad\[ g(x) = 1, \quad a \le x \le a + 1 \] Como es habitual, primero revisemos el método del estimador de momentos.

    El método de estimador de momentos de\(a\) es\(U = M - \frac{1}{2}\). El estimador\(U\) satisface las siguientes propiedades:

    1. \(U\)es imparcial.
    2. \(\var(U) = \frac{1}{12 n}\)así\(U\) es consistente.

    Sin embargo, como se prometió, no existe un estimador único de máxima verosimilitud.

    Cualquier estadística\(V \in \left[X_{(n)} - 1, X_{(1)}\right]\) es un estimador de máxima verosimilitud de\(a\).

    Prueba

    La función de verosimilitud correspondiente a los datos\( \bs{x} = (x_1, x_2, \ldots, x_n\} \) es\( L_\bs{x}(a) = 1 \) para\( a \le x_i \le a + 1 \) y\( i \in \{1, 2, \ldots, n\} \). El dominio es equivalente a\( a \le x_{(1)} \) y\( a \ge x_{(n)} - 1 \). Dado que la función de verosimilitud es constante en este dominio, el resultado sigue.

    Para completar, consideremos el problema de estimación completa. Supongamos que\( \bs{X} = (X_1, X_2, \ldots, X_n) \) es una muestra aleatoria de tamaño\( n \) a partir de la distribución uniforme sobre\( [a, a + h] \) dónde\( a \in \R \) y ambas\( h \in (0, \infty) \) son desconocidas. Aquí está el resultado de la última sección:

    Dejar\( U \) y\( V \) denotar el método de los estimadores de momentos de\( a \) y\( h \), respectivamente. Entonces\[ U = 2 M - \sqrt{3} T, \quad V = 2 \sqrt{3} T \] donde\( M = \frac{1}{n} \sum_{i=1}^n X_i \) está la media muestral, y\( T = \frac{1}{n} \sum_{i=1}^n (X_i - M)^2 \) es la versión sesgada de la varianza muestral.

    No debería sorprender en este punto que los estimadores de máxima verosimilitud sean funciones de las estadísticas de orden mayor y menor.

    Los estimadores de máxima verosimilitud o\( a \) y\( h \) son\( U = X_{(1)} \) y\( V = X_{(n)} - X_{(1)} \), respectivamente.

    1. \( E(U) = a + \frac{h}{n + 1} \)así\( U \) es sesgado positivamente y asintóticamente imparcial.
    2. \( E(V) = h \frac{n - 1}{n + 1} \)así\( V \) es sesgada negativamente y asintóticamente imparcial.
    3. \( \var(U) = h^2 \frac{n}{(n + 1)^2 (n + 2)} \)así\( U \) es consistente.
    4. \( \var(V) = h^2 \frac{2(n - 1)}{(n + 1)^2(n + 2)} \)así\( V \) es consistente.
    Prueba

    La función de verosimilitud correspondiente a los datos\( \bs{x} = (x_1, x_2, \ldots, x_n) \) es\( L_\bs{x}(a, h) = \frac{1}{h^n} \) para\( a \le x_i \le a + h \) y\( i \in \{1, 2, \ldots, n\} \). El dominio es equivalente a\( a \le x_{(1)} \) y\( a + h \ge x_{(n)} \). Dado que la función de verosimilitud depende únicamente de\( h \) en este dominio y es decreciente, el máximo ocurre cuando\( a = x_{(1)} \) y\( h = x_{(n)} - x_{(1)} \). Las partes (a) — (d) siguen de los resultados estándar para las estadísticas de orden de la distribución uniforme.

    El modelo hipergeométrico

    En todos nuestros ejemplos anteriores, la secuencia de variables aleatorias observadas\( \bs{X} = (X_1, X_2, \ldots, X_n) \) es una muestra aleatoria de una distribución. Sin embargo, la máxima verosimilitud es un método muy general que no requiere que las variables de observación sean independientes o distribuidas de manera idéntica. En el modelo hipergeométrico, tenemos una población de\( N \) objetos con\( r \) del tipo de objetos 1 y los\( N - r \) objetos restantes tipo 0. El tamaño de la población\( N \), es un entero positivo. El tamaño tipo 1\( r \), es un entero no negativo con\( r \le N \). Estos son los parámetros básicos, y normalmente se desconoce uno o ambos. Aquí hay algunos ejemplos típicos:

    1. Los objetos son dispositivos, clasificados como buenos o defectuosos.
    2. Los objetos son personas, clasificadas como femeninas o masculinas.
    3. Los objetos son electores, clasificados a favor o en contra de un candidato en particular.
    4. Los objetos son vida silvestre o un tipo particular, ya sea etiquetados o sin etiquetar.

    Muestreamos\( n \) objetos de la población al azar, sin reemplazo. \( X_i \)Sea el tipo del objeto\( i \) th seleccionado, de manera que nuestra secuencia de variables observadas sea\( \bs{X} = (X_1, X_2, \ldots, X_n) \). Las variables son variables indicadoras distribuidas idénticamente, con\( P(X_i = 1) = r / N \) para cada una\( i \in \{1, 2, \ldots, n\} \), pero son dependientes ya que el muestreo es sin reemplazo. El número de objetos tipo 1 en la muestra es\( Y = \sum_{i=1}^n X_i \). Esta estadística tiene la distribución hipergeométrica con parámetro\( N \),, y\( r \)\( n \), y tiene la función de densidad de probabilidad dada por\[ P(Y = y) = \frac{\binom{r}{y} \binom{N - r}{n - y}}{\binom{N}{n}} = \binom{n}{y} \frac{r^{(y)} (N - r)^{(n - y)}}{N^{(n)}}, \quad y \in \{\max\{0, N - n + r\}, \ldots, \min\{n, r\}\} \] Recall la notación de potencia descendente:\( x^{(k)} = x (x - 1) \cdots (x - k + 1) \) for\( x \in \R \) y\( k \in \N \). El modelo hipergeométrico se estudia con más detalle en el capítulo sobre Modelos de Muestreo Finito.

    Como anteriormente,\( \bs{X} = (X_1, X_2, \ldots, X_n) \) dejarán ser las variables observadas en el modelo hipergeométrico con parámetros\( N \) y\( r \). Entonces

    1. El estimador de máxima verosimilitud de\( r \) con\( N \) conocido es\( U = \lfloor N M \rfloor = \lfloor N Y / n \rfloor \).
    2. El estimador de máxima verosimilitud de\( N \) con\( r \) conocido es\( V = \lfloor r / M \rfloor = \lfloor r n / Y \rfloor \) si\( Y \gt 0 \).
    Prueba

    Por una simple aplicación de la regla de multiplicación, el PDF\( f \) de\( \bs{X} \) es\[ f(\bs{x}) = \frac{r^{(y)} (N - r)^{(n - y)}}{N^{(n)}}, \quad \bs{x} = (x_1, x_2, \ldots, x_n) \in \{0, 1\}^n \] donde\( y = \sum_{i=1}^n x_i \).

    1. Con\( N \) conocido, la función de verosimilitud correspondiente a los datos\(\bs{x} = (x_1, x_2, \ldots, x_n) \in \{0, 1\}^n\) es\[ L_{\bs{x}}(r) = \frac{r^{(y)} (N - r)^{(n - y)}}{N^{(n)}}, \quad r \in \{y, \ldots, \min\{n, y + N - n\}\} \] Después de algún álgebra,\( L_{\bs{x}}(r - 1) \lt L_{\bs{x}}(r) \) si y solo si y solo\((r - y)(N - r + 1) \lt r (N - r - n + y + 1)\) si y solo si\( r \lt N y / n \). Entonces el máximo de\( L_{\bs{x}}(r) \) ocurre cuando\( r = \lfloor N y / n \rfloor \).
    2. De igual manera, con\( r \) conocido, la función de verosimilitud correspondiente a los datos\(\bs{x} = (x_1, x_2, \ldots, x_n) \in \{0, 1\}^n\) es\[ L_{\bs{x}}(N) = \frac{r^{(y)} (N - r)^{(n - y)}}{N^{(n)}}, \quad N \in \{\max\{r, n\}, \ldots\} \] Después de algún álgebra,\( L_{\bs{x}}(N - 1) \lt L_{\bs{x}}(N) \) si y solo\((N - r - n + y) / (N - n) \lt (N - r) / N\) si y solo si\( N \lt r n / y \) (asumiendo\( y \gt 0 \)). Entonces el máximo de\( L_{\bs{x}}(r) \) ocurre cuando\( N = \lfloor r n / y \rfloor \).

    En el ejemplo de confiabilidad (1), normalmente podríamos saber\( N \) y estaríamos interesados en estimar\( r \). En el ejemplo de vida silvestre (4), normalmente sabríamos\( r \) y estaríamos interesados en estimar\( N \). Este ejemplo se conoce como el modelo de captura-recaptura.

    Claramente existe una estrecha relación entre el modelo hipergeométrico y el modelo de ensayos de Bernoulli anterior. De hecho, si el muestreo es con reemplazo, se\( p = r / N \) aplicaría el modelo de ensayos de Bernoulli con más que el modelo hipergeométrico. Además, si el tamaño de la población\( N \) es grande en comparación con el tamaño de la muestra\( n \), el modelo hipergeométrico es bien aproximado por el modelo de ensayos de Bernoulli, nuevamente con\( p = r / N \).


    This page titled 7.3: Máxima verosimilitud is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.