9.5: Pruebas de Relación de Probabilidad

Última actualización
Guardar como PDF

Page ID: 151746

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\Z}{\mathbb{Z}}\)\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\bs}{\boldsymbol}\)

Teoría Básica

Como es habitual, nuestro punto de partida es un experimento aleatorio con un espacio muestral subyacente, y una medida de probabilidad\(\P\). En el modelo estadístico básico, tenemos una variable aleatoria observable\(\bs{X}\) tomando valores en un conjunto\(S\). En general,\(\bs{X}\) puede tener una estructura bastante complicada. Por ejemplo, si el experimento consiste en muestrear\(n\) objetos de una población y registrar diversas mediciones de interés, entonces\[ \bs{X} = (X_1, X_2, \ldots, X_n) \] dónde\(X_i\) está el vector de mediciones para el objeto\(i\) th. El caso especial más importante ocurre cuando\((X_1, X_2, \ldots, X_n)\) son independientes e idénticamente distribuidos. En este caso, tenemos una muestra aleatoria de tamaño\(n\) de la distribución común.

En las secciones anteriores, desarrollamos pruebas para parámetros basados en estadísticas de pruebas naturales. Sin embargo, en otros casos, las pruebas pueden no ser paramétricas, o puede que no haya una estadística obvia para comenzar. Por lo tanto, necesitamos un método más general para construir estadísticas de prueba. Además, aún no sabemos si las pruebas construidas hasta ahora son las mejores, en el sentido de maximizar la potencia para el conjunto de alternativas. En esta y en la siguiente sección, investigamos ambas ideas. Las funciones de verosimilitud, similares a las utilizadas en la estimación de máxima verosimilitud, jugarán un papel

Pruebas de Hipótesis Simples

Supongamos que\(\bs{X}\) tiene una de dos distribuciones posibles. Nuestras hipótesis simples son

\(H_0: \bs{X}\)tiene función de densidad de probabilidad\(f_0\).
\(H_1: \bs{X}\)tiene función de densidad de probabilidad\(f_1\).

Utilizaremos subíndices en la medida de probabilidad\(\P\) para indicar las dos hipótesis, y asumimos que\( f_0 \) y\( f_1 \) son positivas\( S \). La prueba que construiremos se basa en la siguiente idea simple: si observamos\(\bs{X} = \bs{x}\), entonces la condición\(f_1(\bs{x}) \gt f_0(\bs{x})\) es evidencia a favor de la alternativa; la desigualdad opuesta es evidencia contra la alternativa.

La función de relación de verosimilitud\( L: S \to (0, \infty) \) se define por\[ L(\bs{x}) = \frac{f_0(\bs{x})}{f_1(\bs{x})}, \quad \bs{x} \in S \] El estadístico\(L(\bs{X})\) es el estadístico de razón de verosimilitud

Revisando nuestra observación anterior, señalar que pequeños valores de\(L\) son evidencia a favor de\(H_1\). Por lo tanto, parece razonable que el estadístico de cociente de verosimilitud pueda ser un buen estadístico de prueba, y que deberíamos considerar pruebas en las que nos sometemos\(H_0\) si y solo si\(L \le l\), donde\(l\) es una constante por determinar:

El nivel de significancia de la prueba es\(\alpha = \P_0(L \le l)\).

Como es habitual, podemos intentar construir una prueba eligiendo\(l\) para que\(\alpha\) sea un valor prescrito. Si\(\bs{X}\) tiene una distribución discreta, esto solo será posible cuando\(\alpha\) sea un valor de la función de distribución de\(L(\bs{X})\).

Un caso especial importante de este modelo ocurre cuando la distribución de\(\bs{X}\) depende de un parámetro\(\theta\) que tiene dos valores posibles. Así, el espacio de parámetros es\(\{\theta_0, \theta_1\}\), y\(f_0\) denota la función de densidad de probabilidad de\(\bs{X}\) cuándo\(\theta = \theta_0\) y\(f_1\) denota la función de densidad de probabilidad de\(\bs{X}\) cuándo\(\theta = \theta_1\). En este caso, las hipótesis son equivalentes a\(H_0: \theta = \theta_0\) versus\(H_1: \theta = \theta_1\).

Como se señaló anteriormente, otro caso especial importante es cuando\( \bs X = (X_1, X_2, \ldots, X_n) \) es una muestra aleatoria de tamaño\( n \) de una distribución una variable aleatoria subyacente\( X \) tomando valores en un conjunto\( R \). En este caso,\( S = R^n \) y la función\( f \) de densidad de probabilidad de\( \bs X \) tiene la forma\[ f(x_1, x_2, \ldots, x_n) = g(x_1) g(x_2) \cdots g(x_n), \quad (x_1, x_2, \ldots, x_n) \in S \] donde\( g \) es la función de densidad de probabilidad de\( X \). Así que las hipótesis simplifican a

\( H_0: X \)tiene función de densidad de probabilidad\(g_0 \).
\( H_1: X \)tiene función de densidad de probabilidad\(g_1 \).

y el estadístico de razón de verosimilitud es\[ L(X_1, X_2, \ldots, X_n) = \prod_{i=1}^n \frac{g_0(X_i)}{g_1(X_i)} \] En este caso especial, resulta que bajo\( H_1 \), el estadístico de cociente de verosimilitud, en función del tamaño de la muestra\( n \), es una martingala.

El lema de Neyman-Pearson

El siguiente teorema es el Lema Neyman-Pearson, llamado así por Jerzy Neyman y Egon Pearson. Demuestra que la prueba dada anteriormente es de lo más potente. Recordemos que el tamaño de una región de rechazo es la significación de la prueba con esa región de rechazo.\[ R = \{\bs{x} \in S: L(\bs{x}) \le l\} \]

Considerar las pruebas con regiones de rechazo\(R\) dadas anteriormente y arbitrarias\(A \subseteq S\). Si el tamaño de\(R\) es al menos tan grande como el tamaño de\(A\) entonces la prueba con región de rechazo\(R\) es más poderosa que la prueba con región de rechazo\(A\). Es decir, si\(\P_0(\bs{X} \in R) \ge \P_0(\bs{X} \in A)\) entonces\(\P_1(\bs{X} \in R) \ge \P_1(\bs{X} \in A) \).

Prueba

Primero tenga en cuenta que a partir de las definiciones de\( L \) y\( R \) que se mantienen las siguientes desigualdades:\ begin {align}\ P_0 (\ bs {X}\ in A) &\ le l\,\ P_1 (\ bs {X}\ in A)\ text {for} A\ subseteq R\\\ P_0 (\ bs {X}\ in A) &\ ge l\,\ P_1 (\ bs {X}\ in A) &\ ge l\,\ P_1 (\ bs {X}\ in A)\ text {for} A\ subseteq R^c\ end {align} Ahora para arbitrario \( A \subseteq S \), escribir\(R = (R \cap A) \cup (R \setminus A)\) y\(A = (A \cap R) \cup (A \setminus R)\). De la aditividad de la probabilidad y de las desigualdades anteriores, se deduce que\[ \P_1(\bs{X} \in R) - \P_1(\bs{X} \in A) \ge \frac{1}{l} \left[\P_0(\bs{X} \in R) - \P_0(\bs{X} \in A)\right] \] De ahí si\(\P_0(\bs{X} \in R) \ge \P_0(\bs{X} \in A)\) entonces\(\P_1(\bs{X} \in R) \ge \P_1(\bs{X} \in A) \).

El lema Neyman-Pearson es más útil de lo que podría ser aparente a primera vista. En muchos casos importantes, la misma prueba más potente funciona para una variedad de alternativas, y por lo tanto es una prueba uniformemente más poderosa para esta gama. A continuación se discuten varios casos especiales.

Relación de probabilidad generalizada

El estadístico de cociente de verosimilitud puede generalizarse a hipótesis compuestas. Supongamos nuevamente que la función\(f_\theta\) de densidad de probabilidad de la variable de datos\(\bs{X}\) depende de un parámetro\(\theta\), tomando valores en un espacio de parámetros\(\Theta\). Consideremos las hipótesis\(\theta \in \Theta_0\) versus\(\theta \notin \Theta_0\), dónde\(\Theta_0 \subseteq \Theta\).

Definir\[ L(\bs{x}) = \frac{\sup\left\{f_\theta(\bs{x}): \theta \in \Theta_0\right\}}{\sup\left\{f_\theta(\bs{x}): \theta \in \Theta\right\}} \] La función\(L\) es la función de razón de verosimilitud y\(L(\bs{X})\) es el estadístico de razón de verosi

Por el mismo razonamiento que antes, pequeños valores de\(L(\bs{x})\) son evidencia a favor de la hipótesis alternativa.

Ejemplos y Casos Especiales

Pruebas para el Modelo Exponencial

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\( n \in \N_+ \) a partir de la distribución exponencial con parámetro scale\(b \in (0, \infty)\). Las variables de muestra pueden representar la vida útil de una muestra de dispositivos de cierto tipo. Nos interesa probar las hipótesis simples\(H_0: b = b_0\) versus\(H_1: b = b_1\), donde\(b_0, \, b_1 \in (0, \infty)\) son distintos valores especificados.

Recordemos que la suma de las variables es un estadístico suficiente para\(b\):\[ Y = \sum_{i=1}^n X_i \] Recordemos también que\(Y\) tiene la distribución gamma con parámetro shape\(n\) y parámetro scale\(b\). Para\(\alpha \gt 0\), denotaremos el cuantil de orden\(\alpha\) para la esta distribución por\(\gamma_{n, b}(\alpha)\).

El estadístico de relación de verosimilitud es\[ L = \left(\frac{b_1}{b_0}\right)^n \exp\left[\left(\frac{1}{b_1} - \frac{1}{b_0}\right) Y \right] \]

Prueba

Recordemos que el PDF\( g \) de la distribución exponencial con parámetro scale\( b \in (0, \infty) \) viene dado por\( g(x) = (1 / b) e^{-x / b} \) for\( x \in (0, \infty) \). Si\( g_j \) denota el PDF cuando\( b = b_j \) para\( j \in \{0, 1\} \) entonces\[ \frac{g_0(x)}{g_1(x)} = \frac{(1/b_0) e^{-x / b_0}}{(1/b_1) e^{-x/b_1}} = \frac{b_1}{b_0} e^{(1/b_1 - 1/b_0) x}, \quad x \in (0, \infty) \] De ahí la función de relación de verosimilitud es\[ L(x_1, x_2, \ldots, x_n) = \prod_{i=1}^n \frac{g_0(x_i)}{g_1(x_i)} = \left(\frac{b_1}{b_0}\right)^n e^{(1/b_1 - 1/b_0) y}, \quad (x_1, x_2, \ldots, x_n) \in (0, \infty)^n\] donde\( y = \sum_{i=1}^n x_i \).

Las siguientes pruebas son las pruebas más potentes a\(\alpha\) nivel

Supongamos que\(b_1 \gt b_0\). Rechazar\(H_0: b = b_0\) versus\(H_1: b = b_1\) si y solo si\(Y \ge \gamma_{n, b_0}(1 - \alpha)\).
Supongamos que\(b_1 \lt b_0\). Rechazar\(H_0: b = b_0\) versus\(H_1: b = b_1\) si y solo si\(Y \le \gamma_{n, b_0}(\alpha)\).

Prueba

Bajo\( H_0 \),\( Y \) tiene la distribución gamma con parámetros\( n \) y\( b_0 \).

Si\( b_1 \gt b_0 \) entonces\( 1/b_1 \lt 1/b_0 \). A partir del álgebra simple, una región de rechazo de la forma\( L(\bs X) \le l \) se convierte en una región de rechazo de la forma\( Y \ge y \). El valor preciso de\( y \) en términos de no\( l \) es importante. Para que la prueba tenga nivel de significancia\( \alpha \) debemos elegir\( y = \gamma_{n, b_0}(1 - \alpha) \)
Si\( b_1 \lt b_0 \) entonces\( 1/b_1 \gt 1/b_0 \). A partir del álgebra simple, una región de rechazo de la forma\( L(\bs X) \le l \) se convierte en una región de rechazo de la forma\( Y \le y \). Nuevamente, el valor preciso de\( y \) en términos de no\( l \) es importante. Para que la prueba tenga nivel de significancia\( \alpha \) debemos elegir\( y = \gamma_{n, b_0}(\alpha) \)

Tenga en cuenta que las estas pruebas no dependen del valor de\(b_1\). Este hecho, junto con la monotonicidad de la función de potencia se puede utilizar para demostrar que las pruebas son uniformemente más potentes para las pruebas unilaterales habituales.

Supongamos que\( b_0 \in (0, \infty) \).

La regla de decisión en la parte (a) anterior es uniformemente más poderosa para la prueba\(H_0: b \le b_0\) versus\(H_1: b \gt b_0\).
La regla de decisión en la parte (b) anterior es uniformemente más poderosa para la prueba\(H_0: b \ge b_0\) versus\(H_1: b \lt b_0\).

Pruebas para el modelo Bernoulli

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n \in \N_+\) de la distribución de Bernoulli con parámetro de éxito\(p\). La muestra podría representar los resultados de lanzar una moneda\(n\) veces, donde\(p\) está la probabilidad de cabezas. Deseamos probar las hipótesis simples\(H_0: p = p_0\) versus\(H_1: p = p_1\), donde\(p_0, \, p_1 \in (0, 1)\) son distintos valores especificados. En el modelo de lanzamiento de monedas, sabemos que la probabilidad de cabezas es\(p_0\) o\(p_1\), pero no sabemos cuál.

Recordemos que el número de éxitos es una estadística suficiente para\(p\):\[ Y = \sum_{i=1}^n X_i \] Recordemos también que\(Y\) tiene la distribución binomial con parámetros\(n\) y\(p\). Para\(\alpha \in (0, 1)\), denotaremos el cuantil de orden\(\alpha\) para la esta distribución por\(b_{n, p}(\alpha)\); aunque dado que la distribución es discreta, sólo ciertos valores de\(\alpha\) son posibles.

El estadístico de relación de verosimilitud es\[ L = \left(\frac{1 - p_0}{1 - p_1}\right)^n \left[\frac{p_0 (1 - p_1)}{p_1 (1 - p_0)}\right]^Y\]

Prueba

Recordemos que el PDF\( g \) de la distribución de Bernoulli con parámetro\( p \in (0, 1) \) está dado por\( g(x) = p^x (1 - p)^{1 - x} \) for\( x \in \{0, 1\} \). Si\( g_j \) denota el PDF cuando\( p = p_j \) para\( j \in \{0, 1\} \) entonces\[ \frac{g_0(x)}{g_1(x)} = \frac{p_0^x (1 - p_0)^{1-x}}{p_1^x (1 - p_1^{1-x}} = \left(\frac{p_0}{p_1}\right)^x \left(\frac{1 - p_0}{1 - p_1}\right)^{1 - x} = \left(\frac{1 - p_0}{1 - p_1}\right) \left[\frac{p_0 (1 - p_1)}{p_1 (1 - p_0)}\right]^x, \quad x \in \{0, 1\} \] De ahí la función de relación de verosimilitud es\[ L(x_1, x_2, \ldots, x_n) = \prod_{i=1}^n \frac{g_0(x_i)}{g_1(x_i)} = \left(\frac{1 - p_0}{1 - p_1}\right)^n \left[\frac{p_0 (1 - p_1)}{p_1 (1 - p_0)}\right]^y, \quad (x_1, x_2, \ldots, x_n) \in \{0, 1\}^n \] donde\( y = \sum_{i=1}^n x_i \).

Las siguientes pruebas son las pruebas más potentes a\(\alpha\) nivel

Supongamos que\(p_1 \gt p_0\). Rechazar\(H_0: p = p_0\) versus\(H_1: p = p_1\) si y solo si\(Y \ge b_{n, p_0}(1 - \alpha)\).
Supongamos que\(p_1 \lt p_0\). Rechazar\(p = p_0\) versus\(p = p_1\) si y solo si\(Y \le b_{n, p_0}(\alpha)\).

Prueba

Bajo\( H_0 \),\( Y \) tiene la distribución binomial con parámetros\( n \) y\( p_0 \).

Si\( p_1 \gt p_0 \) entonces\( p_0(1 - p_1) / p_1(1 - p_0) \lt 1 \). A partir del álgebra simple, una región de rechazo de la forma\( L(\bs X) \le l \) se convierte en una región de rechazo de la forma\( Y \ge y \). El valor preciso de\( y \) en términos de no\( l \) es importante. Para que la prueba tenga nivel de significancia\( \alpha \) debemos elegir\( y = b_{n, p_0}(1 - \alpha) \)
Si\( p_1 \lt p_0 \) entonces\( p_0 (1 - p_1) / p_1 (1 - p_0) \gt 1\). A partir del álgebra simple, una región de rechazo de la forma\( L(\bs X) \le l \) se convierte en una región de rechazo de la forma\( Y \le y \). Nuevamente, el valor preciso de\( y \) en términos de no\( l \) es importante. Para que la prueba tenga nivel de significancia\( \alpha \) debemos elegir\( y = b_{n, p_0}(\alpha) \)

Tenga en cuenta que estas pruebas no dependen del valor de\(p_1\). Este hecho, junto con la monotonicidad de la función de potencia se puede utilizar para demostrar que las pruebas son uniformemente más potentes para las pruebas unilaterales habituales.

Supongamos que\( p_0 \in (0, 1) \).

La regla de decisión en la parte (a) anterior es uniformemente más poderosa para la prueba\(H_0: p \le p_0\) versus\(H_1: p \gt p_0\).
La regla de decisión en la parte (b) anterior es uniformemente más poderosa para la prueba\(H_0: p \ge p_0\) versus\(H_1: p \lt p_0\).

Pruebas en el Modelo Normal

Las pruebas unilaterales que derivamos en el modelo normal, porque\(\mu\) con\(\sigma\) conocido, para\(\mu\) con\(\sigma\) desconocido y para\(\sigma\) con\(\mu\) desconocido son todas uniformemente más poderosas. Por otro lado, ninguna de las pruebas a doble cara es uniformemente más potente.

Un ejemplo no paramétrico

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\( n \in \N_+ \), ya sea de la distribución de Poisson con el parámetro 1 o de la distribución geométrica en\(\N\) con parámetro\(p = \frac{1}{2}\). Obsérvese que ambas distribuciones tienen media 1 (aunque la distribución de Poisson tiene varianza 1 mientras que la distribución geométrica tiene varianza 2). Entonces, deseamos probar las hipótesis

\(H_0: X\)tiene función de densidad de probabilidad\(g_0(x) = e^{-1} \frac{1}{x!}\) para\(x \in \N \).
\(H_1: X\)tiene función de densidad de probabilidad\(g_1(x) = \left(\frac{1}{2}\right)^{x+1}\) para\(x \in \N\).

El estadístico de relación de verosimilitud es\[ L = 2^n e^{-n} \frac{2^Y}{U} \text{ where } Y = \sum_{i=1}^n X_i \text{ and } U = \prod_{i=1}^n X_i! \]

Prueba

Tenga en cuenta que\[ \frac{g_0(x)}{g_1(x)} = \frac{e^{-1} / x!}{(1/2)^{x+1}} = 2 e^{-1} \frac{2^x}{x!}, \quad x \in \N \] De ahí la función de razón de verosimilitud es\[ L(x_1, x_2, \ldots, x_n) = \prod_{i=1}^n \frac{g_0(x_i)}{g_1(x_i)} = 2^n e^{-n} \frac{2^y}{u}, \quad (x_1, x_2, \ldots, x_n) \in \N^n \] donde\( y = \sum_{i=1}^n x_i \)\( u = \prod_{i=1}^n x_i! \)

Las pruebas más potentes tienen la siguiente forma, donde\(d\) es una constante: rechazar\(H_0\) si y solo si\(\ln(2) Y - \ln(U) \le d\).

Prueba

Una región de rechazo de la forma\( L(\bs X) \le l \) equivale a\[\frac{2^Y}{U} \le \frac{l e^n}{2^n}\] tomar el logaritmo natural, esto es equivalente a\( \ln(2) Y - \ln(U) \le d \) donde\( d = n + \ln(l) - n \ln(2) \)