9.1: Introducción a las pruebas de hipótesis
- Page ID
- 151775
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Teoría Básica
Preliminares
Como es habitual, nuestro punto de partida es un experimento aleatorio con un espacio muestral subyacente y una medida de probabilidad\(\P\). En el modelo estadístico básico, tenemos una variable aleatoria observable\(\bs{X}\) tomando valores en un conjunto\(S\). En general,\(\bs{X}\) puede tener una estructura bastante complicada. Por ejemplo, si el experimento consiste en muestrear\(n\) objetos de una población y registrar diversas mediciones de interés, entonces\[ \bs{X} = (X_1, X_2, \ldots, X_n) \] dónde\(X_i\) está el vector de mediciones para el objeto\(i\) th. El caso especial más importante ocurre cuando\((X_1, X_2, \ldots, X_n)\) son independientes e idénticamente distribuidos. En este caso, tenemos una muestra aleatoria de tamaño\(n\) de la distribución común.
El propósito de esta sección es definir y discutir los conceptos básicos de las pruebas de hipótesis estadísticas. Colectivamente, estos conceptos son a veces referidos como el marco de Neyman-Pearson, en honor a Jerzy Neyman y Egon Pearson, quienes primero los formalizaron.
Hipótesis
Una hipótesis estadística es una afirmación sobre la distribución de\(\bs{X}\). Equivalentemente, una hipótesis estadística especifica un conjunto de posibles distribuciones de\(\bs{X}\): el conjunto de distribuciones para las que la declaración es verdadera. Una hipótesis que especifica una distribución única para\(\bs{X}\) se llama simple; una hipótesis que especifica más de una distribución para\(\bs{X}\) se llama compuesta.
En las pruebas de hipótesis, el objetivo es ver si existe evidencia estadística suficiente para rechazar una hipótesis presunta nula a favor de una hipótesis alternativa conjeturada. La hipótesis nula generalmente se denota\(H_0\) mientras que la hipótesis alternativa generalmente se denota\(H_1\).
Una prueba de hipótesis es una decisión estadística; la conclusión será rechazar la hipótesis nula a favor de la alternativa, o no rechazar la hipótesis nula. La decisión que tomemos debe, por supuesto, basarse en el valor observado\(\bs{x}\) del vector de datos\(\bs{X}\). Así, encontraremos un subconjunto apropiado\(R\) del espacio muestral\(S\) y rechazaremos\(H_0\) si y solo si\(\bs{x} \in R\). El conjunto\(R\) se conoce como la región de rechazo o la región crítica. Obsérvese la asimetría entre las hipótesis nulas y alternativas. Esta asimetría se debe a que asumimos la hipótesis nula, en cierto sentido, para luego ver si hay evidencia suficiente\(\bs{x}\) para volcar este supuesto a favor de la alternativa.
Una prueba de hipótesis es una analogía estadística a prueba por contradicción, en cierto sentido. Supongamos por un momento que\(H_1\) es una afirmación en una teoría matemática y esa\(H_0\) es su negación. Una manera que podemos probar\(H_1\) es asumir\(H_0\) y trabajar nuestro camino lógicamente a una contradicción. En una prueba de hipótesis, no probamos
nada por supuesto, pero hay similitudes. Asumimos\(H_0\) y luego vemos si los datos\(\bs{x}\) están suficientemente en desacuerdo con esa suposición que nos sentimos justificados\(H_0\) en rechazar a favor de\(H_1\).
A menudo, la región crítica se define en términos de una estadística\(w(\bs{X})\), conocida como estadística de prueba, donde\(w\) es una función de\(S\) a otro conjunto\(T\). Encontramos una región de rechazo apropiada\(R_T \subseteq T\) y rechazamos\(H_0\) cuando el valor observado\(w(\bs{x}) \in R_T\). Así, la región de rechazo en\(S\) es entonces\(R = w^{-1}(R_T) = \left\{\bs{x} \in S: w(\bs{x}) \in R_T\right\}\). Como es habitual, el uso de una estadística a menudo permite una reducción significativa de los datos cuando la dimensión del estadístico de prueba es mucho menor que la dimensión del vector de datos.
Errores
La decisión última puede ser correcta o puede estar en error. Hay dos tipos de errores, dependiendo de cuál de las hipótesis es realmente cierta.
Tipos de errores:
- Un error de tipo 1 es rechazar la hipótesis nula\(H_0\) cuando\(H_0\) es verdadera.
- Un error de tipo 2 está fallando en rechazar la hipótesis nula\(H_0\) cuando la hipótesis alternativa\(H_1\) es verdadera.
De igual manera, hay dos formas de tomar una decisión correcta: podríamos rechazar\(H_0\) cuando\(H_1\) es verdad o podríamos dejar de rechazar\(H_0\) cuando\(H_0\) es verdad. Las posibilidades se resumen en la siguiente tabla:
Estado | Decisión | No rechazar\(H_0\) | Rechazar\(H_0\) |
---|---|---|
\(H_0\)Cierto | \ (H_0\) ">Correcto | \ (H_0\) ">Error de tipo 1 |
\(H_1\)Cierto | \ (H_0\) ">Error de tipo 2 | \ (H_0\) ">Correcto |
Por supuesto, cuando observamos\(\bs{X} = \bs{x}\) y tomamos nuestra decisión, o habremos tomado la decisión correcta o habremos cometido un error, y por lo general nunca sabremos cuál de estos hechos ha ocurrido. Antes de recopilar los datos, sin embargo, podemos considerar las probabilidades de los diversos errores.
Si\(H_0\) es true (es decir, la distribución de\(\bs{X}\) es especificada por\(H_0\)), entonces\(\P(\bs{X} \in R)\) es la probabilidad de un error tipo 1 para esta distribución. Si\(H_0\) es compuesto, entonces\(H_0\) especifica una variedad de distribuciones diferentes para\(\bs{X}\) y por lo tanto hay un conjunto de probabilidades de error tipo 1.
La probabilidad máxima de un error tipo 1, sobre el conjunto de distribuciones especificadas por\( H_0 \), es el nivel de significancia de la prueba o el tamaño de la región crítica.
El nivel de significancia a menudo se denota por\(\alpha\). Por lo general, la región de rechazo se construye de manera que el nivel de significancia sea un valor prescrito, pequeño (típicamente 0.1, 0.05, 0.01).
Si\(H_1\) es true (es decir, la distribución de\(\bs{X}\) es especificada por\(H_1\)), entonces\(\P(\bs{X} \notin R)\) es la probabilidad de un error tipo 2 para esta distribución. Nuevamente, si\(H_1\) es compuesto entonces\(H_1\) especifica una variedad de distribuciones diferentes para\(\bs{X}\), y así habrá un conjunto de probabilidades de error de tipo 2. Generalmente, existe una compensación entre las probabilidades de error tipo 1 y tipo 2. Si reducimos la probabilidad de un error tipo 1, al hacer que la región de rechazo\(R\) sea más pequeña, necesariamente aumentamos la probabilidad de un error tipo 2 porque la región complementaria\(S \setminus R\) es mayor.
Los casos extremos pueden darnos alguna idea. Primero consideremos la regla de decisión en la que nunca rechazamos\(H_0\), independientemente de las pruebas\(\bs{x}\). Esto corresponde a la región de rechazo\(R = \emptyset\). Un error tipo 1 es imposible, por lo que el nivel de significancia es 0. Por otro lado, la probabilidad de un error tipo 2 es 1 para cualquier distribución definida por\(H_1\). En el otro extremo, consideremos la regla de decisión en la que siempre rechazamos\(H_0\) independientemente de las pruebas\(\bs{x}\). Esto corresponde a la región de rechazo\(R = S\). Un error de tipo 2 es imposible, pero ahora la probabilidad de un error de tipo 1 es 1 para cualquier distribución definida por\(H_0\). Entre estas dos pruebas inútiles se encuentran pruebas significativas que toman\(\bs{x}\) en cuenta la evidencia.
Poder
Si\(H_1\) es cierto, para que la distribución de\(\bs{X}\) se especifique por\(H_1\), entonces\(\P(\bs{X} \in R)\), la probabilidad de rechazo\(H_0\) es la potencia de la prueba para esa distribución.
Así, el poder de la prueba para una distribución especificada por\( H_1 \) es la probabilidad de tomar la decisión correcta.
Supongamos que tenemos dos pruebas, correspondientes a regiones de rechazo\(R_1\) y\(R_2\), respectivamente, cada una con nivel de significancia\(\alpha\). La prueba con región\(R_1\) es uniformemente más potente que la prueba con región\(R_2\) si\[ \P(\bs{X} \in R_1) \ge \P(\bs{X} \in R_2) \text{ for every distribution of } \bs{X} \text{ specified by } H_1 \]
Naturalmente, en este caso, preferiríamos la primera prueba. A menudo, sin embargo, dos pruebas no se ordenarán uniformemente; una prueba será más potente para algunas distribuciones especificadas por\(H_1\) mientras que la otra prueba será más poderosa para otras distribuciones especificadas por\(H_1\).
Si una prueba tiene nivel de significancia\(\alpha\) y es uniformemente más poderosa que cualquier otra prueba con nivel de significancia\(\alpha\), entonces se dice que la prueba es una prueba uniformemente más poderosa a nivel\(\alpha\).
Claramente, una prueba uniformemente más poderosa es lo mejor que podemos hacer.
\(P\)-valor
En la mayoría de los casos, tenemos un procedimiento general que nos permite construir una prueba (es decir, una región de rechazo\(R_\alpha\)) para cualquier nivel de significación dado\(\alpha \in (0, 1)\). Por lo general,\(R_\alpha\) disminuye (en el sentido de subconjunto) como\(\alpha\) disminuye.
El \(P\)-valor del valor observado\(\bs{x}\) de\(\bs{X}\), denotado\(P(\bs{x})\), se define como el más pequeño\(\alpha\) para el cual\(\bs{x} \in R_\alpha\); es decir, el nivel de significancia más pequeño para el cual\(H_0\) se rechaza, dado\(\bs{X} = \bs{x}\).
Saber nos\(P(\bs{x})\) permite probar\(H_0\) en cualquier nivel de significancia para los datos dados\(\bs{x}\): Si\(P(\bs{x}) \le \alpha\) entonces rechazaríamos\(H_0\) a nivel de significancia\(\alpha\); si\(P(\bs{x}) \gt \alpha\) entonces no\(H_0\) rechazamos a nivel de significancia\(\alpha\). Tenga en cuenta que\(P(\bs{X})\) es una estadística. Informalmente, a menudo se\(P(\bs{x})\) puede considerar como la probabilidad de un resultado como o más extremo
que el valor observado\(\bs{x}\), donde extremo se interpreta en relación con la hipótesis nula\(H_0\).
Analogía con los sistemas de justicia
Existe una analogía útil entre las pruebas de hipótesis estadísticas y el sistema de justicia penal en Estados Unidos y otros países. Considerar a una persona acusada de un delito. La hipótesis presunta nula es que la persona es inocente del delito; la hipótesis alternativa conjeturada es que la persona es culpable del delito. La prueba de las hipótesis es un ensayo con pruebas presentadas por ambas partes que desempeñan el papel de los datos. Después de considerar las pruebas, el jurado entrega la resolución como no culpable o culpable. Obsérvese que inocente no es un posible veredicto del jurado, porque no es el punto del juicio probar que la persona es inocente. Más bien, el punto del juicio es ver si existen pruebas suficientes para revocar la hipótesis nula de que la persona es inocente a favor de la hipótesis alternativa de que la persona es culpable. Un error tipo 1 es condenar a una persona que es inocente; un error tipo 2 es absolver a una persona que es culpable. Generalmente, un error tipo 1 se considera el más grave de los dos posibles errores, por lo que en un intento de mantener la posibilidad de un error tipo 1 a un nivel muy bajo, el estándar de condena en casos penales graves está más allá de toda duda razonable.
Pruebas de un Parámetro Desconocido
La prueba de hipótesis es un concepto muy general, pero una clase especial importante ocurre cuando la distribución de la variable de datos\(\bs{X}\) depende de que un parámetro\(\theta\) tome valores en un espacio de parámetros\(\Theta\). El parámetro puede ser vectorizado, así que eso\(\bs{\theta} = (\theta_1, \theta_2, \ldots, \theta_n)\) y\(\Theta \subseteq \R^k\) para algunos\(k \in \N_+\). Las hipótesis generalmente toman la forma\[ H_0: \theta \in \Theta_0 \text{ versus } H_1: \theta \notin \Theta_0 \] donde\(\Theta_0\) es un subconjunto prescrito del espacio de parámetros\(\Theta\). En esta configuración, las probabilidades de cometer un error o una decisión correcta dependen del verdadero valor de\(\theta\). Si\(R\) es la región de rechazo, entonces la función de potencia\( Q \) viene dada por\[ Q(\theta) = \P_\theta(\bs{X} \in R), \quad \theta \in \Theta \] La función de potencia da mucha información sobre la prueba.
La función de potencia satisface las siguientes propiedades:
- \(Q(\theta)\)es la probabilidad de un error tipo 1 cuando\(\theta \in \Theta_0\).
- \(\max\left\{Q(\theta): \theta \in \Theta_0\right\}\)es el nivel de significancia de la prueba.
- \(1 - Q(\theta)\)es la probabilidad de un error tipo 2 cuando\(\theta \notin \Theta_0\).
- \(Q(\theta)\)es el poder de la prueba cuando\(\theta \notin \Theta_0\).
Si tenemos dos pruebas, podemos compararlas por medio de sus funciones de potencia.
Supongamos que tenemos dos pruebas, correspondientes a regiones de rechazo\(R_1\) y\(R_2\), respectivamente, cada una con nivel de significancia\(\alpha\). La prueba con región de rechazo\(R_1\) es uniformemente más potente que la prueba con región de rechazo\(R_2\) si es\( Q_1(\theta) \ge Q_2(\theta)\) para todos\( \theta \notin \Theta_0 \).
La mayoría de las pruebas de hipótesis de un parámetro real desconocido se\(\theta\) encuentran en tres casos especiales:
Supongamos que\( \theta \) es un parámetro real y\( \theta_0 \in \Theta \) un valor especificado. Las pruebas a continuación son respectivamente la prueba bilateral, la prueba de cola izquierda y la prueba de cola derecha, respectivamente.
- \(H_0: \theta = \theta_0\)versus\(H_1: \theta \ne \theta_0\)
- \(H_0: \theta \ge \theta_0\)versus\(H_1: \theta \lt \theta_0\)
- \(H_0: \theta \le \theta_0\)versus\(H_1: \theta \gt \theta_0\)
Así, las pruebas llevan el nombre de la alternativa conjeturada. Por supuesto, puede haber otros parámetros desconocidos además\(\theta\) (conocidos como parámetros molestos).
Equivalencia entre prueba de hipótesis y conjuntos de confianza
Existe una equivalencia entre las pruebas de hipótesis y los conjuntos de confianza para un parámetro\(\theta\).
Supongamos que\(C(\bs{x})\) es un\(1 - \alpha\) nivel de confianza establecido para\(\theta\). La siguiente prueba tiene nivel de significancia\(\alpha\) para la hipótesis\( H_0: \theta = \theta_0 \) versus\( H_1: \theta \ne \theta_0 \): Rechazar\(H_0\) si y solo si\(\theta_0 \notin C(\bs{x})\)
Prueba
Por definición,\(\P[\theta \in C(\bs{X})] = 1 - \alpha\). De ahí que si\(H_0\) es cierto para que\(\theta = \theta_0\), entonces la probabilidad de un error de tipo 1 es\(P[\theta \notin C(\bs{X})] = \alpha\).
Equivalentemente, fallamos\(H_0\) en rechazar a nivel de significancia\(\alpha\) si y solo si\(\theta_0\) está en el\(1 - \alpha\) nivel de confianza correspondiente establecido. En particular, esta equivalencia se aplica a las estimaciones de intervalo de un parámetro real\(\theta\) y las pruebas comunes para las\(\theta\) dadas anteriormente.
En cada caso a continuación, el intervalo de confianza tiene nivel de confianza\(1 - \alpha\) y la prueba tiene nivel de significancia\(\alpha\).
- Supongamos que\(\left[L(\bs{X}, U(\bs{X})\right]\) es un intervalo de confianza bilateral para\(\theta\). Rechazar\(H_0: \theta = \theta_0\) versus\(H_1: \theta \ne \theta_0\) si y solo si\(\theta_0 \lt L(\bs{X})\) o\(\theta_0 \gt U(\bs{X})\).
- Supongamos que\(L(\bs{X})\) es un límite inferior de confianza para\(\theta\). Rechazar\(H_0: \theta \le \theta_0\) versus\(H_1: \theta \gt \theta_0\) si y solo si\(\theta_0 \lt L(\bs{X})\).
- Supongamos que\(U(\bs{X})\) es un límite superior de confianza para\(\theta\). Rechazar\(H_0: \theta \ge \theta_0\) versus\(H_1: \theta \lt \theta_0\) si y solo si\(\theta_0 \gt U(\bs{X})\).
Variables de pivote y estadísticas de prueba
Recordemos que los conjuntos de confianza de un parámetro desconocido a menudo\(\theta\) se construyen a través de una variable pivote, es decir, una variable aleatoria\(W(\bs{X}, \theta)\) que depende del vector de datos\(\bs{X}\) y del parámetro\(\theta\), pero cuya distribución no depende\(\theta\) y es conocida. En este caso, es un estadístico de prueba natural para las pruebas básicas dadas anteriormente\(W(\bs{X}, \theta_0)\).