9.2: Resultados y los Errores Tipo I y Tipo II
- Page ID
- 151049
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Cuando se realiza una prueba de hipótesis, hay cuatro resultados posibles dependiendo de la verdad real (o falsedad) de la hipótesis nula\(H_0\) y la decisión de rechazar o no. Los resultados se resumen en la siguiente tabla:
\(\textbf{Statistical Decision}\) | \(\bf{H_0} \textbf{ is actually...}\) | |
---|---|---|
\ (\ textbf {Decisión estadística}\)” style="vertical-align:middle; "> | \ (\ bf {H_0}\ textbf {es realmente...}\)” style="vertical-align:middle; "> True | Falso |
\ (\ textbf {Decisión estadística}\)” style="vertical-align:middle; ">No se puede aceptar\(H_0\) | \ (\ bf {H_0}\ textbf {es realmente...}\)” style="vertical-align:middle; ">Error de tipo I | Resultado correcto |
\ (\ textbf {Decisión estadística}\)” style="vertical-align:middle; ">No se puede rechazar\(H_0\) | \ (\ bf {H_0}\ textbf {es realmente...}\)” style="vertical-align:middle; ">Resultado correcto | Error de tipo II |
Los cuatro posibles resultados en la tabla son:
- La decisión es no puede rechazarse\(\bf{H_0}\) cuando\(\bf{H_0}\) es verdadera (decisión correcta).
- La decisión es no se puede aceptar\(\bf{H_0}\) cuando\(\bf{H_0}\) es verdadera (decisión incorrecta conocida como error de Tipo I). Este caso se describe como “rechazar un buen nulo”. Como veremos más adelante, es este tipo de error el que nos protegeremos fijando la probabilidad de cometer tal error. El objetivo es NO tomar una acción que sea un error.
- La decisión es no puede rechazarse\(\bf{H_0}\) cuando, de hecho,\(\bf{H_0}\) es falsa (decisión incorrecta conocida como error Tipo II). A esto se le llama “aceptar un falso nulo”. En esta situación se ha permitido que el status quo permanezca vigente cuando debería ser volcado. Como veremos, la hipótesis nula tiene la ventaja en la competencia con la alternativa.
- La decisión es no puede aceptar\(\bf{H_0}\) cuando\(\bf{H_0}\) es falsa (decisión correcta).
Cada uno de los errores ocurre con una probabilidad particular. Las letras griegas\(\alpha\) y\(\beta\) representan las probabilidades.
- \(\alpha\)= probabilidad de un error Tipo I =\(\bf{P}\) (Error Tipo I) = probabilidad de rechazar la hipótesis nula cuando la hipótesis nula es verdadera: rechazar un buen nulo.
- \(\beta\)= probabilidad de un error Tipo II =\(\bf{P}\) (Error Tipo II) = probabilidad de no rechazar la hipótesis nula cuando la hipótesis nula es falsa. (\(1 − \beta\)) se llama el Poder de la Prueba.
\(\alpha\)y\(\beta\) deben ser lo más pequeñas posible porque son probabilidades de errores.
La estadística nos permite establecer la probabilidad de que estemos cometiendo un error de Tipo I. La probabilidad de cometer un error de Tipo I es\(\alpha\). Recordemos que los intervalos de confianza en la última unidad se establecieron eligiendo un valor llamado\(Z_{\alpha}\) (o\(t_{\alpha}\)) y el valor alfa determinó el nivel de confianza de la estimación porque era la probabilidad de que el intervalo no lograra capturar la media verdadera (o parámetro de proporción\(p\)). Este alfa y aquel son lo mismo.
La forma más fácil de ver la relación entre el error alfa y el nivel de confianza es con la siguiente figura.
En el centro de la Figura 9.2 se encuentra marcada una distribución de muestreo normalmente distribuida\(H_0\). Esta es una distribución muestral de\(\overline X\) y por el Teorema del Límite Central se distribuye normalmente. La distribución en el centro está marcada\(H_0\) y representa la distribución para las hipótesis nulas\(H_0\):\(\mu = 100\). Este es el valor que se está probando. Los enunciados formales de las hipótesis nulas y alternativas se enumeran a continuación de la figura.
Las distribuciones a ambos lados de la\(H_0\) distribución representan distribuciones que serían verdaderas si\(H_0\) son falsas, bajo la hipótesis alternativa listada como Ha. No sabemos cuál es la verdad, y nunca lo sabremos. De hecho, hay un número infinito de distribuciones a partir de las cuales se podrían haber extraído los datos si Ha es cierto, pero sólo dos de ellas están en la Figura 9.2 representando a todos los demás.
Para probar una hipótesis tomamos una muestra de la población y determinamos si podría provenir de la distribución hipotética con un nivel aceptable de significancia. Este nivel de significancia es el error alfa y se marca en la Figura 9.2 como las áreas sombreadas en cada cola de la\(H_0\) distribución. (Cada área es en realidad\ alfa/2 porque la distribución es simétrica y la hipótesis alternativa permite que el valor sea mayor o menor que el valor hipotético, llamado prueba de dos colas).
Si la media muestral marcada como\(\overline{X}_{1}\) está en la cola de la distribución de\(H_0\), concluimos que la probabilidad de que pudiera provenir de la\(H_0\) distribución es menor que alfa. En consecuencia afirmamos, “la hipótesis nula no puede ser aceptada con (\ alpha) nivel de significación”. La verdad puede ser que esto\(\overline{X}_{1}\) sí vino de la\(H_0\) distribución, pero de afuera en la cola. Si esto es así entonces hemos rechazado falsamente una hipótesis nula verdadera y hemos cometido un error Tipo I. Lo que las estadísticas han hecho es proporcionar una estimación sobre lo que sabemos, y lo que controlamos, y esa es la probabilidad de que nos equivoquemos,\(\alpha\).
También podemos ver en la Figura 9.2 que la media muestral podría ser realmente de una distribución de Ha, pero dentro del límite establecido por el nivel alfa. Tal caso está marcado como\(\overline{X}_{2}\). Hay una probabilidad de que\(\overline{X}_{2}\) realmente vino de Ha pero aparece en el rango de\(H_0\) entre las dos colas. Esta probabilidad es el error beta, la probabilidad de aceptar un falso nulo.
Nuestro problema es que sólo podemos establecer el error alfa porque hay un número infinito de distribuciones alternativas de las que podría haber venido la media que no son iguales a\(H_0\). En consecuencia, el estadístico coloca la carga de la prueba en la hipótesis alternativa. Es decir, no rechazaremos una hipótesis nula a menos que haya una probabilidad mayor que 90, o 95, o incluso 99 por ciento de que el nulo sea falso: la carga de la prueba recae en la hipótesis alternativa. Es por ello que antes llamamos a esto la tiranía del statu quo.
A modo de ejemplo, el sistema judicial estadounidense comienza con el concepto de que un acusado es “presumido inocente”. Este es el status quo y es la hipótesis nula. El juez le dirá al jurado que no podrá encontrar culpable al acusado a menos que las pruebas indiquen culpabilidad más allá de una “duda razonable” que generalmente se define en las causas penales como 95% de certeza de culpabilidad. Si el jurado no puede aceptar al nulo, inocente, entonces se tomará acción, tiempo en la cárcel. La carga de la prueba siempre recae en la hipótesis alternativa. (En los casos civiles, el jurado sólo necesita estar más del 50% seguro de haber cometido faltas para encontrar la culpabilidad, llamada “preponderancia de las pruebas”).
El ejemplo anterior fue para una prueba de una media, pero la misma lógica se aplica a las pruebas de hipótesis para todos los parámetros estadísticos que uno desee probar.
Los siguientes son ejemplos de errores Tipo I y Tipo II.
Ejemplo 9.4
Supongamos que la hipótesis nula\(H_0\),, es: El equipo de escalada en roca de Frank es seguro.
Error tipo I: Frank piensa que su equipo de escalada en roca puede no ser seguro cuando, de hecho, realmente es seguro.
Error tipo II: Frank piensa que su equipo de escalada en roca puede estar seguro cuando, de hecho, no es seguro.
\(\bf{\alpha =}\)probabilidad de que Frank piense que su equipo de escalada puede no ser seguro cuando, de hecho, realmente es seguro. \(\bf{\beta =}\)probabilidad de que Frank piense que su equipo de escalada en roca puede ser seguro cuando, de hecho, no es seguro.
Observe que, en este caso, el error con mayor consecuencia es el error Tipo II. (Si Frank piensa que su equipo de escalada en roca es seguro, seguirá adelante y lo usará).
Se trata de una situación descrita como “aceptar un falso nulo”.
Ejemplo 9.5
Supongamos que la hipótesis nula\(H_0\),, es: La víctima de un accidente automovilístico está viva cuando llega a la sala de urgencias de un hospital. Este es el status quo y no requiere ninguna acción si es cierto. Si no se puede aceptar la hipótesis nula entonces se requiere acción y el hospital iniciará los procedimientos correspondientes.
Error tipo I: El equipo de emergencia piensa que la víctima está muerta cuando, de hecho, la víctima está viva. Error tipo II: El equipo de emergencia no sabe si la víctima está viva cuando, de hecho, la víctima está muerta.
\(\bf{\alpha =}\)probabilidad de que el equipo de emergencia piense que la víctima está muerta cuando, de hecho, está realmente vivo = P (error Tipo I). \(\bf{\beta =}\)probabilidad de que el equipo de emergencia no sepa si la víctima está viva cuando, de hecho, la víctima está muerta = P (error Tipo II).
El error con mayor consecuencia es el error Tipo I. (Si el equipo de emergencia piensa que la víctima está muerta, no lo van a tratar).
Ejercicio 9.5
Supongamos que la hipótesis nula\(H_0\),, es: un paciente no está enfermo. ¿Qué tipo de error tiene la mayor consecuencia, Tipo I o Tipo II?
Ejemplo 9.6
Es un Boy Genetic Labs afirma ser capaz de aumentar la probabilidad de que un embarazo resulte en el nacimiento de un niño. Los estadísticos quieren probar el reclamo. Supongamos que la hipótesis nula,\(H_0\), es: It's a Boy Genetic Labs no tiene ningún efecto sobre el resultado de género. El status quo es que la afirmación es falsa. La carga de la prueba siempre recae en la persona que realiza la reclamación, en este caso el Laboratorio de Genética.
Error tipo I: Esto resulta cuando se rechaza una hipótesis nula verdadera. En el contexto de este escenario, afirmaríamos que creemos que It's a Boy Genetic Labs influye en el resultado de género, cuando de hecho no tiene ningún efecto. La probabilidad de que ocurra este error se denota por la letra griega alfa,\ alpha.
Error tipo II: Esto resulta cuando fallamos en rechazar una hipótesis nula falsa. En contexto, afirmaríamos que It's a Boy Genetic Labs no influye en el resultado de género de un embarazo cuando, de hecho, sí lo hace. La probabilidad de que ocurra este error se denota con la letra griega beta,\ beta.
El error de mayor consecuencia sería el error Tipo I ya que las parejas usarían el producto It's a Boy Genetic Labs con la esperanza de aumentar las posibilidades de tener un niño.
Ejercicio 9.6
La “marea roja” es una floración de algas productoras de veneno, unas pocas especies diferentes de una clase de plancton llamada dinoflagelados. Cuando el clima y las condiciones del agua provocan estas floraciones, los mariscos como las almejas que viven en la zona desarrollan niveles peligrosos de una toxina inductora de parálisis. En Massachusetts, la División de Pesca Marina (DMF) monitorea los niveles de la toxina en los mariscos mediante el muestreo regular de mariscos a lo largo de la costa. Si el nivel medio de toxina en almejas supera los 800 μg (microgramos) de toxina por kg de carne de almeja en cualquier área, la recolección de almejas está prohibida allí hasta que la floración haya terminado y los niveles de toxina en las almejas disminuyan. Describir tanto un error de Tipo I como de Tipo II en este contexto, y declarar qué error tiene la mayor consecuencia.
Ejemplo 9.7
Cierto fármaco experimental afirma una tasa de curación de al menos 75% para los varones con cáncer de próstata. Describir los errores Tipo I y Tipo II en contexto. ¿Qué error es el más grave?
Tipo I: Un paciente con cáncer cree que la tasa de curación del medicamento es inferior al 75% cuando en realidad es de al menos 75%.
Tipo II: Un paciente con cáncer cree que el fármaco experimental tiene al menos una tasa de curación del 75% cuando tiene una tasa de curación inferior al 75%.
En este escenario, el error Tipo II contiene la consecuencia más severa. Si un paciente cree que el medicamento funciona al menos el 75% del tiempo, lo más probable es que esto influya en la elección del paciente (y del médico) sobre si usar el medicamento como opción de tratamiento.