11.4: Tomar decisiones
- Page ID
- 151752
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Bien, estamos muy cerca de que terminemos. Hemos construido un estadístico de prueba (X), y elegimos este estadístico de prueba de tal manera que estamos bastante seguros de que si X está cerca de N/2 entonces deberíamos retener el nulo, y si no debemos rechazarlo. La pregunta que queda es esta: ¿exactamente qué valores del estadístico de prueba debemos asociar con la hipótesis nula y qué valores van exactamente con la hipótesis alternativa? En mi estudio ESP, por ejemplo, he observado un valor de X=62. ¿Qué decisión debo tomar? ¿Debo elegir creer la hipótesis nula, o la hipótesis alternativa?
Regiones críticas y valores críticos
Para responder a esta pregunta, necesitamos introducir el concepto de región crítica para el estadístico de prueba X. La región crítica de la prueba corresponde a aquellos valores de X que nos llevarían a rechazar hipótesis nula (razón por la cual la región crítica también es a veces llamada la región de rechazo). ¿Cómo encontramos esta región crítica? Bueno, consideremos lo que sabemos:
- X debe ser muy grande o muy pequeño para rechazar la hipótesis nula.
- Si la hipótesis nula es verdadera, la distribución muestral de X es Binomial (0.5, N).
- Si α=.05, la región crítica debe cubrir el 5% de esta distribución muestral.
Es importante asegurarse de entender este último punto: la región crítica corresponde a aquellos valores de X para los que rechazaríamos la hipótesis nula, y la distribución de muestreo en cuestión describe la probabilidad de que obtengamos un valor particular de X si la hipótesis nula fuera realmente verdadera . Ahora, supongamos que elegimos una región crítica que cubra el 20% de la distribución muestral, y supongamos que la hipótesis nula es realmente cierta. ¿Cuál sería la probabilidad de rechazar incorrectamente el nulo? La respuesta es por supuesto 20%. Y por lo tanto, habríamos construido una prueba que tuviera un nivel α de 0.2. Si queremos α=.05, la región crítica solo está permitida para cubrir el 5% de la distribución muestral de nuestro estadístico de prueba.
Resulta que esas tres cosas resuelven de manera única el problema: nuestra región crítica consiste en los valores más extremos, conocidos como las colas de la distribución. Esto se ilustra en la Figura 11.2. Como resulta, si queremos α=.05, entonces nuestras regiones críticas corresponden a X≤40 y X≥60. 161 Es decir, si el número de personas que dicen “verdadero” está entre 41 y 59, entonces deberíamos conservar la hipótesis nula. Si el número está entre 0 y 40 o entre 60 y 100, entonces debemos rechazar la hipótesis nula. A los números 40 y 60 se les suele referir como los valores críticos, ya que definen los bordes de la región crítica.
En este punto, nuestra prueba de hipótesis es esencialmente completa: (1) elegimos un nivel α (por ejemplo, α=.05, (2) ideamos algún estadístico de prueba (por ejemplo, X) que haga un buen trabajo (en algún sentido significativo) de comparar H0 con H1, (3) averiguar la distribución de muestreo del estadístico de prueba en el supuesto de que el nulo hipótesis es verdadera (en este caso, binomio) y luego (4) calcular la región crítica que produce un nivel α apropiado (0-40 y 60-100). Todo lo que tenemos que hacer ahora es calcular el valor del estadístico de prueba para los datos reales (por ejemplo, X=62) y luego compararlo con los valores críticos para tomar nuestra decisión. Dado que 62 es mayor que el valor crítico de 60, rechazaríamos la hipótesis nula. O, para expresarlo de manera ligeramente diferente, decimos que la prueba ha producido un resultado significativo.
nota sobre “significancia” estadística
Al igual que otras técnicas ocultas de adivinación, el método estadístico tiene una jerga privada deliberadamente ideada para oscurecer sus métodos de los no practicantes.
— Atribuido a G. O. Ashley 162
Una digresión muy breve está en orden en este punto, respecto a la palabra “significativo”. El concepto de significancia estadística es en realidad muy sencillo, pero tiene un nombre muy desafortunado. Si los datos nos permiten rechazar la hipótesis nula, decimos que “el resultado es estadísticamente significativo”, que a menudo se acorta a “el resultado es significativo”. Esta terminología es bastante antigua, y se remonta a una época en la que “significativo” solo significaba algo así como “indicado”, más que su significado moderno, que está mucho más cerca de “importante”. En consecuencia, muchos lectores modernos se confunden mucho cuando empiezan a aprender estadísticas, porque piensan que un “resultado significativo” debe ser importante. No significa eso en absoluto. Todo lo que significa “estadísticamente significativo” es que los datos nos permitieron rechazar una hipótesis nula. Si el resultado es realmente importante o no en el mundo real es una cuestión muy diferente, y depende de todo tipo de otras cosas.
diferencia entre pruebas de una cara y de dos caras
Hay una cosa más que quiero señalar sobre la prueba de hipótesis que acabo de construir. Si nos tomamos un momento para pensar en las hipótesis estadísticas que he estado usando,
H 0:θ=.5
H 1:θ≠ .5
notamos que la hipótesis alternativa cubre tanto la posibilidad de que θ<.5 como la posibilidad de que θ>.5. Esto tiene sentido si realmente pienso que el ESP podría producir un rendimiento mejor que el azar o un rendimiento peor que el azar (y hay algunas personas que piensan que). En lenguaje estadístico, este es un ejemplo de una prueba bilateral. Se llama así porque la hipótesis alternativa cubre el área en ambos “lados” de la hipótesis nula, y como consecuencia la región crítica de la prueba cubre ambas colas de la distribución muestral (2.5% en cada lado si α=.05), como se ilustra anteriormente en la Figura 11.2.
Sin embargo, esa no es la única posibilidad. Podría ser el caso, por ejemplo, que sólo estoy dispuesto a creer en el ESP si produce un rendimiento mejor que el azar. Si es así, entonces mi hipótesis alternativa solo cubriría la posibilidad de que θ>.5, y como consecuencia la hipótesis nula ahora se convierte en θ≤.5:
H 0: θ≤.5
H 1:θ>.5
Cuando esto sucede, tenemos lo que se llama una prueba unilateral, y cuando esto sucede, la región crítica solo cubre una cola de la distribución del muestreo. Esto se ilustra en la Figura 11.3.