Saltar al contenido principal

# 11.5: El valor p de una prueba

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$

( \newcommand{\kernel}{\mathrm{null}\,}\) $$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\id}{\mathrm{id}}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\kernel}{\mathrm{null}\,}$$

$$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$

$$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$

$$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

$$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$$

$$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$$

$$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vectorC}[1]{\textbf{#1}}$$

$$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$$

$$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$$

$$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$$

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\avec}{\mathbf a}$$ $$\newcommand{\bvec}{\mathbf b}$$ $$\newcommand{\cvec}{\mathbf c}$$ $$\newcommand{\dvec}{\mathbf d}$$ $$\newcommand{\dtil}{\widetilde{\mathbf d}}$$ $$\newcommand{\evec}{\mathbf e}$$ $$\newcommand{\fvec}{\mathbf f}$$ $$\newcommand{\nvec}{\mathbf n}$$ $$\newcommand{\pvec}{\mathbf p}$$ $$\newcommand{\qvec}{\mathbf q}$$ $$\newcommand{\svec}{\mathbf s}$$ $$\newcommand{\tvec}{\mathbf t}$$ $$\newcommand{\uvec}{\mathbf u}$$ $$\newcommand{\vvec}{\mathbf v}$$ $$\newcommand{\wvec}{\mathbf w}$$ $$\newcommand{\xvec}{\mathbf x}$$ $$\newcommand{\yvec}{\mathbf y}$$ $$\newcommand{\zvec}{\mathbf z}$$ $$\newcommand{\rvec}{\mathbf r}$$ $$\newcommand{\mvec}{\mathbf m}$$ $$\newcommand{\zerovec}{\mathbf 0}$$ $$\newcommand{\onevec}{\mathbf 1}$$ $$\newcommand{\real}{\mathbb R}$$ $$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$$ $$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$$ $$\newcommand{\bcal}{\cal B}$$ $$\newcommand{\ccal}{\cal C}$$ $$\newcommand{\scal}{\cal S}$$ $$\newcommand{\wcal}{\cal W}$$ $$\newcommand{\ecal}{\cal E}$$ $$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$$ $$\newcommand{\gray}[1]{\color{gray}{#1}}$$ $$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$$ $$\newcommand{\rank}{\operatorname{rank}}$$ $$\newcommand{\row}{\text{Row}}$$ $$\newcommand{\col}{\text{Col}}$$ $$\renewcommand{\row}{\text{Row}}$$ $$\newcommand{\nul}{\text{Nul}}$$ $$\newcommand{\var}{\text{Var}}$$ $$\newcommand{\corr}{\text{corr}}$$ $$\newcommand{\len}[1]{\left|#1\right|}$$ $$\newcommand{\bbar}{\overline{\bvec}}$$ $$\newcommand{\bhat}{\widehat{\bvec}}$$ $$\newcommand{\bperp}{\bvec^\perp}$$ $$\newcommand{\xhat}{\widehat{\xvec}}$$ $$\newcommand{\vhat}{\widehat{\vvec}}$$ $$\newcommand{\uhat}{\widehat{\uvec}}$$ $$\newcommand{\what}{\widehat{\wvec}}$$ $$\newcommand{\Sighat}{\widehat{\Sigma}}$$ $$\newcommand{\lt}{<}$$ $$\newcommand{\gt}{>}$$ $$\newcommand{\amp}{&}$$ $$\definecolor{fillinmathshade}{gray}{0.9}$$

En cierto sentido, nuestra prueba de hipótesis está completa; hemos construido un estadístico de prueba, averiguado su distribución de muestreo si la hipótesis nula es verdadera, y luego construimos la región crítica para la prueba. Sin embargo, en realidad he omitido el número más importante de todos: el valor p. Es a este tema al que nos dirigimos ahora. Hay dos formas algo distintas de interpretar un valor p, una propuesta por Sir Ronald Fisher y la otra por Jerzy Neyman. Ambas versiones son legítimas, aunque reflejan formas muy diferentes de pensar sobre las pruebas de hipótesis. La mayoría de los libros de texto introductorios tienden a dar solo la versión de Fisher, pero creo que eso es una lástima. En mi opinión, la versión de Neyman es más limpia, y en realidad refleja mejor la lógica de la prueba de hipótesis nula. Aunque podrías estar en desacuerdo, así que he incluido ambos. Empezaré con la versión de Neyman...

## visión más suave de la toma de decisiones

Un problema con el procedimiento de prueba de hipótesis que he descrito es que no hace ninguna distinción entre un resultado tan “apenas significativo” y aquellos que son “altamente significativos”. Por ejemplo, en mi estudio ESP los datos que obtuve solo cayeron dentro de la región crítica, así que obtuve un efecto significativo, pero fue algo bastante cercano. En contraste, supongamos que realizaría un estudio en el que X=97 de mis N=100 participantes obtuvo la respuesta correcta. Esto obviamente también sería significativo, pero mi un margen mucho mayor; realmente no hay ambigüedad al respecto en absoluto. El procedimiento que describí no hace distinción alguna entre ambos. Si adopto la convención estándar de permitir α=.05 como mi tasa de error de Tipo I aceptable, entonces ambos son resultados significativos.

Aquí es donde el valor p viene muy bien. Para entender cómo funciona, supongamos que ejecutamos muchas pruebas de hipótesis en el mismo conjunto de datos: pero con un valor diferente de α en cada caso. Cuando hacemos eso para mis datos ESP originales, lo que obtendríamos es algo como esto

Valor de α Rechazar el nulo?
0.05
0.04
0.03
0.02 No
0.01 No

Cuando probamos datos ESP (X=62 éxitos de N=100 observaciones) usando niveles α de .03 y superiores, siempre nos encontraríamos rechazando la hipótesis nula. Para niveles α de .02 e inferiores, siempre terminamos conservando la hipótesis nula. Por lo tanto, en algún lugar entre .02 y .03 debe haber un valor más pequeño de α que nos permita rechazar la hipótesis nula para estos datos. Este es el valor p; ya que resulta que los datos ESP tienen p=.021. En resumen:

p se define como la tasa de error tipo I más pequeña (α) que tienes que estar dispuesto a tolerar si quieres rechazar la hipótesis nula.

Si resulta que p describe una tasa de error que te parece intolerable, entonces debes retener el nulo. Si te sientes cómodo con una tasa de error igual a p, entonces está bien rechazar la hipótesis nula a favor de tu alternativa preferida.

En efecto, p es un resumen de todas las pruebas de hipótesis posibles que podrías haber realizado, tomadas a través de todos los posibles valores α. Y como consecuencia tiene el efecto de “suavizar” nuestro proceso de decisión. Para aquellas pruebas en las que p≤α habrías rechazado la hipótesis nula, mientras que para aquellas pruebas en las que p>α habrías retenido el nulo. En mi estudio ESP obtuve X=62, y como consecuencia he terminado con p=.021. Entonces la tasa de error que tengo que tolerar es de 2.1%. En contraste, supongamos que mi experimento había arrojado X=97. ¿Qué pasa ahora con mi valor p? Esta vez se ha reducido a p=1.36×10−25, que es una tasa de error diminuta, diminuta de 163 Tipo I. Para este segundo caso podría rechazar la hipótesis nula con mucha más confianza, porque sólo tengo que estar “dispuesto” a tolerar una tasa de error tipo I de alrededor de 1 en 10 billones de billones para justificar mi decisión de rechazar.