11.5: El valor p de una prueba

Última actualización
Guardar como PDF

Page ID: 151770

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

En cierto sentido, nuestra prueba de hipótesis está completa; hemos construido un estadístico de prueba, averiguado su distribución de muestreo si la hipótesis nula es verdadera, y luego construimos la región crítica para la prueba. Sin embargo, en realidad he omitido el número más importante de todos: el valor p. Es a este tema al que nos dirigimos ahora. Hay dos formas algo distintas de interpretar un valor p, una propuesta por Sir Ronald Fisher y la otra por Jerzy Neyman. Ambas versiones son legítimas, aunque reflejan formas muy diferentes de pensar sobre las pruebas de hipótesis. La mayoría de los libros de texto introductorios tienden a dar solo la versión de Fisher, pero creo que eso es una lástima. En mi opinión, la versión de Neyman es más limpia, y en realidad refleja mejor la lógica de la prueba de hipótesis nula. Aunque podrías estar en desacuerdo, así que he incluido ambos. Empezaré con la versión de Neyman...

visión más suave de la toma de decisiones

Un problema con el procedimiento de prueba de hipótesis que he descrito es que no hace ninguna distinción entre un resultado tan “apenas significativo” y aquellos que son “altamente significativos”. Por ejemplo, en mi estudio ESP los datos que obtuve solo cayeron dentro de la región crítica, así que obtuve un efecto significativo, pero fue algo bastante cercano. En contraste, supongamos que realizaría un estudio en el que X=97 de mis N=100 participantes obtuvo la respuesta correcta. Esto obviamente también sería significativo, pero mi un margen mucho mayor; realmente no hay ambigüedad al respecto en absoluto. El procedimiento que describí no hace distinción alguna entre ambos. Si adopto la convención estándar de permitir α=.05 como mi tasa de error de Tipo I aceptable, entonces ambos son resultados significativos.

Aquí es donde el valor p viene muy bien. Para entender cómo funciona, supongamos que ejecutamos muchas pruebas de hipótesis en el mismo conjunto de datos: pero con un valor diferente de α en cada caso. Cuando hacemos eso para mis datos ESP originales, lo que obtendríamos es algo como esto

Valor de α	Rechazar el nulo?
0.05	Sí
0.04	Sí
0.03	Sí
0.02	No
0.01	No

Cuando probamos datos ESP (X=62 éxitos de N=100 observaciones) usando niveles α de .03 y superiores, siempre nos encontraríamos rechazando la hipótesis nula. Para niveles α de .02 e inferiores, siempre terminamos conservando la hipótesis nula. Por lo tanto, en algún lugar entre .02 y .03 debe haber un valor más pequeño de α que nos permita rechazar la hipótesis nula para estos datos. Este es el valor p; ya que resulta que los datos ESP tienen p=.021. En resumen:

p se define como la tasa de error tipo I más pequeña (α) que tienes que estar dispuesto a tolerar si quieres rechazar la hipótesis nula.

Si resulta que p describe una tasa de error que te parece intolerable, entonces debes retener el nulo. Si te sientes cómodo con una tasa de error igual a p, entonces está bien rechazar la hipótesis nula a favor de tu alternativa preferida.

En efecto, p es un resumen de todas las pruebas de hipótesis posibles que podrías haber realizado, tomadas a través de todos los posibles valores α. Y como consecuencia tiene el efecto de “suavizar” nuestro proceso de decisión. Para aquellas pruebas en las que p≤α habrías rechazado la hipótesis nula, mientras que para aquellas pruebas en las que p>α habrías retenido el nulo. En mi estudio ESP obtuve X=62, y como consecuencia he terminado con p=.021. Entonces la tasa de error que tengo que tolerar es de 2.1%. En contraste, supongamos que mi experimento había arrojado X=97. ¿Qué pasa ahora con mi valor p? Esta vez se ha reducido a p=1.36×10−25, que es una tasa de error diminuta, diminuta de ¹⁶³ Tipo I. Para este segundo caso podría rechazar la hipótesis nula con mucha más confianza, porque sólo tengo que estar “dispuesto” a tolerar una tasa de error tipo I de alrededor de 1 en 10 billones de billones para justificar mi decisión de rechazar.

probabilidad de datos extremos

La segunda definición del valor p viene de Sir Ronald Fisher, y en realidad es esta la que tiendes a ver en la mayoría de los libros de texto introductorios de estadísticas. Observe cómo, cuando construí la región crítica, correspondía a las colas (es decir, valores extremos) de la distribución muestral? Eso no es una coincidencia: casi todas las pruebas “buenas” tienen esta característica (buena en el sentido de minimizar nuestra tasa de error tipo II, β). La razón de ello es que una buena región crítica casi siempre corresponde a aquellos valores del estadístico de prueba que son menos probables de ser observados si la hipótesis nula es cierta. Si esta regla es verdadera, entonces podemos definir el valor p como la probabilidad de que hubiéramos observado una estadística de prueba que es al menos tan extrema como la que realmente obtuvimos. En otras palabras, si los datos son extremadamente inverosímiles según la hipótesis nula, entonces la hipótesis nula es probablemente errónea.

error común

Bien, entonces puedes ver que hay dos formas bastante diferentes pero legítimas de interpretar el valor p, una basada en el enfoque de Neyman para las pruebas de hipótesis y la otra basada en la de Fisher.Desafortunadamente, hay una tercera explicación que la gente a veces da, especialmente cuando están aprendiendo estadísticas por primera vez, y es absoluta y completamente erróneo. Este enfoque erróneo consiste en referirse al valor p como “la probabilidad de que la hipótesis nula sea verdadera”. Es una forma de pensar intuitivamente atractiva, pero está equivocada en dos aspectos clave: (1) la prueba de hipótesis nula es una herramienta frecuentista, y el enfoque frecuentista de la probabilidad no permite asignar probabilidades a la hipótesis nula... de acuerdo con esta visión de probabilidad, la la hipótesis nula es verdadera o no lo es; no puede tener un “5% de probabilidad” de ser verdadera. (2) incluso dentro del enfoque bayesiano, que permite asignar probabilidades a hipótesis, el valor p no correspondería a la probabilidad de que el nulo sea verdadero; esta interpretación es totalmente inconsistente con la matemáticas de cómo se calcula el valor p. Dicho sin rodeos, a pesar del atractivo intuitivo de pensar de esta manera, no hay justificación para interpretar un valor p de esta manera. Nunca lo hagas.