10.9: El valor p- conceptos erróneos y uso adecuado

Última actualización
Guardar como PDF

Page ID: 151778

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Uno de los conceptos más malinterpretados en Estadística es el valor p. En estudios gubernamentales e investigaciones científicas, ha habido una conclusión inválida basada en malinterpretar el\(p\) ‐valor. El 7 de marzo de 2016, en un comunicado sin precedentes, la American Statistical Association publicó un artículo, “Statement on Statistical Significance and P‐Values”, que ofrecía principios para mejorar la conducta e interpretación de la ciencia cuantitativa. ⁷⁷

En el trabajo se introdujeron 6 estándares, los cuales revisaremos individualmente.

\(P\)‐valores pueden indicar cuán incompatibles son los datos con un modelo estadístico especificado.

El\(p\) ‐valor es la probabilidad de obtener datos que este extremo dado\(H_o\) es cierto. Esta es una probabilidad condicional y puede escribirse como:

\(p\)‐value=\(P\) (obtener estos datos o datos más extremos |\(H_o\) es cierto)

Ejemplo: Ayuda financiera

Un investigador quiso demostrar que el porcentaje de estudiantes de colegios comunitarios que reciben ayuda económica supera el 40%.

Solución

\(H_o: p = 0.40\)(La proporción de estudiantes de colegios comunitarios que reciben ayuda económica es de 0.40.).

\(H_a: p > 0.40\)(La proporción de estudiantes de colegios comunitarios que reciben ayuda económica es superior a 0.40.).

La investigación muestreó a 874 estudiantes y encontró que 376 de ellos recibieron ayuda económica. Esto funciona a una proporción muestral\(\hat{p}=0.430\), lo que lleva a un\(Z\) valor de 1.822, si\(p = 0.40\).

\ (\ begin {alineado}
p\ text {-valor} =& P (\ hat {p} >0.430\ mid H_o\ text {es verdadero})\\
&=P (Z>1.822)\\ &=0.034
\ end {alineado}\)

La probabilidad de obtener esta proporción muestral, o algo mayor dada la proporción real es 0.40 es igual 0.034.

\(P\)‐valores no miden la probabilidad de que la hipótesis estudiada sea verdadera, ni la probabilidad de que los datos se hayan producido solo por casualidad aleatoria.

Después de realizar un experimento, a los investigadores les encantaría poder conocer la probabilidad de que su afirmación sea cierta. Desafortunadamente, esta probabilidad no puede calcularse solo a partir del\(p\) ‐valor.

Ejemplo: Ayuda financiera

Volvamos al investigador que quiso demostrar que el porcentaje de alumnos de colegios comunitarios que reciben ayuda económica supera el 40%. Después de realizar la investigación, el valor p fue de 0.034. Supongamos que el investigador escribió esta conclusión:

“Con 96.6% de confianza, concluimos que el porcentaje de estudiantes de colegios comunitarios que reciben ayuda económica supera el 40%”.

Esta conclusión es inválida, y las conclusiones escritas con una mala interpretación similar se han mostrado en muchos trabajos publicados. Vamos a explorar el problema aquí.

El investigador afirma que la probabilidad de que la hipótesis alternativa sea verdadera es el complemento del\(p\) ‐valor. Es decir, el investigador está afirmando que el\(p\) ‐valor es la probabilidad\(H_o\) es verdadera dados estos datos. ¡Este investigador ha volteado la condicionalidad en la definición de\(p\) ‐valor!

Malinterpretación del investigador:\(p\) ‐valor =\(P\) (\(H_o\)es cierto | Data this Extreme)

Interpretación correcta de\(p\) ‐value =\(P\) (Obtención de Datos este Extremo |\(H_o\) es cierto)

En el Capítulo 5 sobre probabilidad, exploramos por qué no\(P(A|B)\) es lo mismo que\(P(B|A)\).

Recordemos el ejemplo de prueba de VIH del Capítulo 5

\(P\)(Pruebas + | VIH‐) = 1350/9000 = 85%

\(P\)(VIH+ | Pruebas+) = 950/2300 = 41.3%

A pesar de que la prueba tiene una tasa de verdaderos positivos del 85%, solo hay un 41% de probabilidades de que alguien que da positivo tenga VIH.

	HIV+ A	VIH- A'	Total
Prueba+ B	950	1350	2300
Prueba- B'	50	7650	7700
Total	1000	9000	10000

Las conclusiones científicas y las decisiones de negocios o políticas no deben basarse únicamente en si\(p\) un valor supera un umbral específico.

En cualquier curso de estadística, aprendemos que tener un\(p\) ‐valor menor que el nivel de significancia es evidencia que respalda la Hipótesis Alternativa. Esto no significa necesariamente que\(H_a\) sea cierto o incluso probablemente cierto. Es necesario que haya otro razonamiento en cuanto a por qué\(H_a\) podría ser cierto.

Algunas revistas de investigación, como la Psicología Social Básica y Aplicada, ahora requieren que la investigación muestre “fuertes estadísticas descriptivas, incluidos los tamaños de los efectos”. ⁷⁸

Ejemplo: Ayuda financiera

Volveremos de nuevo al ejemplo de ayuda económica. Después de realizar la investigación, el\(p\) ‐valor fue de 0.031. Si empezáramos con un nivel de significancia del 5%, la decisión sería Rechazar\(H_o\) y apoyar la afirmación de que el porcentaje de estudiantes de colegios comunitarios que reciben ayuda económica supera el 40%. No obstante, si empezáramos con un nivel de significancia del 1%, la decisión sería No Rechazar\(H_o\) y no habría pruebas suficientes para sustentar la afirmación de que el porcentaje de estudiantes de colegios comunitarios que reciben ayuda económica supera el 40%. Aunque\(H_o\) se rechace, esta prueba no es concluyente.

Un resultado significativo es solo una pieza de evidencia, y siempre debe haber criterios adicionales en la toma de decisiones y la investigación.

La inferencia adecuada requiere un informe completo y transparencia.

Antes de realizar investigaciones y antes de recolectar datos, es necesario diseñar el experimento y establecer hipótesis. A menudo, especialmente con un aumento dramático en el acceso a “Big Data”, algunos han utilizado el dragado de datos como una forma de observar muchas posibilidades e identificar fenómenos que son significativos. Los investigadores, en un deseo de ser publicados, engañarán a la ciencia mediante el uso de técnicas llamadas \(p\)‐hacking.

Métodos de\(p\) ‐hacking

Recopilar datos hasta el\(p\) ‐valor <\(\alpha\), luego dejar de recopilar datos.
Analizando muchas opciones o condiciones, pero solo publicando aquellas que sean significativas.
Cherry escogiendo los datos para incluir únicamente valores que respalden la afirmación.
Solo mirando a subgrupos que sean significativos.

El uso de estos métodos\(p\) ‐hacking es preocupante y es una de las principales razones por las que las revistas científicas son ahora escépticas de las pruebas de hipótesis basadas en el\(p\) valor.

El cómic de XKCD “Significativo” ⁷⁹, representado a la derecha, muestra un ejemplo de\(p\) ‐hacking, incluyendo cómo los medios malinterpretan la investigación.

Un\(p\) ‐valor, o significancia estadística, no mide el tamaño de un efecto o la importancia de un resultado.

Un resultado puede ser estadísticamente significativo, pero no tener valor práctico.

Supongamos que alguien afirma que el tiempo medio de vuelo entre Nueva York y San Francisco es de 6 horas y 20 minutos. Después de realizar un estudio de gran tamaño muestral, se encuentran evidencias significativas (\(p\)‐valor < .01) de que el tiempo medio de vuelo es realmente más largo, con una media muestral de 6 horas y 23 minutos.

A pesar de que su evidencia es fuerte, no hay diferencia práctica entre los tiempos. El\(p\) valor ‐no aborda los tamaños de los efectos.

Por sí mismo, un\(p\) ‐valor no proporciona una buena medida de evidencia con respecto a un modelo o hipótesis.

El\(p\) ‐valor es una herramienta útil, pero por sí mismo no es suficiente para apoyar la investigación. ⁸⁰