11.9: Algunas cuestiones a considerar

Última actualización
Guardar como PDF

Page ID: 151791

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Lo que te he descrito en este capítulo es el marco ortodoxo para las pruebas de significación de hipótesis nulas (NHST). Comprender cómo funciona NHST es una necesidad absoluta, ya que ha sido el enfoque dominante de las estadísticas inferenciales desde que llegó a la prominencia a principios del siglo XX. Es en lo que la gran mayoría de los científicos que trabajan confían para su análisis de datos, así que incluso si lo odias necesitas conocerlo. Sin embargo, el enfoque no está exento de problemas. Hay una serie de peculiaridades en el marco, rarezas históricas en cómo llegó a ser, disputas teóricas sobre si el marco es correcto o no, y muchas trampas prácticas para los incautos. No voy a entrar en muchos detalles sobre este tema, pero creo que vale la pena discutir brevemente algunos de estos temas.

Neyman contra Fisher

Lo primero que debes tener en cuenta es que la NHST ortodoxa es en realidad una mezcla de dos enfoques bastante diferentes para la prueba de hipótesis, uno propuesto por Sir Ronald Fisher y el otro propuesto por Jerzy Neyman (para un resumen histórico ver Lehmann 2011). La historia es desordenada porque Fisher y Neyman eran personas reales cuyas opiniones cambiaron con el tiempo, y en ningún momento ninguno de ellos ofreció “la declaración definitiva” de cómo deberíamos interpretar su trabajo muchas décadas después. Dicho esto, aquí hay un breve resumen de lo que tomo que son estos dos enfoques.

Primero, hablemos del enfoque de Fisher. Por lo que puedo decir, Fisher asumió que solo tenías la única hipótesis (la nula), y lo que quieres hacer es averiguar si la hipótesis nula es inconsistente con los datos. Desde su perspectiva, lo que debes hacer es verificar para ver si los datos son “suficientemente improbables” según el nulo. De hecho, si recuerdas volver a nuestra discusión anterior, así es como Fisher define el valor p. Según Fisher, si la hipótesis nula proporcionaba una cuenta muy pobre de los datos, podrías rechazarlos de manera segura. Pero, como no tienes ninguna otra hipótesis con la que compararlo, no hay forma de “aceptar la alternativa” porque no necesariamente tienes una alternativa explícitamente declarada. Eso es más o menos todo lo que había para ello.

En contraste, Neyman pensó que el punto de prueba de hipótesis era como guía de acción, y su enfoque era algo más formal que el de Fisher. su punto de vista era que hay múltiples cosas que podrías hacer (aceptar el nulo o aceptar la alternativa) y el punto de la prueba era decirle cuál es el soporte de datos. Desde esta perspectiva, es fundamental especificar adecuadamente su hipótesis alternativa. Si no sabes cuál es la hipótesis alternativa, entonces no sabes cuán poderosa es la prueba, o incluso qué acción tiene sentido. Su marco requiere genuinamente una competencia entre diferentes hipótesis. Para Neyman, el valor p no midió directamente la probabilidad de los datos (o datos más extremos) bajo el nulo, era más una descripción abstracta sobre qué “posibles pruebas” te decían que aceptaras el nulo, y cuáles “posibles pruebas” te decían que aceptaras la alternativa.

Como pueden ver, lo que tenemos hoy es una extraña mezcolanza de los dos. Hablamos de tener tanto una hipótesis nula como una alternativa (Neyman), pero generalmente ¹⁶⁸ definen el valor p en términos de datos exreme (Fisher), pero aún tenemos valores α (Neyman). Algunas de las pruebas estadísticas han especificado explícitamente alternativas (Neyman) pero otras son bastante vagas al respecto (Fisher). Y, según algunas personas al menos, no se nos permite hablar de aceptar la alternativa (Fisher). Es un desastre: pero espero que esto al menos explique por qué es un desastre.

Bayesianos versus frecuentistas

Anteriormente en este capítulo fui bastante enfático sobre el hecho de que no se puede interpretar el valor p como la probabilidad de que la hipótesis nula sea cierta. NHST es fundamentalmente una herramienta frecuentista (ver Capítulo 9) y como tal no permite asignar probabilidades a hipótesis: la hipótesis nula es verdadera o no lo es. El enfoque bayesiano de la estadística interpreta la probabilidad como un grado de creencia, por lo que está totalmente bien decir que hay un 10% de probabilidad de que la hipótesis nula sea cierta: eso es solo un reflejo del grado de confianza que se tiene en esta hipótesis. No se le permite hacer esto dentro del enfoque frecuentista. Recuerda, si eres frecuentista, una probabilidad solo se puede definir en términos de lo que sucede después de un gran número de replicaciones independientes (es decir, una frecuencia de largo plazo). Si esta es tu interpretación de la probabilidad, hablar de la “probabilidad” de que la hipótesis nula sea verdadera es un galimatías completo: una hipótesis nula es verdadera o es falsa. No hay manera de que puedas hablar de una frecuencia a largo plazo para esta afirmación. Hablar de “la probabilidad de la hipótesis nula” no tiene tanto sentido como “el color de la libertad”. ¡No tiene uno!

Lo más importante es que no se trata de un asunto puramente ideológico. Si decides que eres bayesiano y que estás de acuerdo con hacer declaraciones de probabilidad sobre hipótesis, tienes que seguir las reglas bayesianas para calcular esas probabilidades. Hablaré más de esto en el Capítulo 17, pero por ahora lo que quiero señalarles es que el valor p es una terrible aproximación a la probabilidad de que H ₀ sea verdad. Si lo que quieres saber es la probabilidad del nulo, ¡entonces el valor p no es lo que buscas!

Trampas

Como puede ver, la teoría detrás de las pruebas de hipótesis es un desastre, e incluso ahora hay argumentos en la estadística sobre cómo “debería” funcionar. Sin embargo, los desacuerdos entre los estadísticos no son nuestra verdadera preocupación aquí. Nuestra preocupación real es el análisis práctico de datos. Y si bien el enfoque “ortodoxo” de las pruebas de significación de hipótesis nulas tiene muchos inconvenientes, incluso un bayesiano impenitente como yo estaría de acuerdo en que pueden ser útiles si se usan de manera responsable. La mayoría de las veces dan respuestas sensatas, y puedes usarlas para aprender cosas interesantes. Dejando a un lado las diversas ideologías y confusiones históricas que hemos discutido, el hecho es que el mayor peligro en todas las estadísticas es la irreflexión. No me refiero a estupidez, aquí: Literalmente me refiero a la desconsideración. La prisa por interpretar un resultado sin perder tiempo pensando en lo que realmente dice cada prueba sobre los datos, y comprobando si eso es consistente con la forma en que lo has interpretado. Ahí es donde yace la trampa más grande.

Para dar un ejemplo de esto, considere el siguiente ejemplo (ver Gelman y Stern 2006). Supongamos que estoy dirigiendo mi estudio de ESP, y he decidido analizar los datos por separado para los participantes masculinos y los participantes femeninos. De los participantes masculinos, 33 de 50 adivinaron correctamente el color de la tarjeta. Este es un efecto significativo (p=.03). De las participantes femeninas, 29 de cada 50 adivinaron correctamente. Esto no es un efecto significativo (p=.32). Al observar esto, es sumamente tentador que la gente empiece a preguntarse por qué existe una diferencia entre machos y hembras en cuanto a sus habilidades psíquicas. Sin embargo, esto está mal. Si lo piensas bien, en realidad no hemos hecho una prueba que compare explícitamente a los machos con las hembras. Todo lo que hemos hecho es comparar los machos con el azar (la prueba binomial fue significativa) y comparar a las hembras con el azar (la prueba binomial no fue significativa). Si queremos argumentar que existe una diferencia real entre los machos y las hembras, probablemente deberíamos hacer una prueba de la hipótesis nula de que ¡no hay diferencia! Podemos hacerlo usando una prueba de hipótesis diferente, ¹⁶⁹ pero cuando lo hacemos resulta que no tenemos evidencia de que machos y hembras sean significativamente diferentes (p=.54). Ahora, ¿cree que hay algo fundamentalmente diferente entre los dos grupos? Por supuesto que no. Lo que ha pasado aquí es que los datos de ambos grupos (masculino y femenino) son bastante limítrofes: por pura casualidad, uno de ellos pasó a terminar en el lado mágico de la línea p=.05, y el otro no lo hizo Eso en realidad no implica que machos y hembras sean diferentes. Este error es tan común que siempre debes desconfiar de él: la diferencia entre significativo y no significativo no es evidencia de una diferencia real — si quieres decir que hay una diferencia entre dos grupos, ¡entonces tienes que probar esa diferencia!

El ejemplo anterior es justamente eso: un ejemplo. Lo he señalado porque es muy común, pero el panorama más amplio es que el análisis de datos puede ser complicado de hacer bien. Piensa en qué es lo que quieres probar, por qué quieres probarlo, y si las respuestas que da tu prueba podrían tener algún sentido en el mundo real o no.