Saltar al contenido principal
LibreTexts Español

11.6: Reporte de los Resultados de una Prueba de Hipótesis

  • Page ID
    151783
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Al escribir los resultados de una prueba de hipótesis, generalmente hay varios datos que necesitas reportar, pero varía bastante de una prueba a otra. A lo largo del resto del libro dedicaré un poco de tiempo a hablar sobre cómo reportar los resultados de diferentes pruebas (ver Sección 12.1.9 para un ejemplo particularmente detallado), para que puedas tener una idea de cómo se suele hacer. No obstante, independientemente de qué prueba estés haciendo, lo único que siempre tienes que hacer es decir algo sobre el valor p, y si el resultado fue significativo o no.

    El hecho de que tengas que hacer esto no es sorprendente; es el objetivo de hacer la prueba. Lo que podría ser sorprendente es el hecho de que hay cierta contención sobre exactamente cómo se supone que debes hacerlo. Dejando de lado a aquellas personas que no están completamente de acuerdo con todo el marco que sustenta las pruebas de hipótesis nulas, existe cierta tensión con respecto a si informar o no el valor p exacto que obtuvo, o si debe indicar solo ese p<α para un nivel de significancia que eligió de antemano (e.g., p<.05).

    problema

    Para ver por qué esto es un problema, la clave a reconocer es que los valores p son terriblemente convenientes. En la práctica, el hecho de que podamos calcular un valor p significa que en realidad no tenemos que especificar ningún nivel α para poder ejecutar la prueba. En cambio, lo que puedes hacer es calcular tu valor p e interpretarlo directamente: si obtienes p=.062, entonces significa que tendrías que estar dispuesto a tolerar una tasa de error Tipo I de 6.2% para justificar rechazar el nulo. Si personalmente encuentras 6.2% intolerable, entonces retienes el nulo. Por lo tanto, el argumento va, ¿por qué no solo reportamos el valor p real y dejamos que el lector tome sus propias decisiones sobre lo que es una tasa de error aceptable de Tipo I? Este enfoque tiene la gran ventaja de “suavizar” el proceso de toma de decisiones —de hecho, si aceptas la definición de Neyman del valor p, ese es el punto entero del valor p. Ya no tenemos un nivel de significancia fijo de α=.05 como una línea brillante que separa las decisiones de “aceptar” de “rechazar”; y esto elimina el problema más bien patológico de ser forzado a tratar p=.051 de una manera fundamentalmente diferente a p=.049.

    Esta flexibilidad es tanto la ventaja como la desventaja del valor p. La razón por la que a mucha gente no le gusta la idea de reportar un valor p exacto es que le da demasiada libertad al investigador. En particular, te permite cambiar de opinión sobre qué tolerancia a errores estás dispuesto a soportar después de mirar los datos. Por ejemplo, considere mi experimento ESP. Supongamos que ejecuté mi prueba, y terminé con un valor de p de .09. ¿Debo aceptar o rechazar? Ahora bien, para ser honesto, todavía no me he molestado en pensar en qué nivel de error Tipo I estoy “realmente” dispuesto a aceptar. No tengo una opinión sobre ese tema. Pero tengo una opinión sobre si existe o no ESP, y definitivamente tengo una opinión sobre si mi investigación debería publicarse en una revista científica de buena reputación. Y asombrosamente, ahora que he mirado los datos estoy empezando a pensar que una tasa de error del 9% no es tan mala, sobre todo cuando se compara con lo molesto que sería tener que admitir ante el mundo que mi experimento ha fallado. Entonces, para evitar parecer que acabo de inventarlo después del hecho, ahora digo que mi α es .1: una tasa de error tipo I del 10% no es tan mala, y en ese nivel mi prueba es significativa! Yo gano.

    En otras palabras, la preocupación aquí es que podría tener la mejor de las intenciones, y ser la gente más honesta, pero la tentación de simplemente “sombrear” las cosas un poco aquí y allá es realmente, muy fuerte. Como puede atestiguar cualquiera que alguna vez haya realizado un experimento, es un proceso largo y difícil, y a menudo te apegas mucho a tus hipótesis. Es difícil dejarlo ir y admitir que el experimento no encontró lo que querías que encontrara. Y ese es el peligro aquí. Si usamos el valor p “crudo”, la gente empezará a interpretar los datos en términos de lo que quieren creer, no de lo que realmente dicen los datos... y si lo permitimos, bueno, ¿por qué nos molestamos en hacer ciencia? ¿Por qué no dejar que todos crean lo que quieran de cualquier cosa, independientemente de cuáles sean los hechos? Bien, eso es un poco extremo, pero de ahí viene la preocupación. De acuerdo con este punto de vista, realmente debes especificar tu valor α de antemano, y luego solo informar si la prueba fue significativa o no. Es la única manera de mantenernos honestos.

    soluciones propuestas

    En la práctica, es bastante raro que un investigador especifique un solo nivel α antes de tiempo. En cambio, la convención es que los científicos se basan en tres niveles de significación estándar: .05, .01 y .001. Al informar sus resultados, indica cuál (si los hay) de estos niveles de significancia le permite rechazar la hipótesis nula. Esto se resume en el Cuadro 11.1. Esto nos permite suavizar un poco la regla de decisión, ya que p<.01 implica que los datos cumplen con un estándar probatorio más fuerte que p<.05. Sin embargo, dado que estos niveles se fijan previamente por convención, impide que las personas elijan su nivel α después de mirar los datos.

    Cuadro 11.1: Una convención comúnmente adoptada para reportar valores de p: en muchos lugares es convencional reportar una de cuatro cosas diferentes (p. ej., p<.05) como se muestra a continuación. He incluido la notación de “estrellas significantes” (es decir, un * indica p<.05) porque a veces se ve esta notación producida por software estadístico. También vale la pena señalar que algunas personas escribirán n.s. (no significativo) en lugar de p>.05.

    Notación habitual Signf. estrellas Signf. estrellas El nulo es...
    p>.05 NA La prueba no fue significativa Retenido
    p<.05 * La prueba fue significativa a $= .05 pero no a α=.01 o α=.001. $ Rechazado
    p<.01 ** La prueba fue significativa a α=.05 y α=.01 pero no a $= .001 Rechazado
    p<.001 *** La prueba fue significativa en todos los niveles Rechazado

    Sin embargo, mucha gente todavía prefiere reportar valores exactos de p. Para muchas personas, la ventaja de permitir que el lector tome una decisión sobre cómo interpretar p=.06 supera cualquier desventaja. En la práctica, sin embargo, incluso entre aquellos investigadores que prefieren valores exactos de p es bastante común escribir p<.001 en lugar de informar un valor exacto para p pequeño. Esto se debe en parte a que mucho software en realidad no imprime el valor p cuando es tan pequeño (por ejemplo, SPSS solo escribe p=.000 cada vez que p& lt; .001), y en parte porque un valor p muy pequeño puede ser un poco engañoso. La mente humana ve un número como .0000000001 y es difícil suprimir el presentimiento de que la evidencia a favor de la hipótesis alternativa es una certeza cercana. En la práctica sin embargo, esto suele ser erróneo. La vida es algo grande, desordenado, complicado: y cada prueba estadística jamás inventada se basa en simplificaciones, aproximaciones y suposiciones. Como consecuencia, probablemente no sea razonable alejarse de cualquier análisis estadístico con un sentimiento de confianza más fuerte de lo que implica p<.001. Es decir, p<.001 es realmente código para “en lo que a esta prueba se refiere, la evidencia es abrumadora”.

    A la luz de todo esto, tal vez te estés preguntando exactamente qué debes hacer. Hay un poco de consejos contradictorios sobre el tema, con algunas personas argumentando que debes informar el valor exacto de p, y otras personas argumentando que debes usar el enfoque escalonado ilustrado en la Tabla 11.1. En consecuencia, el mejor consejo que puedo dar es sugerirle que mire los papeles/informes escritos en su campo y vea lo que parece ser la convención. Si no parece haber ningún patrón consistente, entonces usa el método que prefieras.


    This page titled 11.6: Reporte de los Resultados de una Prueba de Hipótesis is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Danielle Navarro via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.