Saltar al contenido principal
LibreTexts Español

13.2: Comprender las pruebas de hipótesis nulas

  • Page ID
    144611
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Objetivos de aprendizaje
    1. Explicar el propósito de las pruebas de hipótesis nulas, incluyendo el papel del error de muestreo.
    2. Describir la lógica básica de las pruebas de hipótesis nulas.
    3. Describir el papel de la fuerza de relación y el tamaño de la muestra en la determinación de la significancia estadística y hacer juicios razonables sobre la significancia estadística con base en estos

    El propósito de las pruebas de hipótesis nulas

    Como hemos visto, la investigación psicológica suele implicar medir una o más variables en una muestra y calcular datos resumidos descriptivos (por ejemplo, medias, coeficientes de correlación) para esas variables. Estos datos descriptivos para la muestra se denominan estadística. En general, sin embargo, el objetivo del investigador no es sacar conclusiones sobre esa muestra sino sacar conclusiones sobre la población de la que se seleccionó la muestra. Por lo tanto, los investigadores deben utilizar estadísticas de muestra para sacar conclusiones sobre los valores correspondientes en la población. Estos valores correspondientes en la población se denominan parámetros. Imagínese, por ejemplo, que un investigador mida el número de síntomas depresivos exhibidos por cada uno de los 50 adultos con depresión clínica y calme el número medio de síntomas. El investigador probablemente quiera utilizar este estadístico muestral (el número medio de síntomas para la muestra) para sacar conclusiones sobre el parámetro poblacional correspondiente (el número medio de síntomas para adultos con depresión clínica).

    Desafortunadamente, las estadísticas muestrales no son estimaciones perfectas de sus parámetros poblacionales correspondientes. Esto se debe a que hay una cierta cantidad de variabilidad aleatoria en cualquier estadística de muestra a muestra. El número medio de síntomas depresivos podría ser de 8.73 en una muestra de adultos con depresión clínica, 6.45 en una segunda muestra y 9.44 en una tercera, aunque estas muestras se seleccionan aleatoriamente de la misma población. De igual manera, la correlación (r de Pearson) entre dos variables podría ser +.24 en una muestra, −.04 en una segunda muestra y +.15 en una tercera, nuevamente, aunque estas muestras se seleccionen aleatoriamente de la misma población. Esta variabilidad aleatoria en un estadístico de muestra a muestra se denomina error de muestreo. (Tenga en cuenta que el término error aquí se refiere a variabilidad aleatoria y no implica que alguien haya cometido un error. Nadie “comete un error de muestreo”).

    Una implicación de esto es que cuando hay una relación estadística en una muestra, no siempre es claro que existe una relación estadística en la población. Una pequeña diferencia entre dos medias grupales en una muestra podría indicar que hay una pequeña diferencia entre las dos medias grupales en la población. Pero también podría ser que no haya diferencia entre las medias en la población y que la diferencia en la muestra sea solo cuestión de error de muestreo. Del mismo modo, un valor r de Pearson de −.29 en una muestra podría significar que existe una relación negativa en la población. Pero también podría ser que no haya relación en la población y que la relación en la muestra sea solo cuestión de error de muestreo.

    De hecho, cualquier relación estadística en una muestra puede interpretarse de dos maneras:

    • Hay una relación en la población, y la relación en la muestra refleja esto.
    • No hay relación en la población, y la relación en la muestra refleja solo error de muestreo.

    El propósito de las pruebas de hipótesis nulas es simplemente ayudar a los investigadores a decidir entre estas dos interpretaciones.

    La lógica de las pruebas de hipótesis nulas

    La prueba de hipótesis nula (a menudo llamada prueba de significación de hipótesis nula o NHST) es un enfoque formal para decidir entre dos interpretaciones de una relación estadística en una muestra. Una interpretación se llama la hipótesis nula (a menudo simbolizada H 0 y leída como “H-cero”). Esta es la idea de que no hay relación en la población y que la relación en la muestra refleja solo error de muestreo. Informalmente, la hipótesis nula es que la relación muestral “ocurrió por casualidad”. La otra interpretación se llama la hipótesis alternativa (a menudo simbolizada como H 1). Esta es la idea de que existe una relación en la población y que la relación en la muestra refleja esta relación en la población.

    Nuevamente, cada relación estadística en una muestra puede interpretarse de cualquiera de estas dos maneras: Podría haber ocurrido por casualidad, o podría reflejar una relación en la población. Por lo que los investigadores necesitan una forma de decidir entre ellos. Aunque existen muchas técnicas específicas de prueba de hipótesis nulas, todas se basan en la misma lógica general. Los pasos son los siguientes:

    • Supongamos por el momento que la hipótesis nula es cierta. No hay relación entre las variables en la población.
    • Determinar qué tan probable sería la relación muestral si la hipótesis nula fuera cierta.
    • Si la relación muestral sería extremadamente improbable, entonces rechazar la hipótesis nula a favor de la hipótesis alternativa. Si no sería extremadamente improbable, entonces conservar la hipótesis nula.

    Siguiendo esta lógica, podemos comenzar a entender por qué Mehl y sus colegas concluyeron que no hay diferencia en la locuacidad entre mujeres y hombres en la población. En esencia, hicieron la siguiente pregunta: “Si no hubiera diferencia en la población, ¿qué tan probable es que encontremos una pequeña diferencia de d = 0.06 en nuestra muestra?” Su respuesta a esta pregunta fue que esta relación muestral sería bastante probable si la hipótesis nula fuera cierta. Por lo tanto, retuvieron la hipótesis nula, concluyendo que no hay evidencia de una diferencia de sexo en la población. También podemos ver por qué Kanner y sus colegas concluyeron que existe una correlación entre molestias y síntomas en la población. Preguntaron: “Si la hipótesis nula fuera cierta, ¿qué tan probable es que encontremos una fuerte correlación de +.60 en nuestra muestra?” Su respuesta a esta pregunta fue que esta relación muestral sería bastante improbable si la hipótesis nula fuera cierta. Por lo tanto, rechazaron la hipótesis nula a favor de la hipótesis alternativa, concluyendo que existe una correlación positiva entre estas variables en la población.

    Un paso crucial en las pruebas de hipótesis nulas es encontrar la probabilidad del resultado de la muestra o un resultado más extremo si la hipótesis nula fuera cierta (Lakens, 2017). [1] Esta probabilidad se llama el valor p. Un valor p bajo significa que la muestra o resultado más extremo sería poco probable si la hipótesis nula fuera verdadera y conduce al rechazo de la hipótesis nula. Un valor p que no es bajo significa que la muestra o resultado más extremo sería probable si la hipótesis nula fuera verdadera y conduce a la retención de la hipótesis nula. Pero ¿qué tan bajo debe ser el criterio del valor p antes de que el resultado de la muestra se considere lo suficientemente improbable como para rechazar la hipótesis nula En las pruebas de hipótesis nulas, este criterio se llama α (alfa) y casi siempre se establece en .05. Si hay un 5% de probabilidad o menos de un resultado al menos tan extremo como el resultado de la muestra si la hipótesis nula fuera cierta, entonces se rechaza la hipótesis nula. Cuando esto sucede, se dice que el resultado es estadísticamente significativo. Si hay más de un 5% de probabilidad de un resultado tan extremo como el resultado de la muestra cuando la hipótesis nula es verdadera, entonces se conserva la hipótesis nula. Esto no significa necesariamente que el investigador acepte la hipótesis nula como cierta, solo que actualmente no hay evidencia suficiente para rechazarla. Los investigadores suelen utilizar la expresión “no rechazar la hipótesis nula” en lugar de “retener la hipótesis nula”, pero nunca usan la expresión “aceptar la hipótesis nula”.

    El valor incomprendido p

    El valor p es una de las cantidades más incomprendidas en la investigación psicológica (Cohen, 1994) [2]. ¡Incluso los investigadores profesionales lo malinterpretan, y no es raro que tales malinterpretaciones aparezcan en los libros de texto de estadística!

    La mala interpretación más común es que el valor p es la probabilidad de que la hipótesis nula sea cierta, que el resultado de la muestra ocurrió por casualidad. Por ejemplo, un investigador equivocado podría decir que debido a que el valor de p es .02, solo hay un 2% de probabilidad de que el resultado sea por casualidad y un 98% de probabilidad de que refleje una relación real en la población. Pero esto es incorrecto. El valor p es realmente la probabilidad de un resultado al menos tan extremo como el resultado de la muestra si la hipótesis nula fuera verdadera. Entonces un valor p de .02 significa que si la hipótesis nula fuera cierta, un resultado de muestra este extremo ocurriría solo 2% de las veces.

    Se puede evitar este malentendido recordando que el valor p no es la probabilidad de que alguna hipótesis en particular sea verdadera o falsa. En cambio, es la probabilidad de obtener el resultado de la muestra si la hipótesis nula fuera cierta.

    “Hipótesis nula” recuperada de http://imgs.xkcd.com/comics/null_hypothesis.png (CC-BY-NC 2.5)

    Papel del Tamaño de la Muestra y Fuerza de la Relación

    Recordemos que la prueba de hipótesis nula implica responder a la pregunta: “Si la hipótesis nula fuera cierta, ¿cuál es la probabilidad de que un resultado de muestra sea tan extremo como éste?” En otras palabras, “¿Cuál es el valor p?” Puede ser útil ver que la respuesta a esta pregunta depende solo de dos consideraciones: la fuerza de la relación y el tamaño de la muestra. Específicamente, cuanto más fuerte sea la relación muestral y mayor sea la muestra, menos probable será el resultado si la hipótesis nula fuera cierta. Es decir, cuanto menor sea el valor p. Esto debería tener sentido. Imagínese un estudio en el que se compara una muestra de 500 mujeres con una muestra de 500 hombres en cuanto a alguna característica psicológica, y la d de Cohen es una fuerte 0.50. Si realmente no hubo diferencia de sexo en la población, entonces un resultado tan fuerte basado en una muestra tan grande debería parecer muy poco probable. Ahora imagina un estudio similar en el que se compara una muestra de tres mujeres con una muestra de tres hombres, y la d de Cohen es una débil 0.10. Si no hubiera diferencia de sexo en la población, entonces debería parecer probable una relación tan débil basada en una muestra tan pequeña. Y es precisamente por eso que la hipótesis nula sería rechazada en el primer ejemplo y retenida en el segundo.

    Por supuesto, a veces el resultado puede ser débil y la muestra grande, o el resultado puede ser fuerte y la muestra pequeña. En estos casos, las dos consideraciones se negocian entre sí para que un resultado débil pueda ser estadísticamente significativo si la muestra es lo suficientemente grande y una relación fuerte puede ser estadísticamente significativa incluso si la muestra es pequeña. \(\PageIndex{1}\)La tabla muestra aproximadamente cómo se combinan la fuerza de relación y el tamaño de la muestra para determinar si el resultado de una muestra es estadísticamente significativo Las columnas de la tabla representan los tres niveles de fuerza de relación: débil, medio y fuerte. Las filas representan cuatro tamaños de muestra que pueden considerarse pequeños, medianos, grandes y extra grandes en el contexto de la investigación psicológica. Así, cada celda de la tabla representa una combinación de fuerza de relación y tamaño de muestra. Si una celda contiene la palabra , entonces esta combinación sería estadísticamente significativa tanto para la d de Cohen como para la r de Pearson. Si contiene la palabra No, entonces no sería estadísticamente significativa para ninguno. Hay una celda donde la decisión para d y r sería diferente y otra donde podría ser diferente dependiendo de algunas consideraciones adicionales, que se discuten en la Sección 13.2.

    Tabla\(\PageIndex{1}\): Cómo se combinan la fuerza de la relación y el tamaño de la muestra para determinar si un resultado es estadísticamente significativo
      Fuerza de la relación
    Tamaño de la muestra Débil Mediano Fuerte
    Pequeño (N = 20) No No

    d = Tal vez

    r = Si

    Medio (N = 50) No
    Grande (N = 100)

    d = Si

    r = No

    Extra grande (N = 500)

    Aunque Table solo\(\PageIndex{1}\) proporciona una pauta aproximada, muestra muy claramente que las relaciones débiles basadas en muestras medianas o pequeñas nunca son estadísticamente significativas y que las relaciones fuertes basadas en muestras medianas o mayores siempre son estadísticamente significativas. Si tienes esta lección en mente, a menudo sabrás si un resultado es estadísticamente significativo con base únicamente en las estadísticas descriptivas. Es sumamente útil poder desarrollar este tipo de juicio intuitivo. Una razón es que te permite desarrollar expectativas sobre cómo van a salir tus pruebas formales de hipótesis nulas, lo que a su vez te permite detectar problemas en tus análisis. Por ejemplo, si tu relación muestral es fuerte y tu muestra es media, entonces esperarías rechazar la hipótesis nula. Si por alguna razón tu prueba formal de hipótesis nula indica lo contrario, entonces necesitas verificar tus cálculos e interpretaciones. Una segunda razón es que la capacidad de hacer este tipo de juicio intuitivo es un indicio de que entiendes la lógica básica de este enfoque además de poder hacer los cálculos.

    Significancia estadística versus significancia práctica

    El cuadro\(\PageIndex{1}\) ilustra otro punto sumamente importante. Un resultado estadísticamente significativo no es necesariamente fuerte. Incluso un resultado muy débil puede ser estadísticamente significativo si se basa en una muestra lo suficientemente grande. Esto está estrechamente relacionado con el argumento de Janet Shibley Hyde sobre las diferencias de sexo (Hyde, 2007) [3]. Las diferencias entre mujeres y hombres en la resolución de problemas matemáticos y la capacidad de liderazgo son estadísticamente significativas. Pero la palabra significativo puede hacer que las personas interpreten estas diferencias como fuertes e importantes, tal vez incluso lo suficientemente importantes como para influir en los cursos universitarios que toman o incluso a quién votan. Como hemos visto, sin embargo, estas diferencias estadísticamente significativas son en realidad bastante débiles, quizás incluso “triviales”.

    Por ello es importante distinguir entre la significancia estadística de un resultado y la significación práctica de ese resultado. La significación práctica se refiere a la importancia o utilidad del resultado en algún contexto del mundo real. Muchas diferencias de sexo son estadísticamente significativas, e incluso pueden ser interesantes por razones puramente científicas, pero no son prácticamente significativas. En la práctica clínica, este mismo concepto se suele denominar “significación clínica”. Por ejemplo, un estudio sobre un nuevo tratamiento para la fobia social podría mostrar que produce un efecto positivo estadísticamente significativo. Sin embargo, este efecto aún podría no ser lo suficientemente fuerte como para justificar el tiempo, el esfuerzo y otros costos de ponerlo en práctica, especialmente si ya existen tratamientos más fáciles y baratos que funcionan casi tan bien. Aunque estadísticamente significativo, se diría que este resultado carece de significación práctica o clínica.

    “Riesgo condicional” recuperado de http://imgs.xkcd.com/comics/conditional_risk.png (CC-BY-NC 2.5)

    Referencias

    1. Lakens, D. (2017, 25 de diciembre). Acerca de los valores p: Comprender los conceptos erróneos comunes. [Entrada de blog] Recuperado de [1]https://correlaid.org/en/blog/understand-p-values/
    2. Cohen, J. (1994). El mundo es redondo: p < .05. Psicólogo Americano, 49, 997—1003.
    3. Hyde, J. S. (2007). Nuevas direcciones en el estudio de las similitudes y diferencias de género. Direcciones Actuales en Ciencia Psicológica, 16, 259—263.

    This page titled 13.2: Comprender las pruebas de hipótesis nulas is shared under a CC BY-NC-SA license and was authored, remixed, and/or curated by Rajiv S. Jhangiani, I-Chant A. Chiang, Carrie Cuttler, & Dana C. Leighton.