Saltar al contenido principal
LibreTexts Español

1.4: Conceptos básicos de pruebas de hipótesis

  • Page ID
    149114
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)
    Objetivos de aprendizaje
    • Uno de los principales objetivos de las pruebas de hipótesis estadísticas es estimar el\(P\) valor, que es la probabilidad de obtener los resultados observados, o algo más extremo, si la hipótesis nula fuera cierta. Si los resultados observados son improbables bajo la hipótesis nula, rechace la hipótesis nula.
    • Las alternativas a este enfoque “frecuentista” de la estadística incluyen la estadística bayesiana y la estimación de tamaños de efecto e intervalos de confianza.

    Introducción

    Existen diferentes formas de hacer estadísticas. La técnica utilizada por la gran mayoría de los biólogos, y la técnica que describe la mayor parte de este manual, a veces se denomina estadística “frecuentista” o “clásica”. Implica probar una hipótesis nula comparando los datos que observas en tu experimento con las predicciones de una hipótesis nula. Se estima cuál sería la probabilidad de obtener los resultados observados, o algo más extremo, si la hipótesis nula fuera cierta. Si esta probabilidad estimada (el\(P\) valor) es lo suficientemente pequeña (por debajo del valor de significancia), entonces concluyes que es poco probable que la hipótesis nula sea verdadera; rechazas la hipótesis nula y aceptas una hipótesis alternativa.

    Muchos estadísticos critican duramente las estadísticas frecuentistas, pero sus críticas no han tenido mucho efecto en la forma en que la mayoría de los biólogos hacen estadísticas. Aquí voy a esbozar algunos de los conceptos clave utilizados en la estadística frecuentista, para luego describir brevemente algunas de las alternativas.

    Hipótesis nula

    La hipótesis nula es una afirmación que se quiere probar. En general, la hipótesis nula es que las cosas son iguales entre sí, o lo mismo que una expectativa teórica. Por ejemplo, si se mide el tamaño de los pies de pollos machos y hembras, la hipótesis nula podría ser que el tamaño promedio del pie en pollos machos es el mismo que el tamaño promedio del pie en pollos hembra. Si se cuenta el número de pollos machos y hembras nacidos de un conjunto de gallinas, la hipótesis nula podría ser que la proporción de machos a hembras es igual a una expectativa teórica de una\(1:1\) proporción.

    La hipótesis alternativa es que las cosas son diferentes entre sí, o diferentes de una expectativa teórica.

    Fig. 1.4.1 Un pollo gigante de concreto en Vietnam.

    Por ejemplo, una hipótesis alternativa sería que los pollos machos tienen un tamaño promedio de pie diferente al de las hembras; otra sería que la proporción de sexos es diferente de\(1:1\).

    Por lo general, la hipótesis nula es aburrida y la hipótesis alternativa es interesante. Por ejemplo, digamos que le das de comer chocolate a un montón de pollos, luego mira la proporción de sexos en sus crías. Si obtienes más hembras que machos, sería un descubrimiento tremendamente emocionante: sería un descubrimiento fundamental sobre el mecanismo de determinación del sexo, las gallinas hembras son más valiosas que las gallinas machos en razas ponedoras, y podrías publicar tu resultado en Ciencia o La naturaleza. Mucha gente ha gastado mucho tiempo y dinero tratando de cambiar la proporción de sexos en las gallinas, y si tienes éxito, serás rico y famoso. Pero si el chocolate no cambia la proporción de sexos, sería un resultado extremadamente aburrido, y tendrías dificultades para publicarlo en el Eastern Delaware Journal of Chickenology. Por lo tanto, es tentador buscar patrones en sus datos que respalden la emocionante hipótesis alternativa. Por ejemplo, podrías mirar\(48\) crías de pollos alimentados con chocolate y ver\(31\) hembras y solo\(17\) machos. Esto parece prometedor, pero antes de que te pongas feliz y empieces a comprar ropa formal para la ceremonia del Premio Nobel, debes preguntar “¿Cuál es la probabilidad de obtener una desviación de la nula expectativa tan grande, solo por casualidad, si la aburrida hipótesis nula es realmente cierta?” Sólo cuando esa probabilidad es baja se puede rechazar la hipótesis nula. El objetivo de las pruebas de hipótesis estadísticas es estimar la probabilidad de obtener sus resultados observados bajo la hipótesis nula.

    Hipótesis Nulas Biológicas vs Estadísticas

    Es importante distinguir entre hipótesis biológicas nulas y alternativas e hipótesis estadísticas nulas y alternativas. “La selección sexual por parte de las hembras ha provocado que los pollos machos evolucionen pies más grandes que las hembras” es una hipótesis alternativa biológica; dice algo sobre los procesos biológicos, en este caso la selección sexual. “Los pollos machos tienen un tamaño de pie promedio diferente al de las hembras” es una hipótesis alternativa estadística; dice algo sobre los números, pero nada sobre qué causó que esos números fueran diferentes. Las hipótesis biológicas nulas y alternativas son las primeras en las que debes pensar, ya que describen algo interesante de la biología; son dos posibles respuestas a la pregunta biológica que te interesa (“¿Qué afecta el tamaño del pie en pollos?”). Las hipótesis estadísticas nulas y alternativas son afirmaciones sobre los datos que deben seguir de las hipótesis biológicas: si la selección sexual favorece pies más grandes en pollos machos (una hipótesis biológica), entonces el tamaño promedio del pie en pollos machos debe ser mayor que el promedio en hembras (a hipótesis estadística). Si rechazas la hipótesis estadística nula, entonces tienes que decidir si eso es suficiente evidencia de que puedes rechazar tu hipótesis biológica nula. Por ejemplo, si no encuentras una diferencia significativa en el tamaño del pie entre pollos machos y hembras, podrías concluir “No hay evidencia significativa de que la selección sexual haya provocado que los pollos machos tengan pies más grandes”. Si encuentras una diferencia estadísticamente significativa en el tamaño del pie, eso podría no ser suficiente para concluir que la selección sexual causó los pies más grandes; podría ser que los machos comen más, o que los pies más grandes son un subproducto del desarrollo de los peines de los gallos, o que los machos corren más y los el ejercicio hace que sus pies sean más grandes. Cuando hay múltiples interpretaciones biológicas de un resultado estadístico, es necesario pensar en experimentos adicionales para probar las diferentes posibilidades.

    Probando la hipótesis nula

    El objetivo principal de una prueba estadística es determinar si un conjunto de datos observados es tan diferente de lo que esperarías bajo la hipótesis nula que deberías rechazar la hipótesis nula. Por ejemplo, digamos que estás estudiando la determinación del sexo en pollos. Para las razas de pollos que se crían para poner muchos huevos, los polluelos hembra son más valiosos que los machos, así que si pudieras encontrar una manera de manipular la proporción de sexos, podrías hacer muy felices a muchos criadores de pollos. Le has dado de comer chocolate a un grupo de pollos hembra (en las aves, a diferencia de los mamíferos, la madre hembra determina el sexo de la descendencia), y obtienes polluelos\(25\) hembra y polluelos\(23\) machos. Cualquiera miraría esos números y vería que fácilmente podrían resultar del azar; no habría razón para rechazar la hipótesis nula de una\(1:1\) proporción de hembras a machos. Si tienes\(47\) hembras y\(1\) machos, la mayoría de la gente miraría esos números y verían que sería extremadamente improbable que sucedieran debido a la suerte, si la hipótesis nula fuera cierta; rechazarías la hipótesis nula y concluirías que el chocolate realmente cambió la proporción de sexos. No obstante, ¿y si tuvieras\(31\) hembras y\(17\) machos? Eso es definitivamente más hembras que machos, pero ¿es realmente tan improbable que ocurra debido a la casualidad de que puedas rechazar la hipótesis nula? Para responder a eso, se necesita algo más que el sentido común, se necesita calcular la probabilidad de obtener una desviación tan grande debido al azar.

    Valores de P

    Fig. 1.4.2 Probabilidad de obtener diferentes números de machos de 48, si la proporción paramétrica de machos es 0.5.

    En la figura anterior, utilicé la función BINOMDIST de Excel para calcular la probabilidad de obtener cada número posible de machos, desde\(0\) hasta\(48\), bajo la hipótesis nula que\(0.5\) son masculinos. Como puede ver, la probabilidad de sacar\(17\) machos del\(48\) total de pollos es de aproximadamente\(0.015\). Eso parece una probabilidad bastante pequeña, ¿no? Sin embargo, esa es la probabilidad de obtener exactamente\(17\) machos. Lo que quieres saber es la probabilidad de conseguir\(17\) o menos machos. Si fueras a aceptar a\(17\) los hombres como evidencia de que la proporción de sexos estaba sesgada, también habrías aceptado\(16\), o\(15\), o\(14\),... hombres como evidencia de una proporción de sexos sesgada. Por lo tanto, es necesario sumar las probabilidades de todos estos resultados. La probabilidad de sacar\(17\) o menos machos fuera de\(48\), bajo la hipótesis nula, es\(0.030\). Eso significa que si tuvieras un número infinito de pollos, mitad machos y mitad hembras, y tomaras un montón de muestras aleatorias de\(48\) pollos,\(3.0\%\) de las muestras tendrían\(17\) o menos machos.

    Este número,\(0.030\), es el\(P\) valor. Se define como la probabilidad de obtener el resultado observado, o un resultado más extremo, si la hipótesis nula es cierta. Entonces "\(P=0.030\)" es una forma taquigráfica de decir “La probabilidad de obtener\(17\) o menos pollos machos del\(48\) total de pollos, SI la hipótesis nula es cierta que\(50\%\) de los pollos son machos, es”\(0.030\).

    Falsos Positivos vs Falsos Negativos

    Después de hacer una prueba estadística, o vas a rechazar o aceptar la hipótesis nula. Rechazar la hipótesis nula significa que concluyes que la hipótesis nula no es cierta; en nuestro ejemplo de sexo de pollo, concluirías que la verdadera proporción de pollitos machos, si le das chocolate a un número infinito de madres gallinas, sería menor que\(50\%\).

    Cuando rechazas una hipótesis nula, existe la posibilidad de que estés cometiendo un error. La hipótesis nula podría ser realmente cierta, y puede ser que sus resultados experimentales se desvíen de la hipótesis nula puramente como resultado del azar. En una muestra de\(48\) pollos, es posible obtener pollos\(17\) machos puramente por casualidad; incluso es posible (aunque extremadamente improbable) obtener pollos\(0\) machos y\(48\) hembras puramente por casualidad, aunque la verdadera proporción son\(50\%\) machos. Por eso nunca decimos que “probamos” algo en la ciencia; siempre existe la posibilidad, por minúscula que sea, de que nuestros datos nos engañen y se desvíen de la hipótesis nula puramente por casualidad. Cuando tus datos te engañan para que rechaces la hipótesis nula aunque sea cierta, se llama “falso positivo” o “error de tipo I”. Entonces otra forma de definir el\(P\) valor es la probabilidad de obtener un falso positivo como el que has observado, si la hipótesis nula es verdadera.

    Otra forma en que tus datos te pueden engañar es cuando no rechazas la hipótesis nula, aunque no sea verdad. Si la verdadera proporción de polluelos hembra es\(51\%\), la hipótesis nula de una\(50\%\) proporción no es cierta, pero es poco probable que obtengas una diferencia significativa de la hipótesis nula a menos que tengas un tamaño de muestra enorme. No rechazar la hipótesis nula, aunque no sea cierta, es un “falso negativo” o “error de tipo II”. Es por ello que nunca decimos que nuestros datos muestran que la hipótesis nula es cierta; todo lo que podemos decir es que no hemos rechazado la hipótesis nula.

    Niveles de significancia

    ¿Una probabilidad de\(0.030\) significa que debes rechazar la hipótesis nula, y concluir que el chocolate realmente causó un cambio en la proporción de sexos? La convención en la mayoría de las investigaciones biológicas es utilizar un nivel de significancia de\(0.05\). Esto significa que si el\(P\) valor es menor que\(0.05\), rechazas la hipótesis nula; si\(P\) es mayor o igual a\(0.05\), no rechazas la hipótesis nula. No hay nada matemáticamente mágico sobre\(0.05\), fue elegido de manera bastante arbitraria durante los primeros días de la estadística; la gente podría haber acordado\(0.04\), o\(0.025\), o\(0.071\) como el nivel de significación convencional.

    El nivel de significancia (también conocido como el “valor crítico” o “alfa”) que debes usar depende de los costos de diferentes tipos de errores. Con un nivel de significancia de\(0.05\), tienes la\(5\%\) posibilidad de rechazar la hipótesis nula, aunque sea cierta. Si intentas\(100\) diferentes tratamientos en tus pollos, y ninguno de ellos realmente cambia la proporción de sexos,\(5\%\) de tus experimentos te darán datos que son significativamente diferentes de una proporción de\(1:1\) sexos, solo por casualidad. En otras palabras,\(5\%\) de tus experimentos te dará un falso positivo. Si usas un nivel de significancia más alto que el convencional\(0.05\)\(0.10\), como, aumentarás tu probabilidad de un falso positivo a\(0.10\) (por lo tanto aumentando tu probabilidad de una conclusión vergonzosamente equivocada), pero también disminuirás tu probabilidad de un falso negativo (aumentando tu posibilidad de detectar un efecto sutil). Si usas un nivel de significancia más bajo que el convencional\(0.05\), como\(0.01\), disminuyes tu probabilidad de un falso positivo vergonzoso, pero también haces que sea menos probable que detectes una desviación real de la hipótesis nula si la hay.

    Los costos relativos de falsos positivos y falsos negativos, y por lo tanto el mejor\(P\) valor a usar, serán diferentes para diferentes experimentos. Si estás evaluando un montón de tratamientos potenciales que cambian la relación sexual y obtienes un falso positivo, no sería gran cosa; solo realizarías algunas pruebas más en ese tratamiento hasta que estuvieras convencido de que el resultado inicial era un falso positivo. El costo de un falso negativo, sin embargo, sería que te perderías un descubrimiento tremendamente valioso. Por lo tanto, podría establecer su valor de significación en\(0.10\) o más para sus pruebas iniciales. Por otro lado, una vez que su tratamiento de cambio de relación sexual está siendo sometido a pruebas finales antes de ser vendido a los agricultores, un falso positivo podría ser muy costoso; querría estar muy seguro de que realmente funcionó. De lo contrario, si vendes a los criadores de pollo un tratamiento de relación sexual que resulta no funcionar realmente (fue un falso positivo), te demandarán los pantalones. Por lo tanto, es posible que desee establecer su nivel de significancia en\(0.01\), o incluso más bajo, para sus pruebas finales.

    El nivel de significancia que elijas también debe depender de cuán probable creas que es que tu hipótesis alternativa sea cierta, una predicción que hagas antes de hacer el experimento. Esta es la base de la estadística bayesiana, como se explica a continuación.

    Debes elegir tu nivel de significancia antes de recolectar los datos, por supuesto. Si eliges usar un nivel de significación diferente al convencional\(0.05\), la gente será escéptica; debes ser capaz de justificar tu elección. A lo largo de este manual, siempre voy a utilizar\(P< 0.05\) como nivel de significancia. Si estás haciendo un experimento donde el costo de un falso positivo es mucho mayor o menor que el costo de un falso negativo, o un experimento donde crees que es poco probable que la hipótesis alternativa sea cierta, deberías considerar usar un nivel de significancia diferente.

    Probabilidades de una cola frente a dos colas

    La probabilidad que se calculó anteriormente,\(0.030\), es la probabilidad de obtener\(17\) o menos machos fuera de\(48\). Sería significativo, utilizando el\(P< 0.05\) criterio convencional. Sin embargo, ¿qué pasa con la probabilidad de obtener\(17\) o menos hembras? Si tu hipótesis nula es “La proporción de machos es\(17\) o más” y tu hipótesis alternativa es “La proporción de machos es menor que”\(0.5\), entonces usarías el\(P=0.03\) valor encontrado sumando las probabilidades de obtener\(17\) o menos machos. Esto se llama probabilidad de una cola, porque estás agregando las probabilidades en una sola cola de la distribución que se muestra en la figura. No obstante, si tu hipótesis nula es “La proporción de machos es\(0.5\) “, entonces tu hipótesis alternativa es “La proporción de machos es diferente de”\(0.5\). En ese caso, se debe sumar la probabilidad de conseguir\(17\) o menos hembras a la probabilidad de conseguir\(17\) o menos machos. A esto se le llama probabilidad de dos colas. Si haces eso con el resultado de pollo, obtienes\(P=0.06\), lo cual no es del todo significativo.

    Debes decidir si usar la probabilidad de una o dos colas antes de recopilar tus datos, por supuesto. Una probabilidad de una cola es más poderosa, en el sentido de tener una menor probabilidad de falsos negativos, pero solo debes usar una probabilidad de una cola si realmente, realmente tienes una predicción firme sobre qué dirección de desviación considerarías interesante. En el ejemplo del pollo, podrías tener la tentación de usar una probabilidad de una cola, porque solo estás buscando tratamientos que disminuyan la proporción de pollos machos sin valor. Pero si accidentalmente encontraras un tratamiento que\(87\%\) produjera pollos machos, ¿realmente publicarías el resultado como “El tratamiento no provocó una disminución significativa en la proporción de pollos machos”? Espero que no. Te darías cuenta de que este resultado inesperado, aunque no era lo que tú y tus amigos granjeros querían, sería muy interesante para otras personas; al llevar a descubrimientos sobre la biología fundamental de la determinación del sexo en pollos, podría incluso ayudarte a producir más pollos hembra algún día. Cada vez que una desviación en cualquier dirección sería interesante, deberías usar la probabilidad de dos colas. Además, las personas se muestran escépticas sobre las probabilidades de una cola, especialmente si una probabilidad de una cola es significativa y una probabilidad de dos colas no sería significativa (como en nuestro ejemplo de pollo comiendo chocolate). A menos que brindes una explicación muy convincente, la gente puede pensar que decidiste usar la probabilidad de una cola después de ver que la probabilidad de dos colas no era del todo significativa, lo que sería hacer trampa. Puede ser más fácil usar siempre probabilidades de dos colas. Para este manual, siempre usaré probabilidades de dos colas, a menos que deje muy claro que solo sería interesante una dirección de desviación de la hipótesis nula.

    Reportando tus resultados

    En los viejos tiempos, cuando las personas buscaban\(P\) valores en tablas impresas, reportaban los resultados de una prueba estadística como "\(P< 0.05\)“," “,"\(P< 0.01\)\(P>0.10\) “, etc. Hoy en día, casi todos los programas de estadísticas informáticas dan el\(P\) valor exacto resultante de una prueba estadística, como \(P=0.029\), y eso es lo que debes reportar en tus publicaciones. Concluirás que los resultados son significativos o no significativos; o bien rechazan la hipótesis nula (si\(P\) está por debajo de tu nivel de significancia predeterminada) o no rechazan la hipótesis nula (si\(P\) está por encima de tu nivel de significancia). Pero otras personas querrán saber si tus resultados son “fuertemente” significativos (\(P\)mucho menos que\(0.05\)), lo que les dará más confianza en tus resultados que si fueran “apenas” significativos (\(P=0.043\), por ejemplo). Además, otros investigadores necesitarán el\(P\) valor exacto si quieren combinar tus resultados con otros en un metaanálisis.

    Los programas de estadísticas informáticas pueden dar\(P\) valores algo inexactos cuando son muy pequeños. Una vez que tus\(P\) valores se vuelven muy pequeños, solo puedes decir\(P< 0.00001\) "" o algún otro número impresionantemente pequeño. También debes dar ya sea tus datos brutos, o el estadístico de prueba y grados de libertad, en caso de que alguien quiera calcular tu\(P\) valor exacto.

    Tamaños de efecto e intervalos de confianza

    Una crítica bastante común al enfoque de prueba de hipótesis a la estadística es que la hipótesis nula siempre será falsa, si se tiene un tamaño de muestra lo suficientemente grande. En el ejemplo de patas de pollo, los críticos argumentarían que si tuvieras un tamaño de muestra infinito, es imposible que los pollos machos tengan exactamente el mismo tamaño promedio de pie que las gallinas hembras. Por lo tanto, como se sabe antes de hacer el experimento que la hipótesis nula es falsa, no tiene sentido probarla.

    Esta crítica sólo se aplica a las pruebas de dos colas, donde la hipótesis nula es “Las cosas son exactamente iguales” y la alternativa es “Las cosas son diferentes”. Presumiblemente estos críticos piensan que estaría bien hacer una prueba de una cola con una hipótesis nula como “La longitud del pie de los pollos machos es la misma que, o menor que, la de las hembras”, porque la hipótesis nula de que los pollos machos tienen pies más pequeños que las hembras podría ser cierta. Entonces, si te preocupa este tema, podrías pensar en una prueba de dos colas, donde la hipótesis nula es que las cosas son iguales, como taquigrafía para hacer dos pruebas de una cola. Un rechazo significativo de la hipótesis nula en una prueba de dos colas sería entonces el equivalente a rechazar una de las dos hipótesis nulas de una cola.

    Una crítica relacionada es que un rechazo significativo de una hipótesis nula podría no ser biológicamente significativo, si la diferencia es demasiado pequeña para importar. Por ejemplo, en el experimento de pollo-sexo, tener un tratamiento que produzca pollitos\(49.9\%\) machos podría ser significativamente diferente\(50\%\), pero no sería suficiente para que los agricultores quieran comprar tu tratamiento. Estos críticos dicen que se debe estimar el tamaño del efecto y ponerle un intervalo de confianza, no estimar un\(P\) valor. Por lo que el objetivo de tu experimento pollo-sexo no debería ser decir “El chocolate da una proporción de machos que es significativamente menor que\(50\%\) ((\(P=0.015\))” sino decir “El chocolate produjo\(36.1\%\) machos con un intervalo de\(95\%\) confianza de\(25.9\%\) a”\(47.4\%\). Para el experimento de patas de pollo, dirías algo así como “La diferencia entre machos y hembras en el tamaño medio del pie es\(2.45mm\), con un intervalo de confianza en la diferencia de”\(\pm 1.98mm\).

    Estimar los tamaños de los efectos y los intervalos de confianza es una forma útil de resumir tus resultados, y por lo general debería ser parte de tu análisis de datos; a menudo querrás incluir intervalos de confianza en una gráfica. No obstante, hay muchos experimentos donde el objetivo es decidir una pregunta de sí/no, no estimar un número. En las pruebas iniciales de relación de sexo de chocolate sobre pollo, el objetivo sería decidir entre “Cambió la proporción de sexos” y “No parecía cambiar la proporción de sexos”. Cualquier cambio en la proporción de sexos que sea lo suficientemente grande como para que puedas detectarlo sería interesante y valdría la pena realizar experimentos de seguimiento. Si bien es cierto que la diferencia entre\(49.9\%\) y\(50\%\) podría no valer la pena perseguirla, no harías un experimento con suficientes pollos para detectar una diferencia tan pequeña.

    A menudo, las personas que dicen evitar las pruebas de hipótesis dirán algo así como “el intervalo de\(95\%\) confianza de\(25.9\%\) a\(47.4\%\) no incluye\(50\%\), por lo que concluimos que el extracto de la planta cambió significativamente la proporción de sexos”. Esta es una forma torpe y indirecta de prueba de hipótesis, y bien podrían admitirla y reportar el\(P\) valor.

    Estadísticas bayesianas

    Otra alternativa a la estadística frecuentista es la estadística bayesiana. Una diferencia clave es que la estadística bayesiana requiere especificar tu mejor suposición de la probabilidad de cada valor posible del parámetro a estimar, antes de que se realice el experimento. Esto se conoce como la “probabilidad previa”. Entonces, para tu experimento de sexo con pollos, estás tratando de estimar la proporción “verdadera” de pollos machos que nacerían, si tuvieras un número infinito de pollos. Tendrías que especificar qué tan probable pensabas que era que la verdadera proporción de pollos machos era\(50\%\)\(51\%\), o\(52\%\), o\(47.3\%\), etc. luego mirarías los resultados de tu experimento y usarías la información para calcular nuevas probabilidades de que la verdadera proporción de machos pollos era\(50\%\), o\(51\%\), o\(52\%\), o\(47.3\%\), etc. (la distribución posterior).

    Confieso que realmente no entiendo las estadísticas bayesianas, y pido disculpas por no explicarlo bien. En particular, no entiendo cómo se supone que a la gente se le ocurra una distribución previa para los tipos de experimentos que hacen la mayoría de los biólogos. A excepción de la sistemática, donde la estimación bayesiana de las filogenias es bastante popular y parece tener sentido, no he visto a muchos biólogos de investigación que utilicen estadísticas bayesianas para el análisis rutinario de datos de experimentos de laboratorio simples. Esto significa que aunque los adherentes de culto de las estadísticas bayesianas te convencieran de que tenían razón, te resultaría difícil explicar tus resultados a tus compañeros biólogos. La estadística es un método para transmitir información, y si estás hablando un idioma diferente al de las personas con las que estás hablando, no transmitirás mucha información. Entonces me quedaré con las estadísticas frecuencistas tradicionales para este manual.

    Dicho esto, hay un concepto clave de las estadísticas bayesianas que es importante para que todos los usuarios de las estadísticas entiendan. Para ilustrarlo, imagina que estás probando extractos de\(1000\) diferentes plantas tropicales, tratando de encontrar algo que mate a las larvas de escarabajo. La realidad (que no se sabe) es que\(500\) de los extractos matan larvas de escarabajo, y\(500\) no lo hacen. Haces los\(1000\) experimentos y haces las pruebas estadísticas\(1000\) frecuentistas, y usas el nivel de significancia tradicional de\(P< 0.05\). Los extractos de\(500\) plantas que realmente funcionan todos te dan\(P< 0.05\); estos son los verdaderos positivos. De los\(500\) extractos que no funcionan,\(5\%\) de ellos te dan\(P< 0.05\) por casualidad (este es el significado del\(P\) valor, después de todo), así que tienes\(25\) falsos positivos. Entonces terminas con extractos de\(525\) plantas que te dieron un\(P\) valor menor que\(0.05\). Tendrás que hacer más experimentos para averiguar cuáles son los\(25\) falsos positivos y cuáles son los\(500\) verdaderos positivos, pero eso no es tan malo, ya que sabes que la mayoría de ellos resultarán verdaderos positivos.

    Ahora imagina que estás probando esos extractos de\(1000\) diferentes plantas tropicales para tratar de encontrar una que haga crecer el cabello. La realidad (que no sabes) es que uno de los extractos hace crecer el cabello, y el otro\(999\) no. Haces los\(1000\) experimentos y haces las pruebas estadísticas\(1000\) frecuentistas, y usas el nivel de significancia tradicional de\(P< 0.05\). El extracto de una planta que realmente funciona te da P <0.05; este es el verdadero positivo. Pero de los\(999\) extractos que no funcionan,\(5\%\) de ellos te dan\(P< 0.05\) por casualidad, así que tienes sobre\(50\) falsos positivos. Terminas con\(51\)\(P\) valores menores que\(0.05\), pero casi todos son falsos positivos.

    Ahora, en lugar de probar extractos de\(1000\) plantas, imagina que estás probando solo uno. Si lo estás probando para ver si mata larvas de escarabajo, ya sabes (basado en todo lo que sabes sobre biología de plantas y escarabajos) hay muchas posibilidades de que funcione, así que puedes estar bastante seguro de que un\(P\) valor menor que\(0.05\) es un verdadero positivo. Pero si estás probando ese extracto de una planta para ver si le crece pelo, lo que sabes es muy poco probable (basado en todo lo que sabes de plantas y cabello), un\(P\) valor menor que\(0.05\) es casi seguro un falso positivo. En otras palabras, si esperas que la hipótesis nula es probablemente cierta, un resultado estadísticamente significativo es probablemente un falso positivo. Esto es triste; los resultados más emocionantes, sorprendentes e inesperados en tus experimentos probablemente sean solo tus datos tratando de hacerte saltar a conclusiones ridículas. Deberías requerir un\(P\) valor mucho menor para rechazar una hipótesis nula que crees que probablemente sea cierta.

    Un bayesiano insistiría en que pongas en números lo probable que piensas que son la hipótesis nula y diversos valores de la hipótesis alternativa, antes de hacer el experimento, y no estoy seguro de cómo se supone que eso va a funcionar en la práctica para la mayoría de la biología experimental. Pero el concepto general es valioso: como lo resumió Carl Sagan, “Las afirmaciones extraordinarias requieren pruebas extraordinarias”.

    Recomendaciones

    Aquí hay tres experimentos para ilustrar cuándo son apropiados los diferentes enfoques de la estadística. En el primer experimento, estás probando un extracto de planta en conejos para ver si bajará su presión arterial. Ya sabes que el extracto de la planta es diurético (hace que los conejos pis más) y ya sabes que los diuréticos tienden a bajar la presión arterial, así que piensas que hay muchas posibilidades de que funcione. Si funciona, harás más pruebas con animales de bajo costo antes de realizar ensayos en humanos costosos y potencialmente riesgosos. Su expectativa previa es que la hipótesis nula (que el extracto de la planta no tiene ningún efecto) tiene una buena probabilidad de ser falsa, y el costo de un falso positivo es bastante bajo. Entonces deberías hacer pruebas de hipótesis frecuentistas, con un nivel de significancia de\(0.05\).

    En el segundo experimento, vas a poner a voluntarios humanos con presión arterial alta en una estricta dieta baja en sal y ver cuánto baja su presión arterial. Todos serán confinados en un hospital durante un mes y alimentados ya sea con una dieta normal, o los mismos alimentos con la mitad de sal. Para este experimento, no te interesaría mucho el\(P\) valor, ya que con base en investigaciones previas en animales y humanos, ya estás bastante seguro de que reducir la ingesta de sal bajará la presión arterial; estás bastante seguro de que la hipótesis nula de que “la ingesta de sal no tiene efecto sobre la presión arterial” es falso. En cambio, te interesa mucho saber cuánto baja la presión arterial. Reducir la ingesta de sal a la mitad es un gran problema, y si solo reduce la presión arterial en\(1mm\) Hg, la pequeña ganancia en la esperanza de vida no valdría la pena toda la vida de alimentos suaves y lectura obsesiva de etiquetas. Si reduce la presión arterial\(20mm\) con un intervalo de confianza de\(\pm 5mm\), podría valer la pena. Por lo que se debe estimar el tamaño del efecto (la diferencia en la presión arterial entre las dietas) y el intervalo de confianza sobre la diferencia.

    Fig. 1.4.3 Dos conejillos de Indias con sombreros.

    En el tercer experimento, vas a ponerle sombreros magnéticos a los conejillos de indias y ver si su presión arterial baja (en relación con los conejillos de indias que llevan el tipo de sombreros no magnéticos que suelen usar los conejillos de indias). Este es un experimento realmente tonto, y sabes que es muy poco probable que los imanes tengan algún efecto (no es imposible, los imanes afectan el sentido de dirección de las palomas mensajeras, y tal vez los conejillos de indias tengan algo similar en sus cerebros y tal vez de alguna manera afecte su presión arterial, es solo parece muy poco probable). Podrías analizar tus resultados usando estadísticas bayesianas, lo que requerirá especificar en términos numéricos cuán improbable crees que es que funcionen los sombreros magnéticos. O podrías usar estadísticas frecuentistas, pero requieres un\(P\) valor mucho, mucho menor que\(0.05\) para convencerte de que el efecto es real.

    Referencia

    1. Imagen de pollo gigante de concreto de Sue y Tony's Photo Site.
    2. Imagen de conejillos de indias con sombreros de todo el internet; si conoces al fotógrafo original, por favor házmelo saber.

    This page titled 1.4: Conceptos básicos de pruebas de hipótesis is shared under a not declared license and was authored, remixed, and/or curated by John H. McDonald via source content that was edited to the style and standards of the LibreTexts platform.