Saltar al contenido principal
LibreTexts Español

2.1: Prueba exacta de bondad de ajuste

  • Page ID
    149221
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje
    • Para aprender cuándo usar la prueba de bondad de ajuste cuando.
    • Cómo usarlo cuando se tiene una variable nominal, se quiere ver si el número de observaciones en cada categoría se ajusta a una expectativa teórica, y el tamaño de la muestra es pequeño.

    Introducción

    El objetivo principal de una prueba estadística es responder a la pregunta: “¿Cuál es la probabilidad de obtener un resultado como mis datos observados, si la hipótesis nula fuera cierta?” Si es muy poco probable que se obtengan los datos observados bajo la hipótesis nula, se rechaza la hipótesis nula.

    La mayoría de las pruebas estadísticas toman la siguiente forma:

    1. Recoger los datos.
    2. Calcular un número, el estadístico de prueba, que mide hasta qué punto los datos observados se desvían de la expectativa bajo la hipótesis nula.
    3. Usa una función matemática para estimar la probabilidad de obtener un estadístico de prueba tan extremo como el que observaste, si la hipótesis nula fuera cierta. Este es el valor P.

    Las pruebas exactas, como la prueba exacta de bondad de ajuste, son diferentes. No hay estadística de prueba; en cambio, se calcula directamente la probabilidad de obtener los datos observados bajo la hipótesis nula. Esto se debe a que las predicciones de la hipótesis nula son tan simples que las probabilidades se pueden calcular fácilmente.

    Cuándo usarlo

    Utiliza la prueba exacta de bondad de ajuste cuando tienes una variable nominal. El uso más común es una variable nominal con sólo dos valores (como masculino o femenino, izquierdo o derecho, verde o amarillo), en cuyo caso la prueba puede denominarse prueba binomial exacta. Se comparan los datos observados con los datos esperados, que son algún tipo de expectativa teórica (como una proporción de\(1:1\) sexos o una\(3:1\) proporción en un cruce genético) que determinó antes de recopilar los datos. Si el número total de observaciones es demasiado alto (alrededor de mil), es posible que las computadoras no puedan hacer los cálculos para la prueba exacta, y debe usar una prueba G —test o chi-cuadrado de bondad de ajuste en su lugar (y darán casi exactamente el mismo resultado).

    Se pueden hacer pruebas multinomiales exactas de bondad de ajuste cuando la variable nominal tiene más de dos valores. Los conceptos básicos son los mismos que para la prueba binomial exacta. Aquí estoy limitando la mayor parte de la explicación a la prueba binomial, porque es más comúnmente utilizada y más fácil de entender.

    Hipótesis nula

    Para una prueba de dos colas, que es lo que casi siempre debes usar, la hipótesis nula es que el número de observaciones en cada categoría es igual al que predice una teoría biológica, y la hipótesis alternativa es que los datos observados son diferentes de los esperados. Por ejemplo, si haces un cruce genético en el que esperas una\(3:1\) proporción de vainas de guisantes verdes a amarillas, y tienes un total de\(50\) plantas, tu hipótesis nula es que hay\(37.5\) plantas con vainas verdes y\(12.5\) con vainas amarillas.

    Si estás haciendo una prueba de una cola, la hipótesis nula es que el número observado para una categoría es igual o menor que el esperado; la hipótesis alternativa es que el número observado en esa categoría es mayor de lo esperado.

    Cómo funciona la prueba

    Digamos que quieres saber si nuestro gato, Gus, tiene preferencia por una pata o usa ambas patas por igual. Cuelgas una cinta en su cara y graba qué pata usa para batearla. Haces estos\(10\) tiempos, y él bate en la cinta con sus tiempos de pata derecha y sus\(8\) tiempos de pata\(2\) izquierda. Después se aburre con el experimento y se va. ¿Se puede concluir que tiene la pata derecha, o podría haber ocurrido este resultado por casualidad bajo la hipótesis nula de que bate por igual con cada pata?

    Fig. 2.1.1 Gus el gato

    La hipótesis nula es que cada vez que Gus bate en la cinta, la probabilidad de que use su pata derecha es\(0.5\). La probabilidad de que use su pata derecha en la primera vez es\(0.5\). La probabilidad de que use su pata derecha la primera vez Y la segunda vez es\(0.5\times 0.5\), o\(0.5^2\), o\(0.25\). La probabilidad de que use su pata derecha las diez veces es\(0.5^{10}\), o aproximadamente\(0.001\).

    Para una mezcla de patas derecha e izquierda, el cálculo de la distribución binomial es más complicado. Dónde\(n\) está el número total de ensayos,\(k\) es el número de “éxitos” (jerga estadística para cualquier evento que se quiera considerar),\(p\) es la proporción esperada de éxitos si la hipótesis nula es cierta, y\(Y\) es la probabilidad de obtener\(k\) éxitos en \(n\)ensayos, la ecuación es:

    \[Y=\frac{p^k(1-p)^{(n-k)}n!}{k!(n-k)!}\]

    Afortunadamente, hay una función de hoja de cálculo que hace el cálculo por ti. Para calcular la probabilidad de\(8\) salir exactamente de las patas\(10\) derechas, ingresarías

    =BINOMDIST (2, 10, 0.5, FALSE)

    El primer número,\(2\), es el evento que haya menos de lo esperado; en este caso, solo hay dos usos de la pata izquierda, que es menor de lo esperado\(5\). El segundo número,\(10\), es el número total de juicios. El tercer número es la proporción esperada de cualquier evento en el que hubo menos de lo esperado, si la hipótesis nula fuera cierta; aquí la hipótesis nula predice que la mitad de todos los batings de cinta serán con la pata izquierda. Y FALSE le dice que calcule la probabilidad exacta para ese número de eventos solamente. En este caso, la respuesta es\(P=0.044\), así que podrías pensar que fue significativo a\(P<0.05\) nivel.

    Sin embargo, sería incorrecto calcular solo la probabilidad de obtener exactamente las patas\(2\) izquierdas y las patas\(8\) derechas. En cambio, debe calcular la probabilidad de obtener una desviación de la expectativa nula tan grande como, o mayor que, el resultado observado. Entonces debes calcular la probabilidad de que Gus usara sus\(2\) tiempos de pata izquierda fuera de\(10\), o\(1\) tiempo fuera de\(10\), o\(0\) tiempos fuera de diez. Sumando estas probabilidades juntas da\(P=0.055\), lo que no es del todo significativo a\(P<0.05\) nivel. Esto se hace en una hoja de cálculo ingresando

    =BINOMDIST (2, 10, 0.5, TRUE)

    El parámetro “TRUE” indica a la hoja de cálculo que calcule la suma de las probabilidades del número observado y todos los valores más extremos; es el equivalente a

    =BINOMDIST (2, 10, 0.5, FALSE) +BINOMDIST (1, 10, 0.5, FALSE) +BINOMDIST (0, 10, 0.5, FALSE)

    Hay una cosa más. El cálculo anterior da la probabilidad total de obtener\(2\)\(1\), o\(0\) usos de la pata izquierda fuera de\(10\). Sin embargo, la hipótesis alternativa es que el número de usos de la pata derecha no es igual al número de usos de la pata izquierda. Si hubiera habido\(2\),\(1\), o\(0\) usos de la pata derecha, eso también habría sido una desviación igualmente extrema de la expectativa. Entonces debes agregar la probabilidad de obtener\(2\)\(1\), o\(0\) usos de la pata derecha, para dar cuenta de ambas colas de la distribución de probabilidad; estás haciendo una prueba de dos colas. Esto te da\(P=0.109\), lo que no está muy cerca de ser significativo. (Si la hipótesis nula hubiera sido\(0.50\) o más usos de la pata izquierda, y la hipótesis alternativa hubiera sido menor que los\(0.5\) usos de la pata izquierda, podrías hacer una prueba de una cola y usar\(P=0.054\). Pero casi nunca se tiene una situación en la que sea apropiado una prueba de una cola).

    Fig. 2.1.2 Gráfico que muestra la distribución de probabilidad para el binomio con 10 ensayos.

    El uso más común de una prueba binomial exacta es cuando la hipótesis nula es que los números de los dos resultados son iguales. En ese caso, el significado de una prueba de dos colas es claro, y se calcula el\(P\) valor de dos colas multiplicando el\(P\) valor de una cola por dos.

    Cuando la hipótesis nula no es una\(1:1\) relación, sino algo así como una\(3:1\) relación, los estadísticos no están de acuerdo sobre el significado de una prueba binomial exacta de dos colas, y diferentes programas estadísticos darán resultados ligeramente diferentes. El método más simple es usar la ecuación binomial, como se describió anteriormente, para calcular la probabilidad de cualquier evento que sea menos común que el esperado, luego multiplicarlo por dos. Por ejemplo, digamos que has cruzado una serie de gatos que son heterocigotos en el gen hasta el pelo; debido a que el pelo corto es dominante, esperas que\(75\%\) de los gatitos tengan el pelo corto y que\(25\%\) tengan el pelo largo. Acabas con gatos de pelo\(7\) corto y pelo\(5\) largo. Hay gatos de pelo\(7\) corto cuando lo esperabas\(9\), así que usas la ecuación binomial para calcular la probabilidad de\(7\) o menos gatos de pelo corto; esto suma a\(0.158\). Duplicar esto te daría un\(P\) valor de dos colas de\(0.315\). Esto es lo que hacen las calculadoras en línea de SAS y Richard Lowry.

    El enfoque alternativo se llama el método de los valores pequeños de P, y creo que la mayoría de los estadísticos lo prefieren. Para nuestro ejemplo, se utiliza la ecuación binomial para calcular la probabilidad de obtener exactamente\(7\) de gatos de\(12\) pelo corto; lo es\(0.103\). Después calculas las probabilidades para cada otro número posible de gatos de pelo corto, y sumas las que son menores que\(0.103\). Esa es la probabilidad de\(6\),\(5\),\(4\)... \(0\)gatos de pelo corto, y en la otra cola, sólo la probabilidad de\(12\) salir de gatos de\(12\) pelo corto. Sumando estas probabilidades da un\(P\) valor de\(0.189\). Esto es lo que hace mi hoja de cálculo binomial exacta exactbin.xls. Creo que los argumentos a favor del método de\(P\) los valores pequeños tienen sentido. Si estás usando la prueba binomial exacta con proporciones esperadas distintas de\(50:50\), asegúrate de especificar qué método usas (recuerda que no importa cuándo son las proporciones esperadas\(50:50\)).

    Prueba de señal

    Una aplicación común de la prueba binomial exacta se conoce como prueba de signo. Se utiliza la prueba de señal cuando hay dos variables nominales y una variable de medición. Una de las variables nominales tiene sólo dos valores, como “antes” y “después” o “izquierda” y “derecha”, y la otra variable nominal identifica los pares de observaciones. En un estudio de una pomada para el crecimiento del cabello, “cantidad de cabello” sería la variable de medición, “antes” y “después” serían los valores de una variable nominal, y “Arnold”, “Bob”, “Charles” serían valores de la segunda variable nominal.

    Los datos para una prueba de signos generalmente podrían analizarse usando una prueba t pareada o una prueba de rango firmado de Wilcoxon, si la hipótesis nula es que la diferencia media o mediana entre pares de observaciones es cero. Sin embargo, a veces no te interesa el tamaño de la diferencia, solo la dirección. En el ejemplo del crecimiento del cabello, podrías haber decidido que no te importaba cuánto pelo crecían o perdían los hombres, solo querías saber si a más de la mitad de los hombres les crecía pelo. En ese caso, se cuenta el número de diferencias en una dirección, se cuenta el número de diferencias en la dirección opuesta y se usa la prueba binomial exacta para ver si los números son diferentes de una\(1:1\) relación.

    Debes decidir que una prueba de signos es la prueba que deseas antes de mirar los datos. Si analizas tus datos con una prueba t —test pareada y no son significativos, entonces notas que sería significativo con una prueba de signos, sería muy poco ético solo reportar el resultado de la prueba de signos como si lo hubieras planeado desde el principio.

    Prueba multinomial exacta

    Si bien el uso más común de pruebas exactas de bondad de ajuste es la prueba binomial exacta, también es posible realizar pruebas multinomiales exactas cuando hay más de dos valores de la variable nominal. El ejemplo más común en biología serían los resultados de cruces genéticos, donde se podría esperar una\(1:2:1\) relación de un cruce de dos heterocigotos en un locus codominante, una\(9:3:3:1\) proporción de un cruce de individuos heterocigotos en dos loci dominantes, etc. El procedimiento básico es el mismo que para el exacto prueba binomial: calculas las probabilidades del resultado observado y todos los resultados posibles más extremos y sumarlos juntos. Los cálculos subyacentes son más complicados, y si tienes muchas categorías, tu computadora puede tener problemas aunque el tamaño total de la muestra sea inferior a 1000. Si tienes un tamaño de muestra pequeño pero tantas categorías que tu programa de computadora no hará una prueba exacta, puedes usar una prueba G —test o una prueba de chi-cuadrado de bondad de ajuste, pero entiende que los resultados pueden ser algo inexactos.

    Prueba post-hoc

    Si realiza la prueba multinomial exacta (con más de dos categorías) y obtiene un resultado significativo, es posible que desee hacer un seguimiento probando si cada categoría se desvía significativamente del número esperado. Es un poco extraño hablar de solo una categoría que se desvía significativamente de lo esperado; si hay más observaciones de las esperadas en una categoría, tiene que haber menos de lo esperado en al menos otra categoría. Pero mirar cada categoría podría ayudarte a entender mejor lo que está pasando.

    Por ejemplo, digamos que haces un cruce genético en el que esperas una\(9:3:3:1\) proporción de flores moradas, rojas, azules y blancas, y tus números observados son\(72\) morados,\(38\) rojos,\(20\) azules y\(18\) blancos. Haces la prueba exacta y obtienes un\(P\) valor de\(0.0016\), así rechazas la hipótesis nula. Hay menos púrpura y azul y más rojo y blanco de lo esperado, pero ¿hay un color individual que se desvíe significativamente del esperado?

    Para responder a esto, haz una prueba binomial exacta para cada categoría vs. la suma de todas las demás categorías. Para el morado, compare la\(9:7\) proporción\(72\) púrpura y\(76\) no púrpura con respecto a la esperada. El\(P\) valor es\(0.07\), por lo que no se puede decir que hay significativamente menos flores moradas de lo esperado (aunque vale la pena señalar que está cerca). Hay flores\(38\) rojas y\(110\) no rojas; cuando se compara con la\(3:13\) relación esperada, el\(P\) valor es\(0.035\). Esto está por debajo del nivel de significancia de\(0.05\), pero debido a que estás haciendo cuatro pruebas al mismo tiempo, necesitas corregir las múltiples comparaciones. Aplicando la corrección de Bonferroni, se divide el nivel de significancia (\(0.05\)) por el número de comparaciones (\(4\)) y se obtiene un nuevo nivel de significancia de\(0.0125\); ya que\(0.035\) es mayor que esto, no se puede decir que hay significativamente más flores rojas de lo esperado. Al comparar el\(18\) blanco y\(130\) no blanco con la relación esperada de\(1:15\), el\(P\) valor es\(0.006\), por lo que se puede decir que hay significativamente más flores blancas de lo esperado.

    Es posible que un\(P\) valor global significativo pueda resultar de desviaciones de tamaño moderado en todas las categorías, y ninguna de las pruebas post-hoc será significativa. Esto sería frustrante; sabrías que algo interesante estaba pasando, pero no podías decir con confianza estadística exactamente qué era.

    Dudo que el procedimiento para pruebas post-hoc en una prueba de bondad de ajuste que he sugerido aquí sea original, pero no encuentro una referencia al mismo; si sabes quién realmente inventó esto, envíeme un correo electrónico con una referencia. Y parece probable que haya un mejor método que tome en cuenta la no independencia de los números en las diferentes categorías (ya que los números en una categoría suben, el número en alguna otra categoría debe bajar), pero no tengo idea de lo que podría ser.

    Hipótesis intrínseca

    Utiliza la prueba exacta de bondad de ajuste que he descrito aquí cuando se prueba el ajuste a una hipótesis extrínseca, una hipótesis que conocías antes de recopilar los datos. Por ejemplo, incluso antes de que nazcan los gatitos, se puede predecir que la proporción de gatos de pelo corto a pelo largo estará\(3:1\) en un cruce genético de dos heterocigotos. A veces se quiere probar el ajuste a una hipótesis nula intrínseca: una que se basa en los datos que recopila, donde no puede predecir los resultados de la hipótesis nula hasta después de recopilar los datos. El único ejemplo que se me ocurre en biología son las proporciones de Hardy-Weinberg, donde se espera que el número de cada genotipo en una muestra de una población silvestre sea\(p^2\)\(2pq\) o o\(q^2\) (con más posibilidades cuando hay más de dos alelos); no se conocen las frecuencias alélicas ( \(p\)y\(q\)) hasta después de recabar los datos. Las pruebas exactas de ajuste a Hardy-Weinberg plantean una serie de cuestiones estadísticas y han recibido mucha atención por parte de los genetistas de población; si necesitas hacer esto, ver Engels (2009) y las referencias más antiguas que cita. Si tienes datos biológicos en los que quieres hacer una prueba exacta de bondad de ajuste con una hipótesis intrínseca sobre, y no involucra a Hardy-Weinberg, envíeme un correo electrónico; sería muy curioso ver qué tipo de datos biológicos requiere esto, e intentaré ayudarte lo mejor que pueda.

    Supuestos

    Las pruebas de bondad de ajuste suponen que las observaciones individuales son independientes, lo que significa que el valor de una observación no influye en el valor de otras observaciones. Para dar un ejemplo, digamos que quieres saber de qué color le gusta a las abejas las flores. Plantas cuatro parcelas de flores: una morada, una roja, una azul y otra blanca. Obtienes una abeja, la pones en un frasco oscuro, la llevas a un punto equidistante de las cuatro parcelas de flores, y la sueltas. Primero grabas a qué flor de color va, luego la vuelves a capturar y mantenerla prisionera hasta que termine el experimento. Haces esto una y otra vez por\(100\) las abejas. En este caso, las observaciones son independientes; el hecho de que la abeja haya\(\#1\) ido a una flor azul no influye en adónde\(\#2\) va la abeja. Este es un buen experimento; si significativamente más\(1/4\) de las abejas van a las flores azules, sería una buena evidencia de que las abejas prefieren las flores azules.

    Ahora digamos que pones una colmena en el punto equidistante de las cuatro parcelas de flores, y registras a dónde van las primeras\(100\) abejas. Si la primera abeja pasa a ir a la trama de flores azules, volverá a la colmena y hará su baile de abejuela que le dice a las otras abejas: “¡Vayan\(15\) metros al suroeste, ahí hay un montón de néctar delicioso!” Entonces algunas abejas más volarán a las flores azules, y cuando regresen a la colmena, harán el mismo baile de abejuela. Las observaciones NO son independientes; adónde\(\#2\) va la abeja está fuertemente influenciada por adónde\(\#1\) fue la abeja. Si “significativamente” más que\(1/4\) de las abejas van a las flores azules, fácilmente podría ser que la primera abeja simplemente pasó a ir allí por casualidad, y a las abejas puede que realmente no les importe el color de las flores.

    Ejemplo
    Fig. 2.1.3 Hembra de Roptrocerus xylophagorum.

    Roptrocerus xylophagorum es un parasitoide de los escarabajos de la corteza. Para determinar qué señales utilizan estas avispas para encontrar a los escarabajos, Sullivan et al. (2000) colocaron avispas hembra en la base de un tubo en\(Y\) forma, con un olor diferente en cada brazo del\(Y\), luego contaron el número de avispas que ingresaron a cada brazo del tubo. En un experimento, un brazo del\(Y\) tenía olor a corteza siendo comido por escarabajos adultos, mientras que el otro brazo del\(Y\) tenía corteza siendo comido por escarabajos larvarios. Diez avispas ingresaron a la zona con los escarabajos adultos, mientras que\(17\) ingresaron a la zona con los escarabajos larvarios. La diferencia con respecto a la\(1:1\) relación esperada no es significativa (\(P=0.248\)). En otro experimento que comparó la corteza infestada con una mezcla de corteza infestada y no infestada, las\(36\) avispas se movieron hacia la corteza infestada, mientras que solo\(7\) se movieron hacia la mezcla; esto es significativamente diferente de la relación esperada (\(P=9\times 10^{-6}\)).

    Ejemplo

    Yukilevich y True (2008) mezclaron\(30\) macho y\(30\) hembra Drosophila melanogaster de Alabama con\(30\) machos y\(30\) hembras de la Isla Gran Bahama. Observaron\(246\) apareamientos;\(140\) fueron homotípicos (macho y hembra de la misma ubicación), mientras que\(106\) fueron heterotípicos (machos y hembras de diferentes localizaciones). La hipótesis nula es que las moscas se aparean al azar, por lo que debe haber igual número de apareamientos homotípicos y heterotípicos. Hubo significativamente más apareamientos homotípicos (prueba binomial exacta\(P=0.035\)) que heterotípicos.

    Ejemplo

    Como ejemplo de la prueba de signos, Farrell et al. (2001) estimaron el árbol evolutivo de dos subfamilias de escarabajos que se entierran dentro de los árboles cuando son adultos. Encontraron diez parejas de grupos hermanos en los que un grupo de especies afines, o “clado”, se alimentaba de angiospermas y uno se alimentaba de gimnospermas, y contaron el número de especies en cada clado. Hay dos variables nominales, fuente de alimento (angiospermas o gimnospermas) y par de clados (Corthylina vs Pityophthorus, etc.) y una variable de medición, el número de especies por clado.

    La hipótesis biológica nula es que aunque el número de especies por clado puede variar ampliamente debido a una variedad de factores desconocidos, si un clado se alimenta de angiospermas o gimnospermas no será uno de estos factores. Es decir, se espera que cada par de clados relacionados difiera en número de especies, pero la mitad del tiempo el clado que se alimenta de angiosperma tendrá más especies, y la mitad de las veces el clado que se alimenta de gimnosperma tendrá más especies.

    Aplicando una prueba de signos, hay\(10\) pares de clados en los que el clado especializado en angiosperma tiene más especies, y\(0\) pares con más especies en el clado especializado en gimnosperma; esto es significativamente diferente de la expectativa nula (\(P=0.002\)), y se puede rechazar la hipótesis nula y concluyen que en estos escarabajos, los clados que se alimentan de angiospermas tienden a tener más especies que los clados que se alimentan de gimnospermas.

    Alimentación con angiosperma Spp. Alimentación de gymonsperm Spp.
    Corthylina 458 Pityophthorus 200
    Scolytinae 5200 Hylastini+Tomacini 180
    Acanthotomicus+Premnobio 123 Orhotomicus 11
    Xileborini/Dryocoetini 1500 Ipini 195
    Apión 1500 Antliarhininae 12
    Belinae 150 Alocorinina+Oxicorinas 30
    Curculionidae Superior 44002 Nemonychidae 85
    Cerambycidae Superior 25000 Aseminae + Espondilinas 78
    Megalopodinas 400 Palofaginae 3
    Crisomélidos superiores 33400 Aulocoscelinae + Orsodacninae 26
    Ejemplo

    Mendel (1865) cruzó plantas de guisante que eran heterocigotos para vaina verde/vaina amarilla; el color de la vaina es la variable nominal, con “verde” y “amarillo” como valores. Si esto se hereda como un rasgo mendeliano simple, con verde dominante sobre amarillo, la proporción esperada en la descendencia es\(3\) verde:\(1\) amarillo. Observó\(428\) verde y\(152\) amarillo. Los números esperados de plantas bajo la hipótesis nula son\(435\) verdes y\(145\) amarillas, por lo que Mendel observó un poco menos plantas de vainas verdes de lo esperado. El\(P\) valor para una prueba binomial exacta utilizando el método de\(P\) valores pequeños, tal como se implementa en mi hoja de cálculo, es\(0.533\), indicando que la hipótesis nula no puede ser rechazada; no hay diferencia significativa entre las frecuencias observadas y esperadas de plantas de guisante con vainas verdes. (SAS utiliza un método diferente que da un\(P\) valor de\(0.530\). Con un tamaño de muestra más pequeño, la diferencia entre el “método de\(P\) valores pequeños” que yo y la mayoría de los estadísticos prefieren, y el método más crudo que utiliza SAS, podría ser lo suficientemente grande como para ser importante).

    Ejemplo

    Mendel (1865) también cruzó guisantes que eran heterocigotos en dos genes: uno para amarillo vs verde, otro para redondo vs arrugada; el amarillo era dominante sobre el verde y redondo dominante sobre arrugada. Los resultados esperados y observados fueron:

    fenotipo Proporción esperada número esperado número observado
    amarillo+redondo 9 312.75 315
    verde+redondo 3 104.25 108
    Amarillo+arrugado 3 104.25 101
    redondo+arrugado 1 34.75 32

    Este es un ejemplo de la prueba multinomial exacta, ya que hay cuatro categorías, no dos. El\(P\) valor es\(0.93\), por lo que la diferencia entre observada y esperada no está ni cerca de significancia.

    Graficando los resultados

    Traza los resultados de una prueba exacta de la misma manera que cualquier otra prueba de bondad de ajuste.

    Pruebas similares

    También se podría usar una prueba G o una prueba de bondad de ajuste de chi-cuadrado para los mismos datos que la prueba exacta de bondad de ajuste. Cuando los números esperados son pequeños, la prueba exacta dará resultados más precisos que la prueba G o las pruebas de chi-cuadrado. Cuando el tamaño de la muestra es grande (más de mil), intentar usar la prueba exacta puede dar mensajes de error (las computadoras tienen dificultades para calcular factoriales para números grandes), por lo que se debe usar una prueba G —test o prueba de chi-cuadrado. Para tamaños de muestra intermedios, las tres pruebas dan aproximadamente los mismos resultados. Te recomiendo que uses la prueba exacta cuando\(n\) sea menor que\(1000\); consulta la página web en tamaños de muestra pequeños para mayor discusión.

    Si intentas hacer una prueba exacta con un gran número de categorías, es posible que tu computadora no pueda hacer los cálculos aunque el tamaño total de tu muestra sea inferior a 1000. En ese caso, puede usar con cautela la prueba G —o la prueba de bondad de ajuste de chi-cuadrado, sabiendo que los resultados pueden ser algo inexactos.

    La prueba exacta de bondad de ajuste no es lo mismo que la prueba exacta de independencia de Fisher. Se utiliza una prueba de independencia para dos variables nominales, como sexo y ubicación. Si quisieras comparar la proporción de estudiantes varones a mujeres en Delaware con la proporción hombre:mujer en Maryland, usarías una prueba de independencia; si quieres comparar la relación hombre:mujer en Delaware con una\(1:1\) relación teórica, usarías una prueba de bondad de ajuste.

    Cómo hacer la prueba

    Hoja de Cálculo

    He configurado una hoja de cálculo que realiza la prueba binomial exacta exactbin.xls para tamaños de muestra hasta\(1000\). Se explica por sí mismo. Utiliza el método de\(P\) valores pequeños cuando las proporciones esperadas son diferentes de\(50:50\).

    Página web

    Richard Lowry ha configurado una página web que hace la prueba binomial exacta. No utiliza el método de\(P\) valores pequeños, por lo que no lo recomiendo si sus proporciones esperadas son diferentes de\(50:50\). No estoy al tanto de ninguna página web que haga la prueba binomial exacta usando el método de\(P\) valores pequeños, y no estoy al tanto de ninguna página web que haga pruebas multinomiales exactas.

    R

    El R Companion de Salvatore Mangiafico tiene un programa R de muestra para la prueba exacta de bondad de ajuste.

    SAS

    Aquí hay un programa SAS de muestra, que muestra cómo hacer la prueba binomial exacta en los datos de Gus. El "\(P=0.5\)" da la proporción esperada de cualquier valor de la variable nominal que sea alfabéticamente primero; en este caso, da la proporción esperada de “izquierda”.

    La función binomial exacta SAS encuentra el\(P\) valor de dos colas duplicando el\(P\) valor de una cola. La distribución binomial no es simétrica cuando la proporción esperada es distinta a\(50\%\), por lo que la técnica que utiliza SAS no es tan buena como el método de\(P\) valores pequeños. No recomiendo hacer la prueba binomial exacta en SAS cuando la proporción esperada es otra cosa que no sea\(50\%\).

    Ejemplo

    Gus de datos;

    PATA DE ENTRADA $;

    LÍNEAS DE DATOS;

    derecha

    izquierda

    derecha

    derecha

    derecha

    derecha

    izquierda

    derecha

    derecha

    derecho;

    PROC FREQ data=GUS;

    TABLAS pata/BINOMIAL (P=0.5);

    BINOMIO EXACTO;

    CORRER;

    Cerca del final de la salida está esto:

    Prueba Exacta Pr
    unilateral <= P 0.0547
    Dos caras = 2 * Una cara 0.1094

    El número “Dos\(2\) lados = *Un lado” es el\(P\) valor de dos colas que desea.

    Si tiene los números totales, en lugar de los valores brutos, usaría un parámetro WEIGHT en PROC FREQ. La opción ZEROS le dice que incluya observaciones con recuentos de cero, por ejemplo si Gus había usado sus\(0\) tiempos de pata izquierda; no duele incluir siempre la opción ZEROS.

    Ejemplo

    DATA gus;
    INPUT paw $ count;
    DATALINES;
    derecha 10
    izquierda 2
    ;
    PROC FREQ data=GUS; conteo
    PESO/CEROS;
    TABLAS pata/BINOMIAL (P=0.5);
    BINOMIAL EXACTO;
    CORRER;

    Este ejemplo muestra cómo hacer a la prueba multinomial exacta. Los números son datos de Mendel de un cruce genético en el que se espera una\(9:3:3:1\) proporción de guisantes que son redondos+amarillos, redondos+verdes, arrugados+amarillos y arrugados+verdes. La opción ORDER=DATA le dice a SAS que analice los datos en el orden en que se ingresan (rndyel, rndgrn, wrnkyel, wrnkgrn, en este caso), no en orden alfabético. El TESTP= (\(0.5625\; \; 0.1875\; \; 0.0625\; \; 0.1875\)) enumera las proporciones esperadas en el mismo orden.

    Ejemplo

    DATA chícharos;

    INPUT color $ count; DATALINES;
    rndyel 315
    rndgrn 108
    wrnkyel 101
    wrnkgrn 32
    ;
    PROC FREQ data=PEAR=DATOS; recuento
    PESO/CEROS;
    TABLAS color/CHISQ TESTP= (0.5625 0.1875 0.1875 0.0625); CHISQ
    EXACTO;
    CORRER;

    El valor de P que desea está etiquetado como “Pr exacto >= ChiSQ”:

    Prueba de Chi-Cuadrado
    para Proporciones Especificadas

    Chi-Cuadrado 0.4700
    DF 3 Pr
    asintótico > ChiSQ 0.9254 Pr
    Exacto >= ChiSQ 0.9272

    Análisis de potencia

    Antes de hacer un experimento, debes hacer un análisis de potencia para estimar el tamaño de la muestra que necesitarás. Para hacer esto para una prueba binomial exacta usando G*Power, elija “Exacta” en “Familia de pruebas” y elija “Proporción: Diferencia de constante” en “Prueba estadística”. En “Tipo de análisis de potencia”, elija “A priori: Calcular el tamaño de muestra requerido”. Para “Parámetros de entrada”, ingresa el número de colas (casi siempre querrás dos), alfa (generalmente\(0.05\)) y Power (a menudo\(0.5\),\(0.8\), o\(0.9\)). El “Tamaño del efecto” es la diferencia en proporciones entre las observadas y las esperadas que se espera ver, y la “Proporción constante” es la proporción esperada para una de las dos categorías (la que sea menor). Pulsa “Calcular” y obtendrás el Tamaño Total de la Muestra.

    A modo de ejemplo, digamos que querías hacer un experimento para ver si Gus el gato realmente usó una pata más que la otra para llamar mi atención. La hipótesis nula es que la probabilidad de que use su pata izquierda es\(0.50\), así que ingresa eso en “Proporción constante”. Tú decides que si la probabilidad de que él use su pata izquierda es\(0.40\), quieres que tu experimento tenga una\(80\%\) probabilidad de obtener un resultado significativo (\(P< 0.05\)), así que ingresa\(0.10\) para Tamaño de Efecto,\(0.05\) para Alfa y\(0.80\) para Poder. Si usa su pata izquierda\(60\%\) de la época, también aceptarás eso como resultado significativo, por lo que es una prueba de dos colas. El resultado es\(199\). Esto significa que si Gus realmente está usando su pata izquierda\(40\%\) (o\(60\%\)) de la época, un tamaño de muestra de\(199\) observaciones tendrá una\(80\%\) probabilidad de darle una prueba binomial significativa (\(P< 0.05\)) exacta.

    Muchos cálculos de potencia para la prueba binomial exacta, como G*Power, encuentran el tamaño de muestra más pequeño que dará la potencia deseada, pero hay un “efecto diente de sierra” en el que aumentar el tamaño de la muestra en realidad puede reducir la potencia. Chernick y Liu (2002) sugieren encontrar el tamaño de muestra más pequeño que le dará el poder deseado, incluso si se incrementa el tamaño de la muestra. Para el ejemplo de Gus, el método de Chernick y Liu da un tamaño de muestra de\(210\), en lugar del\(199\) dado por G*Power. Debido a que tanto la potencia como el tamaño del efecto suelen ser números redondos arbitrarios, donde sería fácil justificar otros valores que cambiarían el tamaño de muestra requerido, las pequeñas diferencias en el método utilizado para calcular el tamaño de muestra deseado probablemente no sean muy importantes. La única razón por la que menciono esto es para que no te alarmes si diferentes programas de análisis de potencia para la prueba binomial exacta dan resultados ligeramente diferentes para los mismos parámetros.

    G*Power no realiza un análisis de potencia para la prueba exacta con más de dos categorías. Si tiene que hacer un análisis de potencia y su variable nominal tiene más de dos valores, utilice el análisis de potencia para pruebas de chi-cuadrado en G*Power en su lugar. Los resultados estarán bastante cerca de un verdadero análisis de potencia para la prueba multinomial exacta, y dada la arbitrariedad de parámetros como la potencia y el tamaño del efecto, los resultados deberían ser lo suficientemente cercanos.

    Referencias

    1. Imagen de avispa de Base de Datos Universal Chalcidoidea.
    2. Chernick, M.R., y C.Y. Liu. 2002. El comportamiento de los dientes de sierra de potencia versus tamaño de muestra y soluciones de software: proporción binomial simple usando métodos exactos. Estadístico Americano 56:149-155.
    3. Engels, W.R. 2009. Pruebas exactas para proporciones Hardy-Weinberg. Genética 183:1431-1441.
    4. Farrell, B.D., A.S. Sequeira, B.C. O'Meara, B.B. Normark, J.H. Chung, y B.H. Jordal. 2001. Evolución de la agricultura en escarabajos (Curculionidae: Scolytinae y Platypodinae). Evolución 55:2011-2027.
    5. Mendel, G. 1865. Experimentos en hibridación de plantas. disponible en MendelWeb.
    6. Sullivan, B.T., E.M. Pettersson, K.C. Seltmann, y C.W. Berisford. 2000. Atracción del parásitoide escarabajo de la corteza Roptrocerus xylophagorum (Hymenoptera: Pteromalidae) a señales olfativas asociadas al hospedador. Entomología Ambiental 29:1138-1151.
    7. Yukilevich, R., y J.R. True. 2008. Aislamiento sexual incipiente entre poblaciones cosmopolitas de Drosophila melanogaster. Evolución 62:2112-2121.

    This page titled 2.1: Prueba exacta de bondad de ajuste is shared under a not declared license and was authored, remixed, and/or curated by John H. McDonald via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.