Saltar al contenido principal
LibreTexts Español

2.4: G—Prueba de bondad de ajuste

  • Page ID
    149210
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje
    • Estudiar el uso de la prueba G de bondad de ajuste (también conocida como prueba de razón de verosimilitud, prueba de razón de verosimilitud logarítmica o prueba de G 2) cuando se tiene una variable nominal
    • Para ver si el número de observaciones en cada categoría se ajusta a una expectativa teórica, y el tamaño de la muestra es grande

    Cuándo usarlo

    Utilice la prueba G de bondad de ajuste cuando tenga una variable nominal con dos o más valores (como macho y hembra, o flores rojas, rosas y blancas). Se comparan los recuentos observados de números de observaciones en cada categoría con los recuentos esperados, los cuales se calculan utilizando algún tipo de expectativa teórica (como una proporción de\(1:1\) sexos o una\(1:2:1\) proporción en un cruce genético).

    Si el número esperado de observaciones en alguna categoría es demasiado pequeño, la prueba G puede dar resultados inexactos, y debe usar una prueba exacta en su lugar. Consulte la página web sobre tamaños de muestra pequeños para discutir lo que significa “pequeño”.

    La prueba G de bondad de ajuste es una alternativa a la prueba de chi-cuadrado de bondad de ajuste; cada una de estas pruebas tiene algunas ventajas y algunas desventajas, y los resultados de las dos pruebas suelen ser muy similares. Deberías leer la sección sobre “Chi-cuadrado vs. G —test” cerca de la parte inferior de esta página, elige chi-cuadrado o G —test, luego quédate con esa elección por el resto de tu vida. Gran parte de la información y ejemplos de esta página son los mismos que en la página de prueba de chi-cuadrado, así que una vez que hayas decidido qué prueba es mejor para ti, solo necesitas leer una.

    Hipótesis nula

    La hipótesis estadística nula es que el número de observaciones en cada categoría es igual al predicho por una teoría biológica, y la hipótesis alternativa es que los números observados son diferentes de los esperados. La hipótesis nula suele ser una hipótesis extrínseca, donde se conocen las proporciones esperadas antes de hacer el experimento. Los ejemplos incluyen una proporción de\(1:1\) sexos o una\(1:2:1\) proporción en un cruce genético. Otro ejemplo sería mirar una zona de orilla que tenía\(59\%\) de la zona cubierta de arena,\(28\%\) barro y\(13\%\) rocas; si estuvieras investigando donde a las gaviotas les gusta pararse, tu nula hipótesis sería la\(59\%\) de las gaviotas que estaban paradas sobre arena,\(28\%\) sobre barro y \(13\%\)en las rocas.

    En algunas situaciones, se tiene una hipótesis intrínseca. Esta es una hipótesis nula donde se calculan las proporciones esperadas una vez realizado el experimento, utilizando parte de la información de los datos. El ejemplo más conocido de una hipótesis intrínseca son las proporciones Hardy-Weinberg de genética poblacional: si la frecuencia de un alelo en una población es\(p\) y el otro alelo es\(q\), la hipótesis nula es que las frecuencias esperadas de los tres genotipos son\(p^2\),\(2pq\), y \(q^2\). Esta es una hipótesis intrínseca, porque estimas\(p\) y\(q\) a partir de los datos después de recopilar los datos, no puedes predecir\(p\) y\(q\) antes del experimento.

    Cómo funciona la prueba

    A diferencia de la prueba exacta de bondad de ajuste, la prueba G no calcula directamente la probabilidad de obtener los resultados observados o algo más extremo. En cambio, como casi todas las pruebas estadísticas, la prueba G tiene un paso intermedio; usa los datos para calcular un estadístico de prueba que mide qué tan lejos están los datos observados de la expectativa nula. Luego se utiliza una relación matemática, en este caso la distribución chi-cuadrada, para estimar la probabilidad de obtener ese valor del estadístico de prueba.

    La prueba G utiliza el log de la razón de dos probabilidades como estadística de prueba, razón por la cual también se llama prueba de razón de verosimilitud o prueba de razón logarítmica de verosimilitud. (Probabilidad es otra palabra para probabilidad.) Por poner un ejemplo, digamos que tu hipótesis nula es una\(3:1\) proporción de alas lisas a alas arrugadas en descendencia de un manojo de cruces de Drosophila. Se observan\(770\) moscas con alas lisas y\(230\) moscas con alas arrugadas. Usando la ecuación binomial, se puede calcular la probabilidad de obtener exactamente\(770\) moscas de alas lisas, si la hipótesis nula es cierta que\(75\%\) de las moscas deben tener alas lisas (\(L_{null}\)); lo es\(0.01011\). También se puede calcular la probabilidad de obtener exactamente\(770\) moscas de alas lisas si la hipótesis alternativa la\(77\%\) de las moscas debe tener alas lisas (\(L_{alt}\)); lo es\(0.02997\). Esta hipótesis alternativa es que la verdadera proporción de moscas de alas lisas es exactamente igual a lo que observaste en el experimento, por lo que la probabilidad bajo la hipótesis alternativa será mayor que para la hipótesis nula. Para obtener el estadístico de prueba, empiezas con\(L_{null}/L_{alt}\); esta relación se hará más pequeña a medida que\(L_{null}\) se hace más pequeña, lo que sucederá a medida que los resultados observados se alejen de la expectativa nula. Tomando el logaritmo natural de esta razón de verosimilitud, y multiplicándolo por\(-2\), da la razón logarítmica de verosimilitud, o\(G\) -estadística. Se hace más grande a medida que los datos observados se alejan de la expectativa nula. Para el ejemplo de mosca, el estadístico de prueba es\(G=2.17\). Si hubieras observado\(760\) moscas de alas\(240\) lisas y moscas de alas arrugadas, lo que está más cerca de la hipótesis nula, tu\(G\) valor habría sido menor, at\(0.54\); si hubieras observado\(800\) moscas de alas\(200\) lisas y arrugadas, que está más lejos de la nula hipótesis, tu\(G\) -valor habría sido\(14.00\).

    Multiplica la relación logarítmica por\(-2\) porque eso hace que se ajuste aproximadamente a la distribución de chi-cuadrado. Esto significa que una vez que conoces la estadística G y el número de grados de libertad, puedes calcular la probabilidad de obtener ese valor de\(G\) usar la distribución chi-cuadrada. El número de grados de libertad es el número de categorías menos uno, así que para nuestro ejemplo (con dos categorías, lisas y arrugadas) hay un grado de libertad. Usando la función CHIDIST en una hoja de cálculo, ingresa =CHIDIST (2.17, 1) y calcula que la probabilidad de obtener un\(G\) -valor de\(2.17\) con un grado de libertad es\(P=0.140\).

    Calcular directamente cada verosimilitud puede ser computacionalmente difícil si el tamaño de la muestra es muy grande. Afortunadamente, cuando tomas la proporción de dos probabilidades, un montón de cosas se divide y la función se vuelve mucho más simple: calculas el\(G\) -estadístico tomando un número observado (\(O\)), dividiéndolo por el número esperado (\(E\)), luego tomando el log natural de esta relación. Esto se hace por el número observado en cada categoría. Multiplicar cada logaritmo por el número observado, sumar estos productos y multiplicar por\(2\). La ecuación es:

    \[G=2\sum \left [ O\times \ln \left ( \frac{O}{E}\right ) \right ]\]

    La forma de la distribución chi-cuadrada depende del número de grados de libertad. Para una hipótesis nula extrínseca (la situación mucho más común, donde se conocen las proporciones predichas por la hipótesis nula antes de recoger los datos), el número de grados de libertad es simplemente el número de valores de la variable, menos uno. Por lo tanto, si estás probando una hipótesis nula de una proporción de\(1:1\) sexos, hay dos valores posibles (masculino y femenino), y por lo tanto un grado de libertad. Esto se debe a que una vez que se sabe cuántos del total son hembras (un número que es “libre” para variar de 0 al tamaño de la muestra), se determina el número de machos. Si hay tres valores de la variable (como rojo, rosa y blanco), hay dos grados de libertad, y así sucesivamente.

    Una hipótesis nula intrínseca es aquella en la que estimas uno o más parámetros a partir de los datos para obtener los números para tu hipótesis nula. Como se describió anteriormente, un ejemplo son las proporciones de Hardy-Weinberg. Para una hipótesis nula intrínseca, el número de grados de libertad se calcula tomando el número de valores de la variable, restando\(1\) para cada parámetro estimado de los datos, luego restando\(1\) más. Así, para proporciones de Hardy-Weinberg con dos alelos y tres genotipos, hay tres valores de la variable (los tres genotipos); restas uno para el parámetro estimado de los datos (la frecuencia alélica,\(p\)); y luego restas uno más, produciendo un grado de libertad. Hay otros temas estadísticos involucrados en las pruebas que se ajustan a las expectativas de Hardy-Weinberg, así que si necesitas hacer esto, ver Engels (2009) y las referencias más antiguas que cita.


    This page titled 2.4: G—Prueba de bondad de ajuste is shared under a not declared license and was authored, remixed, and/or curated by John H. McDonald via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.