Saltar al contenido principal
LibreTexts Español

2.8: Números pequeños en pruebas de Chi-cuadrado y G

  • Page ID
    149190
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje
    • Las pruebas de Chi-cuadrado y G —son algo inexactas cuando los números esperados son pequeños, y deberías usar pruebas exactas en su lugar. Una sugerencia es usar una definición mucho más alta de “pequeño” que otras personas.

    El problema con los números pequeños

    Las pruebas de chi-cuadrado y G —de bondad de ajuste o independencia dan resultados inexactos cuando los números esperados son pequeños. Por ejemplo, digamos que quieres saber si las personas diestras desgarran el ligamento cruzado anterior (LCA) en la rodilla derecha con más o menos frecuencia que el LCA izquierdo. Encuentras\(11\) a personas con lágrimas de LCA, por lo que tus números esperados (si tu hipótesis nula es cierta) son lágrimas de LCA\(5.5\) correctas y lágrimas de LCA\(5.5\) izquierdas. Digamos que en realidad se observan las lágrimas del LCA\(9\) derecha y las lágrimas del LCA a la\(2\) izquierda. Si compara los números observados con los esperados usando la prueba exacta de bondad de ajuste, obtiene un\(P\) valor de\(0.065\); la prueba de chi-cuadrado de bondad de ajuste da un\(P\) valor de\(0.035\), y la prueba G de bondad de ajuste da un\(P\) valor de\(0.028\). Si analizaste los datos usando la prueba de chi-cuadrado o G —, concluirías que las personas desgarran su LCA derecha significativamente más que su LCA izquierda; si usaras la prueba binomial exacta, que es más precisa, la evidencia no sería lo suficientemente fuerte como para rechazar la hipótesis nula.

    Cuando los tamaños de muestra son demasiado pequeños, debe usar pruebas exactas en lugar de la prueba de chi-cuadrado o prueba G —test. Sin embargo, ¿qué tan pequeño es “demasiado pequeño”? La regla general convencional es que si todos los números esperados son mayores que\(5\), es aceptable usar la prueba de chi-cuadrado o G; si un número esperado es menor que\(5\), debe usar una alternativa, como una prueba exacta de bondad de ajuste o una prueba exacta de Fisher de independencia.

    Esta regla general es sobrante de los viejos tiempos, cuando los cálculos necesarios para una prueba exacta eran sumamente tediosos y propensos a errores. Ahora que tenemos estos gadgets nuevos llamados computadoras, es el momento de retirar la regla de “no valores esperados menores que\(5\)"”. Pero, ¿qué nueva regla debes usar?

    Aquí hay una gráfica de\(P\) valores relativos versus tamaño de muestra. Para cada tamaño de muestra, encontré un par de números que darían un\(P\) valor para la prueba exacta de bondad de ajuste (hipótesis nula,\(1:1\) relación) que estaba lo más cerca posible\(P=0.05\) sin pasar por debajo de él. Por ejemplo, con un tamaño de muestra de\(11\), los números\(9\) y\(2\) dar un\(P\) valor de\(0.065\). Yo hice la prueba de chi-cuadrado en estos números, y dividí el\(P\) valor de chi-cuadrado por el\(P\) valor binomial exacto. Para\(9\) y\(2\), el\(P\) valor de chi-cuadrado es\(0.035\), por lo que la relación es\(0.035/0.065 = 0.54\). En otras palabras, la prueba de chi-cuadrado da un\(P\) valor que solo es\(54\%\) tan grande como la prueba exacta más precisa. La prueba G da casi los mismos resultados que la prueba de chi-cuadrado.

    Fig. 2.8.1 Valores de P de las pruebas de chi-cuadrado y G, como proporción del valor de P de la prueba binomial exacta.

    Al trazar estos\(P\) valores relativos frente al tamaño de la muestra (chi-cuadrado en negro, G —test en verde), es claro que las pruebas de chi-cuadrado y G —dan\(P\) valores que son demasiado bajos, incluso para tamaños de muestra en los cientos. Esto significa que si usas un chi-cuadrado o G —test de bondad de ajuste y el\(P\) valor es apenas significativo, rechazarás la hipótesis nula, aunque el\(P\) valor más preciso de la prueba binomial exacta estaría por encima\(0.05\). Los resultados son similares para\(2\times 2\) las pruebas de independencia; las pruebas de chi-cuadrado y G dan\(P\) valores considerablemente menores que los de la prueba exacta de Fisher más precisa.

    Correcciones de Yates y William

    Una solución a este problema es usar la corrección de Yates para la continuidad, a veces conocida como la corrección de continuidad. Para ello, restas\(0.5\) de cada valor observado que sea mayor al esperado, sumas\(0.5\) a cada valor observado que sea menor que el esperado, luego haces el chi-cuadrado o G —test. Esto sólo se aplica a las pruebas con un grado de libertad: las pruebas de bondad de ajuste con sólo dos categorías, y\(2\times 2\) las pruebas de independencia. Funciona bastante bien para la bondad de ajuste, dando\(P\) valores bastante cercanos a los del binomio exacto. Para las pruebas de independencia, la corrección de Yates arroja\(P\) valores demasiado altos.

    Otra corrección que a veces se utiliza es la corrección de Williams. Para una prueba de bondad de ajuste, la corrección de Williams se encuentra dividiendo los valores de chi-cuadrado o G entre los siguientes:

    \[q=\frac{1+(a^2-1)}{6nv}\]

    donde\(a\) es el número de categorías,\(n\) es el tamaño total de la muestra, y\(v\) es el número de grados de libertad. Para una prueba de independencia con\(R\) filas y\(C\) columnas, la corrección de Williams se encuentra dividiendo el chi-cuadrado o\(G\) valor por lo siguiente:

    \[q=\frac{1+(n\left \{ \left [ 1/\text(row\; 1\; total) \right ]+...+\left [ 1/\text(row\; R\; total) \right ]\right \}-1)(n\left \{ \left [ 1/\text(column\; 1\; total) \right ]+...+\left [ 1/\text(column\; C\; total) \right ]\right \}-1)}{6n(R-1)(C-1)}\]

    A diferencia de la corrección de Yates, se puede aplicar a pruebas con más de un grado de libertad. Para los números que he probado, aumenta un poco el\(P\) valor, pero no lo suficiente como para acercarlo mucho más al\(P\) valor más preciso que proporciona la prueba exacta de bondad de ajuste o la prueba exacta de Fisher.

    Algunos programas pueden aplicar la corrección de Yates o Williams automáticamente. Al informar sus resultados, asegúrese de decir si utilizó o no una de estas correcciones.

    Agrupación

    Cuando una variable tiene más de dos categorías, y algunas de ellas tienen números pequeños, a menudo tiene sentido agrupar algunas de las categorías juntas. Por ejemplo, digamos que quieres comparar las proporciones de diferentes tipos de lesiones de tobillo en jugadores de basquetbol vs jugadores de voleibol, y tus números se ven así:

    basquetbol voleibol
    esguinces 18 16
    descansos 13 5
    ligamentos desgarrados 9 7
    cortes 3 5
    heridas punzantes 1 3
    infecciones 2 0

    Los números de cortes, heridas punzantes e infecciones son bastante pequeños, y esto hará que el\(P\) valor de su prueba de independencia sea inexacto. Tener un gran número de categorías con números pequeños también disminuirá la potencia de tu prueba para detectar una diferencia significativa; sumar categorías con números pequeños no puede aumentar mucho el valor de\(G\) chi-cuadrado o -valor, pero sí aumenta los grados de libertad. Por lo tanto, tendría sentido mancomunar algunas categorías:

    basquetbol voleibol
    esguinces 18 16
    descansos 13 5
    ligamentos desgarrados 9 7
    otras lesiones 6 8

    Dependiendo de la pregunta biológica que te interese, podría tener sentido agrupar más los datos:

    basquetbol voleibol
    lesiones ortopédicas 40 28
    lesiones no ortopédicas 6 8

    Es importante tomar decisiones sobre el pooling antes de analizar los datos. En este caso, es posible que hayas sabido, con base en estudios previos, que los cortes, las heridas punzantes y las infecciones serían relativamente raros y deberían agruparse. Podrías haber decidido antes del estudio agrupar todas las lesiones para las que el total era\(10\) o menos, o podrías haber decidido agrupar todas las lesiones no ortopédicas porque simplemente no son biomecánicamente interesantes.

    Recomendación

    Te recomiendo que siempre uses una prueba exacta (prueba exacta de bondad de ajuste, prueba exacta de Fisher) si el tamaño total de la muestra es menor que\(1000\). No hay nada mágico en un tamaño de muestra de\(1000\), es solo un buen número redondo que está bien dentro del rango donde una prueba exacta, una prueba de chi-cuadrado y una prueba G —darán\(P\) valores casi idénticos. Las hojas de cálculo, las calculadoras de páginas web y SAS no deberían tener ningún problema para hacer una prueba exacta en un tamaño de muestra de\(1000\).

    Cuando el tamaño de la muestra es mucho mayor que\(1000\), incluso un programa potente como SAS en una computadora central puede tener problemas para hacer los cálculos necesarios para una prueba exacta, por lo que debe usar un chi-cuadrado o G —test para tamaños de muestra mayores que este. Puedes usar la corrección de Yates si solo hay un grado de libertad, pero con un tamaño de muestra tan grande, la mejora en la precisión será trivial.

    Por simplicidad, baso mi regla general en el tamaño total de la muestra, no en el valor esperado más pequeño; si uno o más de sus valores esperados son bastante pequeños, aún debe probar una prueba exacta incluso si el tamaño total de la muestra está por encima\(1000\), y esperar que su computadora pueda manejar los cálculos.

    Si ve a alguien más siguiendo las reglas tradicionales y usando pruebas de chi-cuadrado o G —para tamaños totales de muestra que son más pequeños que\(1000\), no se preocupe demasiado por ello. Los viejos hábitos mueren duro, y a menos que sus valores esperados sean realmente pequeños (en un solo dígito), probablemente no hará ninguna diferencia en las conclusiones. Si su chi-cuadrado o G —test da un\(P\) valor que está un poco por debajo\(0.05\), es posible que desee analizar sus datos usted mismo, y si una prueba exacta trae el\(P\) valor anterior\(0.05\), probablemente debería señalarlo.

    Si tienes un gran número de categorías, algunas con números esperados muy pequeños, deberías considerar agrupar las categorías más raras, incluso si el tamaño total de la muestra es lo suficientemente pequeño como para hacer una prueba exacta; cuantos menos números de grados de libertad aumenten la potencia de tu prueba.


    This page titled 2.8: Números pequeños en pruebas de Chi-cuadrado y G is shared under a not declared license and was authored, remixed, and/or curated by John H. McDonald via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.