2.7: Prueba Exacta de Fisher
- Page ID
- 149191
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Objetivos de aprendizaje
- Aprende a usar la prueba exacta de independencia de Fisher cuando tienes dos variables nominales y quieres ver si las proporciones de una variable son diferentes dependiendo del valor de la otra variable. Utilízala cuando el tamaño de la muestra sea pequeño.
Cuándo usarlo
Utilice la prueba exacta de Fisher cuando tenga dos variables nominales. Se quiere saber si las proporciones para una variable son diferentes entre los valores de la otra variable. Por ejemplo, van Nood et al. (2013) estudiaron pacientes con infecciones por Clostridium difficile, las cuales causan diarrea persistente. Una variable nominal fue el tratamiento: a algunos pacientes se les administró el antibiótico vancomicina y a algunos pacientes se les administró un trasplante fecal. La otra variable nominal fue desenlace: cada paciente estaba curado o no curado. El porcentaje de personas que recibieron un trasplante fecal y se curaron (\(13\)fuera de\(16\), o\(81\%\)) es mayor que el porcentaje de personas que recibieron vancomicina y se curaron (\(4\)fuera de\(13\), o\(31\%\)), lo que parece prometedor, pero los tamaños de muestra parecen algo pequeños . La prueba exacta de Fisher te dirá si esta diferencia entre\(81\) y\(31\%\) es estadísticamente significativa.
Un conjunto de datos como este a menudo se llama "\(R\times C\)tabla”, donde\(R\) está el número de filas y\(C\) es el número de columnas. Los datos de trasplante fecal-trasplante vs. vancomicina que estoy usando como ejemplo son una\(2\times 2\) tabla. van Nood et al. (2013) en realidad tuvieron un tercer tratamiento,\(13\) las personas que recibieron vancomicina más un lavado intestinal, haciendo que los datos totales fijen una\(2\times 3\) tabla (o una\(3\times 2\) tabla; no importa a qué variable se llame las filas y cuales las columnas). El uso más común de la prueba exacta de Fisher es para\(2\times 2\) tablas, así que eso es sobre todo lo que voy a describir aquí.
La prueba exacta de Fisher es más precisa que la prueba de chi-cuadrado o la prueba G de independencia cuando los números esperados son pequeños. Te recomiendo usar la prueba exacta de Fisher cuando el tamaño total de la muestra es menor que\(1000\), y usar la prueba de chi-cuadrado o G para tamaños de muestra más grandes. Consulte la página web sobre tamaños de muestra pequeños para una mayor discusión sobre lo que significa ser “pequeño”.
Hipótesis nula
La hipótesis nula es que las proporciones relativas de una variable son independientes de la segunda variable; en otras palabras, las proporciones en una variable son las mismas para diferentes valores de la segunda variable. En el ejemplo de C. difficile, la hipótesis nula es que la probabilidad de curarse es la misma ya sea que reciba un trasplante fecal o vancomicina.
Cómo funciona la prueba
A diferencia de la mayoría de las pruebas estadísticas, la prueba exacta de Fisher no utiliza una función matemática que estime la probabilidad de un valor de un estadístico de prueba; en cambio, se calcula la probabilidad de obtener los datos observados, y todos los conjuntos de datos con desviaciones más extremas, bajo la hipótesis nula de que las proporciones son lo mismo. Para el experimento de C. difficile, hay pacientes\(3\) enfermos y\(13\) curados con trasplante de heces, y pacientes\(9\) enfermos y\(4\) curados con vancomicina. Dado que hay pacientes\(16\) totales trasplantados fecales, pacientes\(13\) totales de vancomicina y pacientes\(12\) totales enfermos, puede usar la “distribución hipogeométrica” (por favor no me pida que la explique) para calcular la probabilidad de obtener estos números:
fecales | vancomicina | |
---|---|---|
enfermo | 3 | 9 |
curado | 13 | 4 |
\(P\)de estos números exactos:\(0.00772\)
A continuación se calcula la probabilidad de formas más extremas de distribuir a los\(12\) enfermos:
fecal | vancomicina | |
---|---|---|
enfermo | 2 | 10 |
curado | 14 | 3 |
\(P\)de estos números exactos:\(0.000661\)
fecal | vancomicina | |
---|---|---|
enfermo | 1 | 11 |
curado | 15 | 2 |
\(P\)de estos números exactos:\(0.0000240\)
fecal | vancomicina | |
---|---|---|
enfermo | 0 | 12 |
curado | 16 | 1 |
\(P\)de estos números exactos:\(0.000000251\)
Para calcular la probabilidad de\(3\),\(2\),\(1\), o personas\(0\) enfermas en el grupo de trasplante fecal, se suman las cuatro probabilidades juntas para obtener\(P=0.00840\). Este es el\(P\) valor de una cola, que casi nunca es lo que quieres. En nuestro experimento de ejemplo, usarías una prueba de una cola solo si decidieras, antes de hacer el experimento, que solo te interesaba un resultado que tuviera trasplantes fecales siendo mejores que la vancomicina, no si los trasplantes fecales eran peores; en otras palabras, decidiste con anticipación que tu hipótesis nula era que la proporción de personas enfermas trasplantadas fecales era la misma o mayor que la de las personas enfermas con vancomicina. Ruxton y Neuhauser (2010) encuestaron artículos en la revista Behavioral Ecology and Sociobiology y encontraron varios que reportaron los resultados de las pruebas exactas de Fisher de una cola, a pesar de que las dos colas habrían sido más apropiadas. Al parecer, algunos libros de texto y programas de estadísticas perpetúan la confusión sobre las pruebas de Fisher de una cola frente a las de dos colas. Casi siempre debes usar una prueba de dos colas, a menos que tengas una muy buena razón.
Para la prueba habitual de dos colas, también se calcula la probabilidad de obtener desviaciones tan extremas como las observadas, pero en sentido contrario. Esto plantea el tema de cómo medir la “extrema”. Existen varias técnicas diferentes, pero la más común es sumar las probabilidades de todas las combinaciones que tienen probabilidades menores que las de los datos observados. Martín Andrés y Herranz Tejedor (1995) hicieron algunas simulaciones por computadora que demuestran que esta es la mejor técnica, y es la técnica utilizada por SAS y la mayoría de las páginas web que he visto. Para nuestro ejemplo fecal, las desviaciones extremas en sentido contrario son las con\(P<0.00772\), que son las mesas con\(0\) o personas vancomicina\(1\) enfermas. Estas mesas tienen\(P=0.000035\) y\(P=0.00109\), respectivamente. Agregar estos al\(P\) valor de una cola (\(P=0.00840\)) le da el\(P\) valor de dos colas,\(P=0.00953\).
Pruebas post-hoc
Al analizar una tabla con más de dos filas o columnas, un resultado significativo te dirá que está pasando algo interesante, pero probablemente querrás probar los datos con más detalle. Por ejemplo, Fredericks (2012) quería saber si revisar frecuentemente las estaciones de monitoreo de termitas ahuyentaría a las termitas y dificultaría la detección de termitas. Revisó las estaciones (pequeños trozos de madera en tubos de plástico, colocados en el suelo cerca de colonias de termitas) ya sea todos los días, todas las semanas, todos los meses, o solo una vez al final del estudio de tres meses, y registró cuántas tenían daños por termitas al final del estudio:
Daño por termitas | Sin termitas | Porcentaje de daño por termitas | |
---|---|---|---|
Diario | 1 | 24 | 4% |
Semanal | 5 | 20 | 20% |
Mensual | 14 | 11 | 56% |
Trimestral | 11 | 14 | 44% |
El\(P\) valor general para esto es\(P=0.00012\), por lo que es altamente significativo; la frecuencia de perturbación está afectando la presencia de termitas. Eso es bueno saberlo, pero probablemente querrás hacer preguntas adicionales, como si la diferencia entre diario y semanal era significativa, o la diferencia entre semanal y mensual. Podrías hacer una prueba exacta de\(2\times 2\) Fisher para cada una de estas comparaciones por pares, pero hay pares\(6\) posibles, por lo que debes corregir las múltiples comparaciones. Una forma de hacerlo es con una modificación de la técnica de pares corregida por Bonferroni-sugerida por MacDonald y Gardner (2000), sustituyendo la prueba exacta de Fisher por la prueba de chi-cuadrado que utilizaron. Haces una prueba exacta de Fisher en cada una de las\(6\) posibles comparaciones por pares (diaria vs. semanal, diaria vs. mensual, etc.), luego aplicas la corrección de Bonferroni para múltiples pruebas. Con las comparaciones\(6\) por pares, el\(P\) valor debe ser menor que\(0.05/6\), o\(0.008\), ser significativo en el\(P<0.05\) nivel. Dos comparaciones (diaria vs. mensual y diaria vs. trimestral) son, por lo tanto, significativas
Valor P | |
---|---|
Diario vs. semanal | 0.189 |
Diario vs. mensual | 0.00010 |
Diario vs. trimestral | 0.0019 |
Semanal vs. mensual | 0.019 |
Semanal vs. trimestral | 0.128 |
Mensual vs. trimestral | 0.57 |
Podrías haber decidido, antes de hacer el experimento, que probar todos los pares posibles haría que fuera demasiado difícil encontrar una diferencia significativa, así que en su lugar solo probarías cada tratamiento vs. trimestralmente. Esto significaría que solo había pares\(3\) posibles, por lo que cada\(P\) valor por pares tendría que ser menor que\(0.05/3\), o\(0.017\), ser significativo. Eso te daría más poder, pero también significaría que no podrías cambiar de opinión después de ver los datos y decidir comparar diario vs mensual.
Supuestos
Independencia
La prueba exacta de Fisher, al igual que otras pruebas de independencia, asume que las observaciones individuales son independientes.
Totales fijos
A diferencia de otras pruebas de independencia, la prueba exacta de Fisher asume que los totales de fila y columna son fijos o “condicionados”. Un ejemplo sería poner cangrejos ermitaños\(12\) hembra y cangrejos ermitaños\(9\) machos en un acuario con conchas de caracol\(7\) rojas y conchas de caracol\(14\) azules, luego contando cuántos cangrejos de cada sexo eligieron cada color (ya sabes que cada cangrejo ermitaño escogerá un caparazón para vivir). El número total de cangrejos hembra se fija en\(12\), el número total de cangrejos machos se fija en\(9\), el número total de conchas rojas se fija en\(7\), y el número total de conchas azules se fija en\(14\). Ya sabes, antes de hacer el experimento, cuáles serán estos totales; lo único que no sabes es cuántas de cada combinación sexo-color hay.
Son muy pocos los experimentos biológicos donde se condicionan tanto los totales de fila como de columna. En el diseño mucho más común, uno o dos de los totales de fila o columna son libres de variar, o “incondicionados”. Por ejemplo, en nuestro experimento de C. difficile anterior, los números de personas a las que se les da cada tratamiento son fijos (a las que se\(16\) les\(13\) da un trasplante fecal, se le da vancomicina), pero el número total de personas que se curan podría haber sido cualquier cosa, desde\(0\) hasta\(29\). En el experimento de anguilas morenas a continuación, tanto el número total de cada especie de anguila, como el número total de anguilas en cada hábitat, están incondicionados.
Cuando uno o ambos totales de fila o columna están incondicionados, la prueba exacta de Fisher no es, estrictamente hablando, exacta. En cambio, es algo conservador, lo que significa que si la hipótesis nula es verdadera, obtendrá un\(P\) valor significativo (\(P<0.05\)) menor que\(5\%\) del tiempo. Esto lo hace un poco menos potente (más difícil detectar una diferencia real con respecto al nulo, cuando hay uno). Los estadísticos continúan discutiendo sobre alternativas a la prueba exacta de Fisher, pero las mejoras parecen bastante pequeñas para tamaños de muestra razonables, con el costo considerable de explicar a sus lectores por qué está usando una prueba estadística oscura en lugar de la conocida prueba exacta de Fisher. Creo que la mayoría de los biólogos, si te vieron obtener un resultado significativo usando la prueba de Barnard, o la prueba de Boschloo, o la prueba de Santner y Snell, o la prueba de Suissa y Shuster, o cualquiera de las muchas otras alternativas, rápidamente pasarían tus números a través de la prueba exacta de Fisher. Si tus datos no fueran significativos con Fisher's pero fueran significativos con tu elegante prueba alternativa, sospecharían que pescabas alrededor hasta que encontraras una prueba que te diera el resultado que querías, lo cual sería altamente malvado. A pesar de que es posible que realmente te hayas decidido por la oscura prueba antes de tiempo, no quieres que la gente cínica piense que eres malvada, así que quédate con la prueba exacta de Fisher.
Ejemplos
La artilla oriental trona cuando es perseguida por un depredador, posiblemente para advertir a otras ardillas. Burke da Silva et al. (2002) soltaron ardillas ya sea\(10\) o\(100\) a metros de su madriguera casera, luego las persiguieron (para simular la persecución de depredadores). De las\(24\) hembras de las ardillas liberadas\(10\; m\) de su madriguera,\(16\)\(8\) trinearon y no trinaron. Al liberarse a 100 m de su madriguera, sólo 3 ardillas hembra trinizaron, mientras que 18 no trinizaron. Las dos variables nominales son así la distancia de la madriguera casera (porque solo hay dos valores, la distancia es una variable nominal en este experimento) y trino vs no trino. Aplicando la prueba exacta de Fisher, la proporción de ardillas trilling es significativamente mayor (\(P=0.0007\)) cuando están más cerca de su madriguera.
McDonald y Kreitman (1991) secuenciaron el gen de la alcohol deshidrogenasa en varios individuos de tres especies de Drosophila. Los sitios variables se clasificaron como sinónimos (la variación de nucleótidos no cambia un aminoácido) o reemplazos de aminoácidos, y también se clasificaron como polimórficos (variando dentro de una especie) o diferencias fijas entre especies. Las dos variables nominales son, por tanto, el tipo de sustitución (sinónimo o reemplazo) y el tipo de variación (polimórfica o fija). En ausencia de selección natural, la relación de sitios sinónimos a sitios de reemplazo debe ser la misma para polimorfismos y diferencias fijas. Hubo polimorfismos\(43\) sinónimos, polimorfismos de\(2\) reemplazo, diferencias fijas\(17\) sinónimas y diferencias fijas de\(7\) reemplazo.
Sinónimo | Repuesto | |
---|---|---|
polimorfismos | 43 | 2 |
fijo | 17 | 7 |
El resultado es\(P=0.0067\), indicando que la hipótesis nula puede ser rechazada; existe una diferencia significativa en la relación sinónimos/reemplazo entre polimorfismos y diferencias fijas. (Tenga en cuenta que usamos una prueba G de independencia en el artículo original de McDonald y Kreitman [1991], lo cual es un poco vergonzoso en retrospectiva, ya que ahora les estoy diciendo que usen la prueba exacta de Fisher para tamaños de muestra tan pequeños; afortunadamente, el\(P\) valor que obtuvimos entonces,\(P=0.006\), es casi el igual que con la prueba de Fisher más apropiada.)
Descamps et al. (2009) etiquetaron 50 pingüinos rey (Aptenodytes patagonicus) en cada una de las tres áreas de anidación (inferior, media y superior) en la Isla Possession en el archipiélago de Crozet, luego contaron el número que aún estaban vivos un año después, con estos resultados:
Vivo | Muertos | |
---|---|---|
Área de anidamiento inferior | 43 | 7 |
Área de anidación media | 44 | 6 |
Zona superior de anidamiento | 49 | 1 |
Siete pingüinos habían muerto en la zona baja, seis habían muerto en la zona media y sólo uno había muerto en la zona alta. Descamps et al. analizaron los datos con una prueba G de independencia, produciendo una diferencia significativa (\(P=0.048\)) en la supervivencia entre las áreas; sin embargo, analizar los datos con la prueba exacta de Fisher arroja un resultado no significativo (\(P=0.090\)).
Young y Winn (2003) contaron avistamientos de la anguila morada manchada, la moringa Gymnothorax y la anguila morada morada, G. vicinus, en una\(250\; m\) zona\(150\; m\) por área de arrecife en Belice. Identificaron cada anguila que vieron, y clasificaron las localizaciones de los avistamientos en tres tipos: las que estaban en lechos de pasto, las de arena y escombros, y las que se encontraban a un metro del límite entre pasto y arena/escombros.
El número de avistamientos se muestra en la tabla, con porcentajes entre paréntesis:
G. moringa | G. vicinus | Porcentaje G. vicinus | |
---|---|---|---|
Hierba | 127 | 116 | 47.7% |
Arena | 99 | 67 | 40.4% |
Frontera | 264 | 161 | 37.9% |
Las variables nominales son las especies de anguila (G. moringa o G. vicinus) y el tipo de hábitat (pasto, arena o borde). La diferencia en el uso del hábitat entre las especies es significativa (\(P=0.044\)).
Custer y Galli (2002) volaron un avión ligero para seguir a grandes garzas azules (Ardea herodias) y garcetas grandes (Casmerodius albus) desde su sitio de descanso hasta su primer sitio de alimentación en el lago Peltier, Minnesota, y registraron el tipo de sustrato en el que aterrizó cada ave.
Garza | Garceta | |
---|---|---|
Vegetación | 15 | 8 |
Shoreline | 20 | 5 |
Agua | 14 | 7 |
Estructuras | 6 | 1 |
Los rendimientos exactos de la prueba de Fisher\(P=0.54\), por lo que no hay evidencia de que las dos especies de aves utilicen los sustratos en diferentes proporciones.
Graficando los resultados
Traza los resultados de la prueba exacta de Fisher de la misma manera que cualquier otra prueba de independencia.
Pruebas similares
Puede usar la prueba de independencia de chi-cuadrado o la prueba G de independencia en el mismo tipo de datos que la prueba exacta de Fisher. Cuando algunos de los valores esperados son pequeños, la prueba exacta de Fisher es más precisa que la prueba de independencia de chi-cuadrado o G. Si todos los valores esperados son muy grandes, la prueba exacta de Fisher se vuelve computacionalmente poco práctica; afortunadamente, la prueba de chi-cuadrado o G —dará entonces un resultado exacto. La regla general habitual es que la prueba exacta de Fisher solo es necesaria cuando uno o más valores esperados son menores que\(5\), pero esto es un remanente de los días en que hacer los cálculos para la prueba exacta de Fisher fue realmente difícil. Recomiendo usar la prueba exacta de Fisher para cualquier experimento con un tamaño de muestra total menor que\(1000\). Consulte la página web sobre tamaños de muestra pequeños para una mayor discusión sobre el límite entre “pequeño” y “grande”.
Debe usar la prueba de McNemar cuando las dos muestras no son independientes, sino que son dos conjuntos de pares de observaciones. A menudo, cada par de observaciones se realiza en un solo individuo, como individuos antes y después de un tratamiento o individuos diagnosticados mediante dos técnicas diferentes. Por ejemplo, Dias et al. (2014) encuestaron a\(62\) hombres que fueron circuncidados de adultos. Antes de la circuncisión,\(6\) de los\(62\) hombres tenían disfunción eréctil; después de la circuncisión,\(16\) los hombres tenían disfunción eréctil. Esto puede parecer datos adecuados para la prueba exacta de Fisher (dos variables nominales, erecta vs. flácida y antes vs. después de la circuncisión), y si se analiza de esa manera, el resultado sería\(P=0.033\). Sin embargo, sabemos más que cuántos hombres tenían disfunción eréctil, sabemos que\(10\) los hombres cambiaron de función normal a disfunción después de la circuncisión, y\(0\) los hombres cambiaron de disfunción a normal. La hipótesis estadística nula de la prueba de McNemar es que el número de switchers en una dirección es igual al número de switchers en la dirección opuesta. La prueba de McNemar compara los datos observados con la expectativa nula usando una prueba de bondad de ajuste. Los números son casi siempre lo suficientemente pequeños como para que puedas hacer esta comparación usando la prueba exacta de bondad de ajuste. Para los datos de ejemplo de\(10\) switchers en una dirección y\(0\) en la otra dirección, da la prueba de McNemar\(P=0.002\); este es un\(P\) valor mucho menor que el resultado de la prueba exacta de Fisher. La prueba de McNemar no siempre da un\(P\) valor menor que la de Fisher. Si todos los\(6\) hombres en el estudio Dias et al. (2014) con disfunción eréctil antes de la circuncisión hubieran cambiado a la función normal, y\(16\) los hombres hubieran cambiado de función normal antes de la circuncisión a disfunción eréctil, el\(P\) valor de la prueba de McNemar habría sido\(0.052\).
Cómo hacer la prueba
Hoja de Cálculo
He escrito una hoja de cálculo para realizar la prueba exacta de Fisher para\(2\times 2\) tablas fishers.xls. Maneja muestras con el total de la columna más pequeña menor que\(500\).
Páginas web
Varias personas han creado páginas web que realizan la prueba exacta de Fisher para\(2\times 2\) tablas. Me gusta la página web de Øyvind Langsrud para la prueba exacta de Fisher. Simplemente ingrese los números en las celdas de la página web, presione el botón Computar y obtenga su respuesta. Casi siempre debes usar el "\(2\)-tail\(P\) value” dado por la página web.
También hay una página web para la prueba exacta de Fisher para mesas de hasta 6×6. Solo tomará datos con menos de\(100\) observaciones en cada celda.
R
El \(R\)compañero de Salvatore Mangiafico tiene un programa de muestra R para la prueba exacta de Fisher y otro para la prueba de McNemar.
SAS
Aquí hay un programa SAS que usa PROC FREQ para una prueba exacta de Fisher. Utiliza los datos de la ardilla de arriba.
DATA chipmunk;
ENTRADA distancia $ sonido $ conteo;
DATALINES;
10m trino 16
10m notrill 8
100m trino 3
100m notrill 18
;
PROC FREQ data=Ardilla; conteo de
PESO/CEROS;
TABLAS distancia*sonido/FISHER;
RUN;
La salida incluye lo siguiente:
Prueba Exacta de Fisher
—
Celda (1,1) Frecuencia (F) 18
Izquierda Pr <= F 1.0000 Pr del
lado derecho >= F 4.321E-04 Probabilidad de
Tabla (P) 4.012E-04
Dos- lados Pr <= P 6.862E-04
El "Pr bilateral <= P" es el\(P\) valor de dos colas que desea.
La salida se ve un poco diferente cuando tienes más de dos filas o columnas. Aquí hay un ejemplo usando los datos sobre el uso del sustrato de garza y garceta desde arriba:
DATA aves;
INPUT ave $ sustrato $ conteo;
DATALINES; vegetación
garza 15 garza costa 20
garza agua 14
garza estructuras 6 vegetación
garceta 8
garceta costa 5
agua de garceta 7 estructuras
de garceta 1
;
PROC FREQ data=Aves; Recuento
PESO/CEROS;
MESAS ave*sustrato/FISHER;
RUN;
Los resultados de la prueba exacta están etiquetados como "Pr <= P “; en este caso,\(P=0.5491\).
Prueba Exacta de Fisher
— Probabilidad de
Tabla (P) 0.0073
Pr <= P 0.5491
Análisis de potencia
El programa G*Power calculará el tamaño de muestra necesario para una\(2\times 2\) prueba de independencia, ya sea que el tamaño de la muestra termine siendo lo suficientemente pequeño para una prueba exacta de Fisher o tan grande que debe usar una prueba de chi-cuadrado o G —test. Elija “Exacto” en el menú “Familia de pruebas” y “Proporciones: Desigualdad, dos grupos independientes (prueba exacta de Fisher)” en el menú “Prueba estadística”. Ingresa las proporciones que esperas ver, tu alfa (usualmente\(0.05\)) y tu poder (usualmente\(0.80\) o\(0.90\)). Si planeas tener más observaciones en un grupo que en el otro, puedes hacer que la “Relación de asignación” sea diferente de 1.
Como ejemplo, digamos que estás buscando una relación entre el cáncer de vejiga y los genotipos en un polimorfismo en el gen de la catecol-O-metiltransferasa en humanos. Con base en investigaciones previas, vas a juntar los\(GG\)\(GA\) genotipos y y comparar estos\( GG+GA\) y\(AA\) genotipos. En la población que estás estudiando, sabes que las frecuencias de genotipos en personas sin cáncer de vejiga son\(0.84 GG+GA\) y\(0.16AA\); quieres saber a cuántas personas con cáncer de vejiga tendrás que genotipar para obtener un resultado significativo si tienen\(6\%\) más\(AA\) genotipos. Es más fácil encontrar controles que las personas con cáncer de vejiga, por lo que planeas tener el doble de personas sin cáncer de vejiga. En la página G*Power, ingrese\(0.16\) para proporción\(p1\),\(0.22\) para proporción\(p2\),\(0.05\) para alfa,\(0.80\) para potencia y\(0.5\) para relación de asignación. El resultado es un tamaño total de muestra de\(1523\), por lo que necesitarás\(508\) personas con cáncer de vejiga y\(1016\) personas sin cáncer de vejiga.
Tenga en cuenta que el tamaño de la muestra será diferente si el tamaño de su efecto es una frecuencia\(6\%\) menor que\(AA\) en pacientes con cáncer de vejiga, en lugar de\(6\%\) mayor. Si no tiene una idea sólida sobre qué dirección de diferencia va a ver, debe hacer el análisis de potencia en ambos sentidos y usar la estimación de tamaño de muestra más grande.
Si tiene más de dos filas o columnas, utilice el análisis de potencia para las pruebas de independencia de chi-cuadrado. Los resultados deben ser lo suficientemente cercanos como para corregirlos, incluso si el tamaño de la muestra termina siendo lo suficientemente pequeño para la prueba exacta de Fisher.
Referencias
- Burke da Silva, K., C. Mahan, y J. da Silva. 2002. El trino de la persecución: las ardillas orientales llaman a advertir a los parentesco. Diario de Mammalogía 83:546-552.
- Custer, C.M., y J. Galli. 2002. Selección de hábitat de alimentación por grandes garzas azules y garcetas grandes que anidan en el centro este de Minnesota. Aves acuáticas 25:115-124.
- Descamps, S., C. le Bohec, Y. le Maho, J.-P. Gendner, y M. Gauthier-Clerc. 2009. Relacionar el desempeño demográfico con la ubicación del lugar de cría en el pingüino rey. Cóndor 111:81-87.
- Dias, J., R. Freitas, R. Amorim, P. Espiridião, L. Xambre y L. Ferraz. 2014. Circuncisión adulta y salud sexual masculina: un análisis retrospectivo. Andrología 46:459-464.
- Fredericks, J.G. 2012. Factores que influyen en el comportamiento de forrajeo y descubrimiento de estaciones de cebo por termitas subterráneas (Reticulitermes spp.) (Blattodea: Rhinotermitidae) en Lewes, Delaware. Tesis doctoral, Universidad de Delaware.
- MacDonald, P.L., y Gardner, R.C. 2000. Comparaciones de tasa de error tipo I de procedimientos post hoc para tablas de chi-cuadrado I×J. Mediciones Educativas y Psicológicas 60:735-754.
- Martín Andrés, A, e I. Herranz Tejedor. 1995. ¿La prueba exacta de Fisher es muy conservadora? Estadística Computacional y Análisis de Datos 19:579—591.
- McDonald, J.H. y M. Kreitman. 1991. Evolución adaptativa de proteínas en el locus Adh en Drosophila. Naturaleza 351:652-654.
- Ruxton, G.D., y M. Neuhäuser. 2010. Buena práctica en pruebas para una asociación en tablas de contingencia. Ecología Conductual y Sociobiología 64:1501-1513.
- van Nood, E., Vrieze, A., Nieuwdorp, M., et al. (13 coautores). 2013. Infusión duodenal de heces de donantes para Clostridium difficile recurrente. Nueva Inglaterra Revista de Medicina 368:407-415.
- Young, R.F., y H.E. Winn. 2003. Patrones de actividad, dieta y uso del sitio de refugio para dos especies de morenas, Gymnothorax moringa y Gymnothorax vicinus, en Belice. Copeia 2003:44-55.