6.1: Comparaciones múltiples
- Page ID
- 149240
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Objetivos de aprendizaje
- Cuando realizas un gran número de pruebas estadísticas, algunas tendrán\(P\) valores menores que\(0.05\) puramente por casualidad, aunque todas tus hipótesis nulas sean realmente ciertas. La corrección de Bonferroni es una forma sencilla de tomar esto en cuenta; ajustar la tasa de falsos descubrimientos mediante el procedimiento Benjamini-Hochberg es un método más poderoso.
El problema con las comparaciones múltiples
Cada vez que rechazas una hipótesis nula porque un\(P\) valor es menor que tu valor crítico, es posible que te equivoques; la hipótesis nula podría ser realmente cierta, y tu resultado significativo podría deberse al azar. Un\(P\) valor de\(0.05\) significa que existe la\(5\%\) posibilidad de obtener el resultado observado, si la hipótesis nula fuera cierta. No quiere decir que exista la\(5\%\) posibilidad de que la hipótesis nula sea cierta.
Por ejemplo, si haces pruebas\(100\) estadísticas, y para todas ellas la hipótesis nula es realmente cierta, esperarías que\(5\) de las pruebas sean significativas a\(P<0.05\) nivel, solo por casualidad. En ese caso, tendrías resultados\(5\) estadísticamente significativos, todos los cuales eran falsos positivos. El costo, en tiempo, esfuerzo y tal vez dinero, podría ser bastante alto si basaras conclusiones importantes en estos falsos positivos, y al menos sería vergonzoso para ti una vez que otras personas investigaran más y descubrieran que te habías equivocado.
Este problema, que cuando haces múltiples pruebas estadísticas, alguna fracción será falsos positivos, ha recibido cada vez más atención en los últimos años. Esto es importante para técnicas como el uso de microarrays, que permiten medir cantidades de ARN para decenas de miles de genes a la vez; escaneo cerebral, en el que el flujo sanguíneo puede estimarse en\(100,000\) o más bits tridimensionales del cerebro; y genómica evolutiva, donde las secuencias de cada gen en el genoma de dos o más especies puede ser comparado. No existe un enfoque universalmente aceptado para abordar el problema de las comparaciones múltiples; se trata de un área de investigación activa, tanto en los detalles matemáticos como en cuestiones epistomológicas más amplias.
Controlar la tasa de error familiar - Corrección Bonferroni
El enfoque clásico del problema de comparación múltiple es controlar la tasa de error familiar. En lugar de establecer el\(P\) nivel crítico de significancia, o alfa, a\(0.05\), se utiliza un valor crítico más bajo. Si la hipótesis nula es cierta para todas las pruebas, la probabilidad de obtener un resultado que sea significativo en este nuevo valor crítico menor es\(0.05\). Es decir, si todas las hipótesis nulas son verdaderas, la probabilidad de que la familia de pruebas incluya uno o más falsos positivos por casualidad es\(0.05\).
La forma más común de controlar la tasa de error familiar es con la corrección de Bonferroni. Se encuentra el valor crítico (alfa) para una prueba individual dividiendo la tasa de error familiar (generalmente\(0.05\)) por el número de pruebas. Por lo tanto, si estás haciendo pruebas\(100\) estadísticas, el valor crítico para una prueba individual sería\(0.05/100=0.0005\), y solo considerarías que las pruebas individuales con\(P<0.0005\) son significativas. Como ejemplo, García-Arenzana et al. (2014) probaron asociaciones de variables\(25\) dietéticas con densidad mamográfica, un importante factor de riesgo de cáncer de mama, en mujeres españolas. Encontraron los siguientes resultados:
Variable dietética | Valor P |
---|---|
Calorías totales | <0.001 |
Aceite de oliva | 0.008 |
Leche Entera | 0.039 |
Carnes Blancas | 0.041 |
Proteínas | 0.042 |
Nueces | 0.06 |
Cereales y pastas | 0.074 |
Pescado blanco | 0.205 |
Mantequilla | 0.212 |
Verduras | 0.216 |
Leche desnatada | 0.222 |
Carnes rojas | 0.251 |
Fruto | 0.269 |
Huevos | 0.275 |
Pez azul | 0.34 |
Legumbres | 0.341 |
Carbohidratos | 0.384 |
Papas | 0.569 |
Pan | 0.594 |
Grasas | 0.696 |
Dulces | 0.762 |
Productos Lácteos | 0.94 |
Leche semidesnatada | 0.942 |
Carne total | 0.975 |
Carne procesada | 0.986 |
Como puede ver, cinco de las variables muestran un\(P\) valor significativo (\(P<0.05\)). Sin embargo, debido a que García-Arenzana et al. (2014) probaron variables\(25\) dietéticas, se esperaría que una o dos variables mostraran un resultado significativo puramente por casualidad, aunque la dieta no tuviera un efecto real sobre la densidad mamográfica. Aplicando la corrección de Bonferroni, dividirías\(P=0.05\) por el número de pruebas (\(25\)) para obtener el valor crítico de Bonferroni, por lo que una prueba tendría\(P<0.002\) que ser significativa. Bajo ese criterio, sólo la prueba de calorías totales es significativa.
La corrección de Bonferroni es apropiada cuando un solo falso positivo en un conjunto de pruebas sería un problema. Es principalmente útil cuando hay un número bastante pequeño de comparaciones múltiples y estás buscando una o dos que puedan ser significativas. Sin embargo, si tienes un gran número de comparaciones múltiples y estás buscando muchas que puedan ser significativas, la corrección de Bonferroni puede llevar a una tasa muy alta de falsos negativos. Por ejemplo, digamos que estás comparando el nivel de expresión de\(20,000\) genes entre tejido de cáncer de hígado y tejido hepático normal. Con base en estudios previos, se espera encontrar docenas o cientos de genes con diferentes niveles de expresión. Si usas la corrección Bonferroni, un\(P\) valor tendría que ser menor que\(0.05/20000=0.0000025\) para ser significativo. Solo los genes con enormes diferencias en la expresión tendrán un\(P\) valor tan bajo, y podrían perderse muchas diferencias importantes solo porque querías estar seguro de que tus resultados no incluían ni un solo falso negativo.
Un tema importante con la corrección de Bonferroni es decidir qué es una “familia” de pruebas estadísticas. García-Arenzana et al. (2014) probaron variables\(25\) dietéticas, entonces, ¿son estas pruebas una “familia”, haciendo el\(P\) valor crítico\(0.05/25\)? Pero también midieron variables\(13\) no dietéticas como la edad, la educación y el nivel socioeconómico; ¿deberían incluirse en la familia de pruebas, haciendo el\(P\) valor crítico\(0.05/38\)? Y qué pasaría si en 2015, García-Arenzana et al. escriben otro artículo en el que comparan variables\(30\) dietéticas entre pacientes con cáncer de mama y no cáncer de mama; deberían incluir a los de su familia de pruebas, y volver a analizar los datos en su artículo de 2014 utilizando un\(P\) valor crítico de \(0.05/55\)? No hay una regla firme sobre esto; tendrás que usar tu juicio, basado en lo malo que sería un falso positivo. Obviamente, debes tomar esta decisión antes de mirar los resultados, de lo contrario sería demasiado fácil racionalizar inconscientemente un tamaño de familia que te dé los resultados que deseas.
Controlar la tasa de falsos descubrimientos: procedimiento Benjamini—Hochberg
Un enfoque alternativo es controlar la tasa de falsos descubrimientos. Esta es la proporción de “descubrimientos” (resultados significativos) que en realidad son falsos positivos. Por ejemplo, digamos que estás usando microarrays para comparar los niveles de expresión de\(20,000\) genes entre tumores hepáticos y células hepáticas normales. Vas a hacer experimentos adicionales en cualquier gen que muestre una diferencia significativa entre las células normales y tumorales, y estás dispuesto a aceptar hasta\(10\%\) de los genes con resultados significativos siendo falsos positivos; descubrirás que son falsos positivos cuando hagas los experimentos de seguimiento. En este caso, establecería su tasa de falsos descubrimientos en\(10\%\).
Una buena técnica para controlar la tasa de falsos descubrimientos fue brevemente mencionada por Simes (1986) y desarrollada en detalle por Benjamini y Hochberg (1995). Poner en orden\(P\) los valores individuales, desde los más pequeños hasta los más grandes. El\(P\) valor más pequeño tiene un rango de\(i=1\), luego siguiente el más pequeño tiene\(i=2\), etc. Compare cada\(P\) valor individual con su valor crítico Benjamini-Hochberg,\((i/m)Q\), donde i es el rango,\(m\) es el número total de pruebas, y\(Q\) es la tasa de falsos descubrimientos que elija. El mayor\(P\) valor que tiene\(P<(i/m)Q\) es significativo, y todos los\(P\) valores menores que también son significativos, incluso los que no son menores que su valor crítico Benjamini-Hochberg.
Para ilustrar esto, aquí están los datos de García-Arenzana et al. (2014) nuevamente, con el valor crítico Benjamini-Hochberg para una tasa de falsos descubrimientos de\(0.25\).
Variable dietética | Valor P | Rango | (i/m) Q |
---|---|---|---|
Calorías totales | <0.001 | 1 | 0.010 |
Aceite de oliva | 0.008 | 2 | 0.020 |
Leche Entera | 0.039 | 3 | 0.030 |
Carnes Blancas | 0.041 | 4 | 0.040 |
Proteínas | 0.042 | 5 | 0.050 |
Nueces | 0.060 | 6 | 0.060 |
Cereales y pastas | 0.074 | 7 | 0.070 |
Pescado blanco | 0.205 | 8 | 0.080 |
Mantequilla | 0.212 | 9 | 0.090 |
Verduras | 0.216 | 10 | 0.100 |
Leche desnatada | 0.222 | 11 | 0.110 |
Carnes rojas | 0.251 | 12 | 0.120 |
Fruta | 0.269 | 13 | 0.130 |
Huevos | 0.275 | 14 | 0.140 |
Pez azul | 0.34 | 15 | 0.150 |
Legumbres | 0.341 | 16 | 0.160 |
Carbohidratos | 0.384 | 17 | 0.170 |
Papas | 0.569 | 18 | 0.180 |
Pan | 0.594 | 19 | 0.190 |
Grasas | 0.696 | 20 | 0.200 |
Dulces | 0.762 | 21 | 0.210 |
Productos Lácteos | 0.94 | 22 | 0.220 |
Leche semidesnatada | 0.942 | 23 | 0.230 |
Carne total | 0.975 | 24 | 0.240 |
Carne procesada | 0.986 | 25 | 0.250 |
Al leer la columna de\(P\) valores, la más grande con\(P<(i/m)Q\) es proteínas, donde el\(P\) valor individual (\(0.042\)) es menor que el\((i/m)Q\) valor de\(0.050\). De esta manera las cinco primeras pruebas serían significativas. Obsérvese que la leche entera y la carne blanca son significativas, aunque sus\(P\) valores no sean menores a sus valores críticos de Benjamini-Hochberg; son significativos porque tienen\(P\) valores menores que los de las proteínas.
Cuando se utiliza el procedimiento Benjamini-Hochberg con una tasa de falsos descubrimientos mayor que\(0.05\), es muy posible que las pruebas individuales sean significativas aunque su\(P\) valor sea mayor que\(0.05\). Imagínese que todos los\(P\) valores en el estudio García-Arenzana et al. (2014) estaban entre\(0.10\) y\(0.24\). Entonces con una tasa de falsos descubrimientos de\(0.25\), todas las pruebas serían significativas, incluso la que tiene\(P=0.24\). Esto puede parecer incorrecto, pero si todas las hipótesis\(25\) nulas fueran ciertas, se esperaría que el\(P\) valor más grande estuviera muy por encima\(0.90\); sería extremadamente improbable que el\(P\) valor más grande fuera menor que\(0.25\). Solo esperarías que el\(P\) valor más grande fuera menor que\(0.25\) si la mayoría de las hipótesis nulas fueran falsas, y dado que una tasa de falsos descubrimientos\(0.25\) significa que estás dispuesto a rechazar algunas hipótesis nulas verdaderas, las rechazarías todas.
Debe elegir cuidadosamente su tasa de descubrimiento falso antes de recopilar sus datos. Por lo general, cuando estás haciendo una gran cantidad de pruebas estadísticas, tu experimento es solo el primer paso, exploratorio, y vas a dar seguimiento con más experimentos sobre los interesantes resultados individuales. Si el costo de experimentos adicionales es bajo y el costo de un falso negativo (que falta un descubrimiento potencialmente importante) es alto, probablemente deberías usar una tasa de falsos descubrimientos bastante alta, como\(0.10\) o\(0.20\), para que no te pierdas nada importante. A veces las personas usan una tasa de falsos descubrimientos de\(0.05\), probablemente debido a la confusión sobre la diferencia entre la tasa de descubrimiento falso y la probabilidad de un falso positivo cuando el nulo es verdadero; una tasa de descubrimiento falso de\(0.05\) es probablemente demasiado baja para muchos experimentos.
El procedimiento Benjamini-Hochberg es menos sensible que el procedimiento Bonferroni a su decisión sobre lo que es una “familia” de pruebas. Si aumenta el número de pruebas, y la distribución de\(P\) valores es la misma en las pruebas recién agregadas que en las pruebas originales, el procedimiento Benjamini-Hochberg arrojará la misma proporción de resultados significativos. Por ejemplo, si García-Arenzana et al. (2014) hubieran analizado\(50\) variables en lugar de\(25\) y las nuevas\(25\) pruebas tuvieran el mismo conjunto de valores de P que el original\(25\), tendrían resultados\(10\) significativos bajo Benjamini-Hochberg con una tasa de falsos descubrimientos de\(0.25\). Esto no significa que puedas ignorar por completo la cuestión de qué constituye una familia; si mezclas dos conjuntos de pruebas, una con algunos\(P\) valores bajos y un segundo conjunto sin\(P\) valores bajos, reducirás el número de resultados significativos en comparación con solo analizar el primer conjunto por sí mismo.
A veces verá un “\(P\)valor ajustado Benjamini-Hochberg”. El\(P\) valor ajustado para una prueba es el\(P\) valor bruto veces\(m/i\) o el\(P\) valor ajustado para el siguiente\(P\) valor bruto superior, el que sea menor (recuerde que m es el número de pruebas e i es el rango de cada prueba, con\(1\) el rango de los más pequeños \(P\)valor). Si el\(P\) valor ajustado es menor que la tasa de falsos descubrimientos, la prueba es significativa. Por ejemplo, el\(P\) valor ajustado para las proteínas en el conjunto de datos de ejemplo es\(0.042\times (25/5)=0.210\); el\(P\) valor ajustado para la carne blanca es el menor de\(0.041\times (25/4)=0.256\) o\(0.210\), así es\(0.210\). En mi opinión los “\(P\)valores ajustados” son un poco confusos, ya que en realidad no son estimaciones de la probabilidad (\(P\)) de nada. Creo que es mejor dar los\(P\) valores brutos y decir cuáles son significativos usando el procedimiento Benjamini-Hochberg con su tasa de falsos descubrimientos, pero si los valores de P ajustados de Benjamini-Hochberg son comunes en la literatura de su campo, tal vez tenga que usarlos.
Asunción
La corrección de Bonferroni y el procedimiento de Benjamini-Hochberg asumen que las pruebas individuales son independientes entre sí, como cuando se compara la muestra A con la muestra B, C vs. D, E vs. F, etc. Si se compara la muestra A con la muestra B, A vs. C, A vs. D, etc., las comparaciones no son independientes; si A es mayor que B, hay una buena posibilidad de que A sea mayor que C también. Un lugar donde esto ocurre es cuando estás haciendo comparaciones no planificadas de medias en anova, para lo cual se han desarrollado una variedad de otras técnicas, como la prueba de Tukey-Kramer. Otro diseño experimental con comparaciones múltiples y no independientes es cuando se comparan múltiples variables entre grupos, y las variables se correlacionan entre sí dentro de los grupos. Un ejemplo sería noquear tu gen favorito en ratones y comparar todo lo que se te ocurra en ratones knockout vs. ratones de control: longitud, peso, fuerza, velocidad de carrera, consumo de alimentos, producción de heces, etc. Es probable que todas estas variables estén correlacionadas dentro de los grupos; los ratones que son más largos probablemente lo harán también pesan más, serían más fuertes, correrían más rápido, comerían más comida y cagaban más. Para analizar este tipo de experimentos, se puede utilizar el análisis multivariado de varianza, o manova, que no estoy cubriendo en este libro de texto.
Otras técnicas más complicadas, como Reiner et al. (2003), se han desarrollado para controlar la tasa de falsos descubrimientos que pueden ser más apropiados cuando hay falta de independencia en los datos. Si estás usando microarrays, en particular, necesitas familiarizarte con este tema.
Cuándo no corregir las comparaciones múltiples
El objetivo de las correcciones de comparaciones múltiples es reducir el número de falsos positivos, porque los falsos positivos pueden ser embarazosos, confusos y hacer que tú y otras personas pierdan el tiempo. Un desafortunado subproducto de corregir para múltiples comparaciones es que puedes aumentar el número de falsos negativos, donde realmente hay un efecto pero no lo detectas como estadísticamente significativo. Si los falsos negativos son muy costosos, es posible que no desee corregir para múltiples comparaciones en absoluto. Por ejemplo, digamos que te has ido a muchos problemas y gastos para noquear a tu gen favorito, la manosa-6-fosfato isomerasa (Mpi), en una cepa de ratones que espontáneamente desarrollan muchos tumores. Manos temblando de emoción, obtienes los primeros ratones Mpi -/- y comienzas a medir cosas: presión arterial, tasa de crecimiento, velocidad de aprendizaje de maze-learning, densidad ósea, brillo del pelaje, todo lo que se te ocurra para medir en un ratón. Se miden\(50\) las cosas en ratones Mpi -/- y ratones normales, se realizan las pruebas estadísticas apropiadas, y el\(P\) valor más pequeño es\(0.013\) para una diferencia en el tamaño del tumor. Si usa una corrección de Bonferroni, eso\(P=0.013\) no será cercano a significativo; podría no ser significativo con el procedimiento Benjamini-Hochberg, tampoco. En caso de concluir que no hay diferencia significativa entre los ratones Mpi -/- y Mpi +/+, escribe un pequeño papel aburrido titulado “La falta de algo interesante en Mpi -/- ratones”, ¿y buscar otro proyecto? No, tu ponencia debería ser “Posible efecto de Mpi en el cáncer”. Por supuesto, debe ser adecuadamente cauteloso y enfatizar en el documento que hay muchas posibilidades de que su resultado sea un falso positivo; pero el costo de un falso positivo, si más experimentos muestran que Mpi realmente no tiene ningún efecto sobre los tumores, es solo algunos experimentos más. El costo de un falso negativo, por otro lado, podría ser que te hayas perdido un descubrimiento enormemente importante.
Cómo hacer las pruebas
Hoja de Cálculo
He escrito una hoja de cálculo para hacer el procedimiento Benjamini-Hochberg benjaminihochberg.xls sobre hasta\(1000\)\(P\) valores. Te dirá qué\(P\) valores son significativos después de controlar la tasa de falsos descubrimientos que elijas. También le dará a los Benjamini-Hochberg\(P\) valores ajustados, aunque creo que son un poco estúpidos.
También he escrito una hoja de cálculo para hacer la corrección Bonferroni bonferroni.xls sobre hasta\(1000\)\(P\) valores.
Páginas web
No tengo conocimiento de ninguna página web que realice el procedimiento Benjamini-Hochberg.
R
El\(R\) compañero de Salvatore Mangiafico tiene una muestra de programas R para el Bonferroni, Benjamini-Hochberg y varios otros métodos para corregir para múltiples comparaciones.
SAS
Hay un PROC MULTTEST que realizará el procedimiento Benjamini-Hochberg, así como muchas otras correcciones de comparación múltiple. Aquí hay un ejemplo usando los datos de dieta y densidad mamográfica de García-Arenzana et al. (2014).
DATA mammodiet;
INPUT food $ Raw_P;
tarjetas;
Blue_fish .34
Pan .594
Mantequilla .212
Carbohidratos .384
Cereales_y_pasta .074
Productos lácteos.94
Huevos .275
Grasas. 696
Fruta .269
Legumbres .341
Frutos secos .06
Aceite de oliva .008
Patatas .569
Processed_meat .986
Proteínas .042
Red_meat .251
Semi-desnatado_milk .942
Leche desnatada .222
Dulces .762
total_calorías .001
total_carne .975
Verduras .216
pescado blanco_carne .205
blanco_carne
.041 leche entera.039
;
PROC SORT data=Mammodiet fuera=Clasificado_p;
POR Raw_P;
PROC MULTTEST INPVALORES=Clasificado_P FDR;
EJECUTAR;
Tenga en cuenta que la variable de\(P\) valor debe denominarse "Raw_P”. Ordené los datos por "Raw_P" antes de hacer la prueba de comparaciones múltiples, para facilitar la lectura de la salida final. En la instrucción PROC MULTTEST, INPVALUES te dice qué archivo contiene la variable Raw_P, y FDR le dice a SAS que ejecute el procedimiento Benjamini-Hochberg.
La salida es la lista original de\(P\) valores y una columna etiquetada como “Tasa de descubrimiento falso”. Si el número en esta columna es menor que la tasa de falsos descubrimientos que eligió antes de hacer el experimento, el\(P\) valor original (“crudo”) es significativo.
Prueba Crudo Falso Descubrimiento Tasa
1 0.0010 0.0250
2 0.0080 0.1000
3 0.0390 0.2100
4 0.0410 0.2100
5 0.0420 0.2100
6 0.0600 0.2500
7 0.0740 0.2643
8 0.2050 0.4911
9 0.2120 0.4911
10 0.2160 0.4911
11 0.2220 0. 4911
12 0.2510 0.4911
13 0.2690 0.4911
14 0.2750 0.4911
15 0.3400 0.5328
16 0.3410 0.5328
17 0.3840 0. 5647
18 0.5690 0.7816
19 0.5940 0.7816
20 0.6960 0.8700
21 0.7620 0.9071
22 0.9400 0.9860
23 0.9420 0. 9860
24 0.9750 0.9860
25 0.9860 0.9860
Entonces, si hubiera elegido una tasa de falsos descubrimientos de\(0.25\), el primero\(6\) sería significativo; si hubiera elegido una tasa de falsos descubrimientos de\(0.15\), solo los dos primeros serían significativos.
Referencias
- García-Arenzana, N., E.M. Navarrete-Muñoz, V. Lope, P. Moreo, S. Laso-Pablos, N. Ascunce, F. Casanova-Gómez, C. Sánchez-Contador, C. Santamariña, N. Aragonés, B.P. Gómez, J. Vioque, y M. Pollán. 2014. Ingesta calórica, consumo de aceite de oliva y densidad mamográfica en mujeres españolas. Revista internacional de cáncer 134:1916-1925.
- Benjamini, Y., e Y. Hochberg. 1995. Controlar la tasa de falsos descubrimientos: un enfoque práctico y poderoso para múltiples pruebas. Revista de la Real Sociedad Estadística B 57:289-300.
- Reiner, A., D. Yekutieli e Y. Benjamini. 2003. Identificar genes expresados diferencialmente mediante procedimientos de control de la tasa de descubrimiento falso. Bioinformática 19:368-375.
- Simes, R.J. 1986. Un procedimiento mejorado de Bonferroni para múltiples pruebas de significación. Biometrika 73:751-754.