6.1: Comparaciones múltiples
( \newcommand{\kernel}{\mathrm{null}\,}\)
Objetivos de aprendizaje
- Cuando realizas un gran número de pruebas estadísticas, algunas tendránP valores menores que0.05 puramente por casualidad, aunque todas tus hipótesis nulas sean realmente ciertas. La corrección de Bonferroni es una forma sencilla de tomar esto en cuenta; ajustar la tasa de falsos descubrimientos mediante el procedimiento Benjamini-Hochberg es un método más poderoso.
El problema con las comparaciones múltiples
Cada vez que rechazas una hipótesis nula porque unP valor es menor que tu valor crítico, es posible que te equivoques; la hipótesis nula podría ser realmente cierta, y tu resultado significativo podría deberse al azar. UnP valor de0.05 significa que existe la5% posibilidad de obtener el resultado observado, si la hipótesis nula fuera cierta. No quiere decir que exista la5% posibilidad de que la hipótesis nula sea cierta.
Por ejemplo, si haces pruebas100 estadísticas, y para todas ellas la hipótesis nula es realmente cierta, esperarías que5 de las pruebas sean significativas aP<0.05 nivel, solo por casualidad. En ese caso, tendrías resultados5 estadísticamente significativos, todos los cuales eran falsos positivos. El costo, en tiempo, esfuerzo y tal vez dinero, podría ser bastante alto si basaras conclusiones importantes en estos falsos positivos, y al menos sería vergonzoso para ti una vez que otras personas investigaran más y descubrieran que te habías equivocado.
Este problema, que cuando haces múltiples pruebas estadísticas, alguna fracción será falsos positivos, ha recibido cada vez más atención en los últimos años. Esto es importante para técnicas como el uso de microarrays, que permiten medir cantidades de ARN para decenas de miles de genes a la vez; escaneo cerebral, en el que el flujo sanguíneo puede estimarse en100,000 o más bits tridimensionales del cerebro; y genómica evolutiva, donde las secuencias de cada gen en el genoma de dos o más especies puede ser comparado. No existe un enfoque universalmente aceptado para abordar el problema de las comparaciones múltiples; se trata de un área de investigación activa, tanto en los detalles matemáticos como en cuestiones epistomológicas más amplias.
Controlar la tasa de error familiar - Corrección Bonferroni
El enfoque clásico del problema de comparación múltiple es controlar la tasa de error familiar. En lugar de establecer elP nivel crítico de significancia, o alfa, a0.05, se utiliza un valor crítico más bajo. Si la hipótesis nula es cierta para todas las pruebas, la probabilidad de obtener un resultado que sea significativo en este nuevo valor crítico menor es0.05. Es decir, si todas las hipótesis nulas son verdaderas, la probabilidad de que la familia de pruebas incluya uno o más falsos positivos por casualidad es0.05.
La forma más común de controlar la tasa de error familiar es con la corrección de Bonferroni. Se encuentra el valor crítico (alfa) para una prueba individual dividiendo la tasa de error familiar (generalmente0.05) por el número de pruebas. Por lo tanto, si estás haciendo pruebas100 estadísticas, el valor crítico para una prueba individual sería0.05/100=0.0005, y solo considerarías que las pruebas individuales conP<0.0005 son significativas. Como ejemplo, García-Arenzana et al. (2014) probaron asociaciones de variables25 dietéticas con densidad mamográfica, un importante factor de riesgo de cáncer de mama, en mujeres españolas. Encontraron los siguientes resultados:
Variable dietética | Valor P |
---|---|
Calorías totales | <0.001 |
Aceite de oliva | 0.008 |
Leche Entera | 0.039 |
Carnes Blancas | 0.041 |
Proteínas | 0.042 |
Nueces | 0.06 |
Cereales y pastas | 0.074 |
Pescado blanco | 0.205 |
Mantequilla | 0.212 |
Verduras | 0.216 |
Leche desnatada | 0.222 |
Carnes rojas | 0.251 |
Fruto | 0.269 |
Huevos | 0.275 |
Pez azul | 0.34 |
Legumbres | 0.341 |
Carbohidratos | 0.384 |
Papas | 0.569 |
Pan | 0.594 |
Grasas | 0.696 |
Dulces | 0.762 |
Productos Lácteos | 0.94 |
Leche semidesnatada | 0.942 |
Carne total | 0.975 |
Carne procesada | 0.986 |
Como puede ver, cinco de las variables muestran unP valor significativo (P<0.05). Sin embargo, debido a que García-Arenzana et al. (2014) probaron variables25 dietéticas, se esperaría que una o dos variables mostraran un resultado significativo puramente por casualidad, aunque la dieta no tuviera un efecto real sobre la densidad mamográfica. Aplicando la corrección de Bonferroni, dividiríasP=0.05 por el número de pruebas (25) para obtener el valor crítico de Bonferroni, por lo que una prueba tendríaP<0.002 que ser significativa. Bajo ese criterio, sólo la prueba de calorías totales es significativa.
La corrección de Bonferroni es apropiada cuando un solo falso positivo en un conjunto de pruebas sería un problema. Es principalmente útil cuando hay un número bastante pequeño de comparaciones múltiples y estás buscando una o dos que puedan ser significativas. Sin embargo, si tienes un gran número de comparaciones múltiples y estás buscando muchas que puedan ser significativas, la corrección de Bonferroni puede llevar a una tasa muy alta de falsos negativos. Por ejemplo, digamos que estás comparando el nivel de expresión de20,000 genes entre tejido de cáncer de hígado y tejido hepático normal. Con base en estudios previos, se espera encontrar docenas o cientos de genes con diferentes niveles de expresión. Si usas la corrección Bonferroni, unP valor tendría que ser menor que0.05/20000=0.0000025 para ser significativo. Solo los genes con enormes diferencias en la expresión tendrán unP valor tan bajo, y podrían perderse muchas diferencias importantes solo porque querías estar seguro de que tus resultados no incluían ni un solo falso negativo.
Un tema importante con la corrección de Bonferroni es decidir qué es una “familia” de pruebas estadísticas. García-Arenzana et al. (2014) probaron variables25 dietéticas, entonces, ¿son estas pruebas una “familia”, haciendo elP valor crítico0.05/25? Pero también midieron variables13 no dietéticas como la edad, la educación y el nivel socioeconómico; ¿deberían incluirse en la familia de pruebas, haciendo elP valor crítico0.05/38? Y qué pasaría si en 2015, García-Arenzana et al. escriben otro artículo en el que comparan variables30 dietéticas entre pacientes con cáncer de mama y no cáncer de mama; deberían incluir a los de su familia de pruebas, y volver a analizar los datos en su artículo de 2014 utilizando unP valor crítico de 0.05/55? No hay una regla firme sobre esto; tendrás que usar tu juicio, basado en lo malo que sería un falso positivo. Obviamente, debes tomar esta decisión antes de mirar los resultados, de lo contrario sería demasiado fácil racionalizar inconscientemente un tamaño de familia que te dé los resultados que deseas.
Controlar la tasa de falsos descubrimientos: procedimiento Benjamini—Hochberg
Un enfoque alternativo es controlar la tasa de falsos descubrimientos. Esta es la proporción de “descubrimientos” (resultados significativos) que en realidad son falsos positivos. Por ejemplo, digamos que estás usando microarrays para comparar los niveles de expresión de20,000 genes entre tumores hepáticos y células hepáticas normales. Vas a hacer experimentos adicionales en cualquier gen que muestre una diferencia significativa entre las células normales y tumorales, y estás dispuesto a aceptar hasta10% de los genes con resultados significativos siendo falsos positivos; descubrirás que son falsos positivos cuando hagas los experimentos de seguimiento. En este caso, establecería su tasa de falsos descubrimientos en10%.
Una buena técnica para controlar la tasa de falsos descubrimientos fue brevemente mencionada por Simes (1986) y desarrollada en detalle por Benjamini y Hochberg (1995). Poner en ordenP los valores individuales, desde los más pequeños hasta los más grandes. ElP valor más pequeño tiene un rango dei=1, luego siguiente el más pequeño tienei=2, etc. Compare cadaP valor individual con su valor crítico Benjamini-Hochberg,(i/m)Q, donde i es el rango,m es el número total de pruebas, yQ es la tasa de falsos descubrimientos que elija. El mayorP valor que tieneP<(i/m)Q es significativo, y todos losP valores menores que también son significativos, incluso los que no son menores que su valor crítico Benjamini-Hochberg.
Para ilustrar esto, aquí están los datos de García-Arenzana et al. (2014) nuevamente, con el valor crítico Benjamini-Hochberg para una tasa de falsos descubrimientos de0.25.
Variable dietética | Valor P | Rango | (i/m) Q |
---|---|---|---|
Calorías totales | <0.001 | 1 | 0.010 |
Aceite de oliva | 0.008 | 2 | 0.020 |
Leche Entera | 0.039 | 3 | 0.030 |
Carnes Blancas | 0.041 | 4 | 0.040 |
Proteínas | 0.042 | 5 | 0.050 |
Nueces | 0.060 | 6 | 0.060 |
Cereales y pastas | 0.074 | 7 | 0.070 |
Pescado blanco | 0.205 | 8 | 0.080 |
Mantequilla | 0.212 | 9 | 0.090 |
Verduras | 0.216 | 10 | 0.100 |
Leche desnatada | 0.222 | 11 | 0.110 |
Carnes rojas | 0.251 | 12 | 0.120 |
Fruta | 0.269 | 13 | 0.130 |
Huevos | 0.275 | 14 | 0.140 |
Pez azul | 0.34 | 15 | 0.150 |
Legumbres | 0.341 | 16 | 0.160 |
Carbohidratos | 0.384 | 17 | 0.170 |
Papas | 0.569 | 18 | 0.180 |
Pan | 0.594 | 19 | 0.190 |
Grasas | 0.696 | 20 | 0.200 |
Dulces | 0.762 | 21 | 0.210 |
Productos Lácteos | 0.94 | 22 | 0.220 |
Leche semidesnatada | 0.942 | 23 | 0.230 |
Carne total | 0.975 | 24 | 0.240 |
Carne procesada | 0.986 | 25 | 0.250 |
Al leer la columna deP valores, la más grande conP<(i/m)Q es proteínas, donde elP valor individual (0.042) es menor que el(i/m)Q valor de0.050. De esta manera las cinco primeras pruebas serían significativas. Obsérvese que la leche entera y la carne blanca son significativas, aunque susP valores no sean menores a sus valores críticos de Benjamini-Hochberg; son significativos porque tienenP valores menores que los de las proteínas.
Cuando se utiliza el procedimiento Benjamini-Hochberg con una tasa de falsos descubrimientos mayor que0.05, es muy posible que las pruebas individuales sean significativas aunque suP valor sea mayor que0.05. Imagínese que todos losP valores en el estudio García-Arenzana et al. (2014) estaban entre0.10 y0.24. Entonces con una tasa de falsos descubrimientos de0.25, todas las pruebas serían significativas, incluso la que tieneP=0.24. Esto puede parecer incorrecto, pero si todas las hipótesis25 nulas fueran ciertas, se esperaría que elP valor más grande estuviera muy por encima0.90; sería extremadamente improbable que elP valor más grande fuera menor que0.25. Solo esperarías que elP valor más grande fuera menor que0.25 si la mayoría de las hipótesis nulas fueran falsas, y dado que una tasa de falsos descubrimientos0.25 significa que estás dispuesto a rechazar algunas hipótesis nulas verdaderas, las rechazarías todas.
Debe elegir cuidadosamente su tasa de descubrimiento falso antes de recopilar sus datos. Por lo general, cuando estás haciendo una gran cantidad de pruebas estadísticas, tu experimento es solo el primer paso, exploratorio, y vas a dar seguimiento con más experimentos sobre los interesantes resultados individuales. Si el costo de experimentos adicionales es bajo y el costo de un falso negativo (que falta un descubrimiento potencialmente importante) es alto, probablemente deberías usar una tasa de falsos descubrimientos bastante alta, como0.10 o0.20, para que no te pierdas nada importante. A veces las personas usan una tasa de falsos descubrimientos de0.05, probablemente debido a la confusión sobre la diferencia entre la tasa de descubrimiento falso y la probabilidad de un falso positivo cuando el nulo es verdadero; una tasa de descubrimiento falso de0.05 es probablemente demasiado baja para muchos experimentos.
El procedimiento Benjamini-Hochberg es menos sensible que el procedimiento Bonferroni a su decisión sobre lo que es una “familia” de pruebas. Si aumenta el número de pruebas, y la distribución deP valores es la misma en las pruebas recién agregadas que en las pruebas originales, el procedimiento Benjamini-Hochberg arrojará la misma proporción de resultados significativos. Por ejemplo, si García-Arenzana et al. (2014) hubieran analizado50 variables en lugar de25 y las nuevas25 pruebas tuvieran el mismo conjunto de valores de P que el original25, tendrían resultados10 significativos bajo Benjamini-Hochberg con una tasa de falsos descubrimientos de0.25. Esto no significa que puedas ignorar por completo la cuestión de qué constituye una familia; si mezclas dos conjuntos de pruebas, una con algunosP valores bajos y un segundo conjunto sinP valores bajos, reducirás el número de resultados significativos en comparación con solo analizar el primer conjunto por sí mismo.
A veces verá un “Pvalor ajustado Benjamini-Hochberg”. ElP valor ajustado para una prueba es elP valor bruto vecesm/i o elP valor ajustado para el siguienteP valor bruto superior, el que sea menor (recuerde que m es el número de pruebas e i es el rango de cada prueba, con1 el rango de los más pequeños Pvalor). Si elP valor ajustado es menor que la tasa de falsos descubrimientos, la prueba es significativa. Por ejemplo, elP valor ajustado para las proteínas en el conjunto de datos de ejemplo es0.042×(25/5)=0.210; elP valor ajustado para la carne blanca es el menor de0.041×(25/4)=0.256 o0.210, así es0.210. En mi opinión los “Pvalores ajustados” son un poco confusos, ya que en realidad no son estimaciones de la probabilidad (P) de nada. Creo que es mejor dar losP valores brutos y decir cuáles son significativos usando el procedimiento Benjamini-Hochberg con su tasa de falsos descubrimientos, pero si los valores de P ajustados de Benjamini-Hochberg son comunes en la literatura de su campo, tal vez tenga que usarlos.
Asunción
La corrección de Bonferroni y el procedimiento de Benjamini-Hochberg asumen que las pruebas individuales son independientes entre sí, como cuando se compara la muestra A con la muestra B, C vs. D, E vs. F, etc. Si se compara la muestra A con la muestra B, A vs. C, A vs. D, etc., las comparaciones no son independientes; si A es mayor que B, hay una buena posibilidad de que A sea mayor que C también. Un lugar donde esto ocurre es cuando estás haciendo comparaciones no planificadas de medias en anova, para lo cual se han desarrollado una variedad de otras técnicas, como la prueba de Tukey-Kramer. Otro diseño experimental con comparaciones múltiples y no independientes es cuando se comparan múltiples variables entre grupos, y las variables se correlacionan entre sí dentro de los grupos. Un ejemplo sería noquear tu gen favorito en ratones y comparar todo lo que se te ocurra en ratones knockout vs. ratones de control: longitud, peso, fuerza, velocidad de carrera, consumo de alimentos, producción de heces, etc. Es probable que todas estas variables estén correlacionadas dentro de los grupos; los ratones que son más largos probablemente lo harán también pesan más, serían más fuertes, correrían más rápido, comerían más comida y cagaban más. Para analizar este tipo de experimentos, se puede utilizar el análisis multivariado de varianza, o manova, que no estoy cubriendo en este libro de texto.
Otras técnicas más complicadas, como Reiner et al. (2003), se han desarrollado para controlar la tasa de falsos descubrimientos que pueden ser más apropiados cuando hay falta de independencia en los datos. Si estás usando microarrays, en particular, necesitas familiarizarte con este tema.
Cuándo no corregir las comparaciones múltiples
El objetivo de las correcciones de comparaciones múltiples es reducir el número de falsos positivos, porque los falsos positivos pueden ser embarazosos, confusos y hacer que tú y otras personas pierdan el tiempo. Un desafortunado subproducto de corregir para múltiples comparaciones es que puedes aumentar el número de falsos negativos, donde realmente hay un efecto pero no lo detectas como estadísticamente significativo. Si los falsos negativos son muy costosos, es posible que no desee corregir para múltiples comparaciones en absoluto. Por ejemplo, digamos que te has ido a muchos problemas y gastos para noquear a tu gen favorito, la manosa-6-fosfato isomerasa (Mpi), en una cepa de ratones que espontáneamente desarrollan muchos tumores. Manos temblando de emoción, obtienes los primeros ratones Mpi -/- y comienzas a medir cosas: presión arterial, tasa de crecimiento, velocidad de aprendizaje de maze-learning, densidad ósea, brillo del pelaje, todo lo que se te ocurra para medir en un ratón. Se miden50 las cosas en ratones Mpi -/- y ratones normales, se realizan las pruebas estadísticas apropiadas, y elP valor más pequeño es0.013 para una diferencia en el tamaño del tumor. Si usa una corrección de Bonferroni, esoP=0.013 no será cercano a significativo; podría no ser significativo con el procedimiento Benjamini-Hochberg, tampoco. En caso de concluir que no hay diferencia significativa entre los ratones Mpi -/- y Mpi +/+, escribe un pequeño papel aburrido titulado “La falta de algo interesante en Mpi -/- ratones”, ¿y buscar otro proyecto? No, tu ponencia debería ser “Posible efecto de Mpi en el cáncer”. Por supuesto, debe ser adecuadamente cauteloso y enfatizar en el documento que hay muchas posibilidades de que su resultado sea un falso positivo; pero el costo de un falso positivo, si más experimentos muestran que Mpi realmente no tiene ningún efecto sobre los tumores, es solo algunos experimentos más. El costo de un falso negativo, por otro lado, podría ser que te hayas perdido un descubrimiento enormemente importante.
Cómo hacer las pruebas
Hoja de Cálculo
He escrito una hoja de cálculo para hacer el procedimiento Benjamini-Hochberg benjaminihochberg.xls sobre hasta1000P valores. Te dirá quéP valores son significativos después de controlar la tasa de falsos descubrimientos que elijas. También le dará a los Benjamini-HochbergP valores ajustados, aunque creo que son un poco estúpidos.
También he escrito una hoja de cálculo para hacer la corrección Bonferroni bonferroni.xls sobre hasta1000P valores.
Páginas web
No tengo conocimiento de ninguna página web que realice el procedimiento Benjamini-Hochberg.
R
ElR compañero de Salvatore Mangiafico tiene una muestra de programas R para el Bonferroni, Benjamini-Hochberg y varios otros métodos para corregir para múltiples comparaciones.
SAS
Hay un PROC MULTTEST que realizará el procedimiento Benjamini-Hochberg, así como muchas otras correcciones de comparación múltiple. Aquí hay un ejemplo usando los datos de dieta y densidad mamográfica de García-Arenzana et al. (2014).
DATA mammodiet;
INPUT food $ Raw_P;
tarjetas;
Blue_fish .34
Pan .594
Mantequilla .212
Carbohidratos .384
Cereales_y_pasta .074
Productos lácteos.94
Huevos .275
Grasas. 696
Fruta .269
Legumbres .341
Frutos secos .06
Aceite de oliva .008
Patatas .569
Processed_meat .986
Proteínas .042
Red_meat .251
Semi-desnatado_milk .942
Leche desnatada .222
Dulces .762
total_calorías .001
total_carne .975
Verduras .216
pescado blanco_carne .205
blanco_carne
.041 leche entera.039
;
PROC SORT data=Mammodiet fuera=Clasificado_p;
POR Raw_P;
PROC MULTTEST INPVALORES=Clasificado_P FDR;
EJECUTAR;
Tenga en cuenta que la variable deP valor debe denominarse "Raw_P”. Ordené los datos por "Raw_P" antes de hacer la prueba de comparaciones múltiples, para facilitar la lectura de la salida final. En la instrucción PROC MULTTEST, INPVALUES te dice qué archivo contiene la variable Raw_P, y FDR le dice a SAS que ejecute el procedimiento Benjamini-Hochberg.
La salida es la lista original deP valores y una columna etiquetada como “Tasa de descubrimiento falso”. Si el número en esta columna es menor que la tasa de falsos descubrimientos que eligió antes de hacer el experimento, elP valor original (“crudo”) es significativo.
Prueba Crudo Falso Descubrimiento Tasa
1 0.0010 0.0250
2 0.0080 0.1000
3 0.0390 0.2100
4 0.0410 0.2100
5 0.0420 0.2100
6 0.0600 0.2500
7 0.0740 0.2643
8 0.2050 0.4911
9 0.2120 0.4911
10 0.2160 0.4911
11 0.2220 0. 4911
12 0.2510 0.4911
13 0.2690 0.4911
14 0.2750 0.4911
15 0.3400 0.5328
16 0.3410 0.5328
17 0.3840 0. 5647
18 0.5690 0.7816
19 0.5940 0.7816
20 0.6960 0.8700
21 0.7620 0.9071
22 0.9400 0.9860
23 0.9420 0. 9860
24 0.9750 0.9860
25 0.9860 0.9860
Entonces, si hubiera elegido una tasa de falsos descubrimientos de0.25, el primero6 sería significativo; si hubiera elegido una tasa de falsos descubrimientos de0.15, solo los dos primeros serían significativos.
Referencias
- García-Arenzana, N., E.M. Navarrete-Muñoz, V. Lope, P. Moreo, S. Laso-Pablos, N. Ascunce, F. Casanova-Gómez, C. Sánchez-Contador, C. Santamariña, N. Aragonés, B.P. Gómez, J. Vioque, y M. Pollán. 2014. Ingesta calórica, consumo de aceite de oliva y densidad mamográfica en mujeres españolas. Revista internacional de cáncer 134:1916-1925.
- Benjamini, Y., e Y. Hochberg. 1995. Controlar la tasa de falsos descubrimientos: un enfoque práctico y poderoso para múltiples pruebas. Revista de la Real Sociedad Estadística B 57:289-300.
- Reiner, A., D. Yekutieli e Y. Benjamini. 2003. Identificar genes expresados diferencialmente mediante procedimientos de control de la tasa de descubrimiento falso. Bioinformática 19:368-375.
- Simes, R.J. 1986. Un procedimiento mejorado de Bonferroni para múltiples pruebas de significación. Biometrika 73:751-754.