1.5: Variables de confusión
- Page ID
- 149115
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Objetivos de aprendizaje
- Una variable de confusión es una variable que puede afectar a la variable dependiente. Esto puede llevar a conclusiones erróneas sobre la relación entre las variables independientes y dependientes. Se trata de variables confusoras controlándolas; por emparejamiento; por aleatorización; o por control estadístico.
Debido a una variedad de factores genéticos, de desarrollo y ambientales, no hay dos organismos, no hay dos muestras de tejido, no hay dos células exactamente iguales. Esto significa que cuando diseñas un experimento con muestras que difieren en variables independientes\(X\), tus muestras también diferirán en otras variables que puedas o no conocer. Si estas variables confusas afectan a la variable dependiente\(Y\) que te interesa, pueden engañarte para que pienses que hay una relación entre\(X\) y\(Y\) cuando realmente no la hay. O bien, las variables confusas pueden causar tanta variación en\(Y\) que es difícil detectar una relación real entre\(X\) y\(Y\) cuando la hay.
Como ejemplo de variables confusas, imagina que quieres saber si las diferencias genéticas entre los olmos americanos (que son susceptibles a la enfermedad del olmo holandés) y los olmos de Princeton (una cepa de olmos americanos que es resistente a la enfermedad del olmo holandés) causan una diferencia en la cantidad de daño de insectos a sus hojas. Miras alrededor de tu área, encuentras olmos\(20\) americanos y olmos de\(20\) Princeton, recoges\(50\) hojas de cada uno y mides el área de cada hoja que fue comido por los insectos. Imagina que encuentras significativamente más daño por insectos en los olmos de Princeton que en los olmos americanos (no tengo idea si esto es cierto).
Podría ser que la diferencia genética entre los tipos de olmo cause directamente la diferencia en la cantidad de daño por insectos, que es lo que estabas buscando. Sin embargo, es probable que haya algunas variables de confusión importantes. Por ejemplo, muchos olmos americanos tienen muchas décadas de antigüedad, mientras que la cepa de olmos Princeton se puso a disposición comercial solo recientemente y por lo que cualquier olmo de Princeton que encuentre probablemente tenga solo unos pocos años. Los olmos americanos a menudo se tratan con fungicida para prevenir la enfermedad del olmo holandés, mientras que esto no sería necesario para los olmos de Princeton. Los olmos americanos en algunos entornos (parques, calles, los pocos que quedan en los bosques) pueden recibir relativamente pocos cuidados, mientras que los olmos de Princeton son caros y probablemente son plantados por fanáticos del olmo que los cuidan bien (fertilizar, regar, podar, etc.). Es fácil imaginar que cualquier diferencia en el daño de insectos entre olmos americanos y Princeton podría ser causada, no por las diferencias genéticas entre las cepas, sino por una variable confusa: edad, tratamiento fungicida, fertilizante, agua, poda, o algo más. Si llegas a la conclusión de que los olmos de Princeton tienen más daño por insectos por la diferencia genética entre las cepas, cuando en realidad es porque los olmos de Princeton en tu muestra eran más jóvenes, parecerás un idiota para todos tus compañeros científicos del olmo en cuanto descubran tu error.
Por otro lado, digamos que no eres tanto idiota, y te aseguras de que tu muestra de olmos de Princeton tenga la misma edad promedio que tu muestra de olmos americanos. Todavía hay mucha variación en las edades entre los árboles individuales en cada muestra, y si eso afecta el daño de los insectos, habrá mucha variación entre árboles individuales en la cantidad de daño por insectos. Esto hará que sea más difícil encontrar una diferencia estadísticamente significativa en el daño de los insectos entre las dos cepas de olmos, y es posible que se pierda la oportunidad de encontrar una diferencia pequeña pero emocionante en el daño de los insectos entre las cepas.
Controlar variables de confusión
Diseñar un experimento para eliminar las diferencias debidas a variables de confusión es de vital importancia. Una forma es controlar una posible variable confusa, lo que significa que la mantengas idéntica para todos los individuos. Por ejemplo, podrías plantar un montón de olmos americanos y un montón de olmos de Princeton todos al mismo tiempo, así que tendrían la misma edad. Podrías plantarlos en el mismo campo, y darles a todos la misma cantidad de agua y fertilizante.
Es fácil controlar muchas de las posibles variables de confusión en experimentos de laboratorio en organismos modelo. Todos tus ratones, o ratas, o Drosophila tendrán la misma edad, el mismo sexo y la misma cepa genética endogámica. Crecerán en el mismo tipo de recipientes, comiendo la misma comida y bebiendo la misma agua. Pero siempre hay algunas posibles variables confusoras que no puedes controlar. Tus organismos pueden ser todos de la misma cepa genética, pero nuevas mutaciones significarán que todavía hay algunas diferencias genéticas entre ellos. Puedes darles a todos la misma comida y agua, pero algunos pueden comer o beber un poco más que otros. Después de controlar todas las variables que puedas, es importante tratar cualquier otra variable de confusión mediante aleatorización, emparejamiento o control estadístico.
Controlar las variables de confusión es más difícil con organismos que viven fuera del laboratorio. ¿Esos olmos que plantaste en el mismo campo? Diferentes partes del campo pueden tener diferentes tipos de suelo, diferentes tasas de percolación de agua, diferente proximidad a carreteras, casas y otras maderas, y diferentes patrones de viento. Y si tus organismos experimentales son humanos, hay muchas variables confusoras que son imposibles de controlar.
Aleatorización
Una vez que hayas diseñado tu experimento para controlar tantas variables de confusión como sea posible, necesitas aleatorizar tus muestras para asegurarte de que no difieran en las variables de confusión que no puedes controlar. Por ejemplo, digamos que vas a hacer que los\(20\) ratones usen gafas de sol y dejen a\(20\) los ratones sin anteojos, para ver si las gafas de sol ayudan a prevenir las cataratas. No debes meter la mano en un cubo de\(40\) ratones, agarrar el primero\(20\) que atrapes y ponérselos gafas de sol. Los primeros\(20\) ratones que atrapes podrían ser más fáciles de atrapar porque son los más lentos, los más domados o los que tienen las colas más largas; o podrías seleccionar inconscientemente a los ratones más gordos o los ratones más lindos. No sé si tener tus ratones que llevan gafas de sol sean más lentos, domadores, con colas más largas, más gordos o más lindos los haría más o menos susceptibles a las cataratas, pero tampoco lo sabes. No quieres encontrar una diferencia en las cataratas entre los ratones que llevan gafas de sol y los que no usan gafas de sol, entonces tienes que preocuparte de que tal vez sea la grasa extra o las colas más largas, no las gafas de sol, lo que causó la diferencia. Por lo que debes asignar aleatoriamente los ratones a los diferentes grupos de tratamiento. Podrías darle a cada ratón un número de identificación y hacer que una computadora los asigne aleatoriamente a los dos grupos, o simplemente podrías voltear una moneda cada vez que saques un mouse de tu cubo de ratones.
En el ejemplo del ratón, usaste todos\(40\) tus ratones para el experimento. A menudo, se muestrea un pequeño número de observaciones de una población mucho mayor, y es importante que sea una muestra aleatoria. En una muestra aleatoria, cada individuo tiene la misma probabilidad de ser muestreado. Para obtener una muestra aleatoria de\(50\) olmos de un bosque con\(700\) olmos, podrías averiguar dónde está cada uno de los\(700\) olmos, dar a cada uno un número de identificación, escribir los números en\(700\) hojas de papel, poner los bolsitas de papel en un sombrero y sacar al azar\(50\) (o tener un computadora elige al azar\(50\), si eres demasiado perezoso\(700\) para rellenar hojas de papel o no tienes sombrero).
Debes tener cuidado para asegurarte de que tu muestra sea verdaderamente aleatoria. Empecé a escribir “O una forma más fácil de tomar muestras aleatoriamente de\(50\) olmos sería elegir aleatoriamente\(50\) ubicaciones en el bosque haciendo que una computadora elija aleatoriamente las coordenadas GPS, luego muestrear el olmo más cercano a cada ubicación aleatoria”. Sin embargo, esto habría sido un error; un olmo que estaba lejos de otros olmos seguramente sería el más cercano a una de tus ubicaciones aleatorias, pero sería poco probable que muestres un olmo en medio de un denso grupo de olmos. Es bastante fácil imaginar que la proximidad a otros olmos afectaría el daño de los insectos (o casi cualquier otra cosa que quisieras medir en los olmos), así que casi diseñé un experimento estúpido para ti.
Una muestra aleatoria es aquella en la que todos los miembros de una población tienen la misma probabilidad de ser muestreados. Si estás midiendo la fluorescencia dentro de las células renales, esto significa que todos los puntos dentro de una célula, y todas las células en un riñón, y todos los riñones en todos los individuos de una especie, tendrían las mismas posibilidades de ser muestreados.
Una muestra perfectamente aleatoria de observaciones es difícil de recolectar, y debes pensar en cómo esto podría afectar tus resultados. Digamos que ha utilizado un microscopio confocal para tomar una “rebanada óptica” bidimensional de una célula renal. Sería fácil usar un generador de números aleatorios en una computadora para seleccionar algunos píxeles aleatorios en la imagen, y luego podrías usar la fluorescencia en esos píxeles como muestra. Sin embargo, si tu corte estuviera cerca de la membrana celular, tu muestra “aleatoria” no incluiría ningún punto profundo dentro de la célula. Sin embargo, si su porción estaba justo a través de la mitad de la celda, los puntos profundos dentro de la celda estarían sobrerrepresentados en su muestra. Es posible que obtenga un microscopio más elegante, por lo que podría mirar una muestra aleatoria de los “voxels” (píxeles tridimensionales) a lo largo del volumen de la célula. Pero, ¿qué harías con los voxels justo en la superficie de la célula? Incluirlos en tu muestra sería un error, porque podrían incluir parte de la membrana celular y el espacio extracelular, pero excluirlos significaría que los puntos cercanos a la membrana celular están subrepresentados en tu muestra.
Coincidencia
A veces hay mucha variación en las variables de confusión que no puedes controlar; incluso si aleatorizas, la gran variación en las variables de confusión puede causar tanta variación en tu variable dependiente que sería difícil detectar una diferencia causada por la variable independiente que te interesa . Esto es particularmente cierto para los humanos. Digamos que quieres probar el aceite de hierba gatera como repelente de mosquitos. Si lo estuvieras probando en ratas, obtendrías un montón de ratas de la misma edad y sexo y cepa genética endogámica, aplicarías aceite de hierba gatera a la mitad de ellas, luego las pondrías en una habitación llena de mosquitos por un periodo de tiempo establecido y contarías el número de picaduras de mosquitos. Este sería un experimento agradable y bien controlado, y con un número moderado de ratas se podía ver si el aceite de hierba gatera provocó incluso un pequeño cambio en el número de picaduras de mosquitos. Pero si quisieras probar el aceite de hierba gatera en humanos que realizaban su vida cotidiana, no podrías conseguir un montón de humanos de la misma “cepa genética endogámica”, sería difícil conseguir un grupo de personas de la misma edad y sexo, y la gente diferiría mucho en el lugar donde vivían, cuánto tiempo pasaban afuera, los perfumes perfumados, jabones, desodorantes y detergentes para la ropa que usaban, y cualquier otra cosa que haga que los mosquitos ignoren a algunas personas y se coman a otras. La gran variación en el número de picaduras de mosquitos entre las personas significaría que si el aceite de hierba gatera tuviera un efecto pequeño, se necesitaría una gran cantidad de personas para que la diferencia sea estadísticamente significativa.
Una forma de reducir el ruido debido a las variables de confusión es haciendo coincidir. Generalmente haces esto cuando la variable independiente es una variable nominal con dos valores, como “fármaco” vs. “placebo”. Se realizan observaciones en pares, una por cada valor de la variable independiente, que son lo más similares posible en las variables de confusión. Los pares podrían ser diferentes partes de una misma gente. Por ejemplo, podrías probar tu aceite de hierba gatera haciendo que la gente ponga aceite de hierba gatera en un brazo y aceite placebo en el otro brazo. La variación en el tamaño de la diferencia entre los dos brazos de cada persona será mucho menor que la variación entre diferentes personas, por lo que no necesitará un tamaño de muestra casi tan grande para detectar una pequeña diferencia en las picaduras de mosquitos entre el aceite de hierba gatera y el aceite placebo. Por supuesto, tendrías que elegir al azar en qué brazo poner el aceite de hierba gatera.
Otras formas de emparejamiento incluyen experimentos de antes y después. Podrías contar el número de picaduras de mosquitos en una semana, luego hacer que la gente use aceite de hierba gatera y ver si el número de picaduras de mosquito por cada persona bajó. Con este tipo de experimentos, es importante asegurarse de que la variable dependiente no habría cambiado por sí misma (tal vez el clima cambió y los mosquitos dejaron de morder), por lo que sería mejor usar aceite placebo una semana y aceite de catnip otra semana, y elegir aleatoriamente para cada persona si la catnip aceite o placebo fue el primero.
Para muchos experimentos humanos, necesitarás emparejar a dos personas diferentes, porque no puedes probar tanto el tratamiento como el control en la misma persona. Por ejemplo, digamos que has renunciado al aceite de hierba gatera como repelente de mosquitos y lo vas a probar en humanos como preventivo de cataratas. Vas a conseguir que un montón de gente, que la mitad tome una pastilla de aceite de gato y la mitad tome una píldora placebo durante cinco años, luego compare la opacidad del cristalino en los dos grupos. Aquí el objetivo es hacer que cada par de personas sea lo más similar posible en variables confusas que creas que podrían ser importantes. Si estás estudiando cataratas, querrás emparejar a las personas en función de factores de riesgo conocidos de cataratas: edad, cantidad de tiempo al aire libre, uso de gafas de sol, presión arterial. Por supuesto, una vez que tengas un par de individuos emparejados, querrás elegir al azar cuál obtiene el aceite de hierba gatera y cuál recibe el placebo. No podrías encontrar parejas de individuos que coincidan perfectamente, pero cuanto mejor sea la coincidencia, más fácil será detectar una diferencia debido a las pastillas de aceite de gato.
Un tipo de coincidencia que a menudo se usa en epidemiología es el estudio de casos y controles. Los “casos” son personas con alguna enfermedad o afección, y cada uno se corresponde con uno o más controles. Cada control es generalmente del mismo sexo y tan similar en otros factores (edad, etnia, ocupación, ingresos) según sea práctico. Luego se comparan los casos y controles para ver si existen diferencias consistentes entre ellos. Por ejemplo, si quisieras saber si fumar marihuana provocaba o evitaba cataratas, podrías encontrar a un grupo de personas con cataratas. Luego encontrarías un control para cada persona que fuera similar en los factores de riesgo conocidos de cataratas (edad, tiempo al aire libre, presión arterial, diabetes, uso de esteroides). Entonces preguntarías a los casos de cataratas y a los controles que no son cataratas cuánta hierba habían fumado.
Si es difícil encontrar casos y fácil encontrar controles, un estudio de casos y controles puede incluir dos o más controles para cada caso. Esto le da algo más de poder estadístico.
Control estadístico
Cuando no es práctico mantener constantes todas las posibles variables de confusión, otra solución es controlarlas estadísticamente. En ocasiones se puede hacer esto con una relación simple. Si te interesa el efecto del peso sobre las cataratas, la estatura sería una variable confusa, porque las personas más altas tienden a pesar más. Usar el índice de masa corporal (IMC), que es la relación de peso en kilogramos sobre la altura cuadrada en metros, eliminaría gran parte de los efectos de confusión de la altura en su estudio. Si necesitas eliminar los efectos de múltiples variables de confusión, existen técnicas estadísticas multivariadas que puedes usar. Sin embargo, el análisis, interpretación y presentación de análisis multivariados complicados no son fáciles.
Sesgo de observador o sujeto como variable de confusión
En muchos estudios, el posible sesgo de los investigadores es una de las variables de confusión más importantes. Encontrar un resultado estadísticamente significativo es casi siempre más interesante que no encontrar una diferencia, por lo que es necesario estar constantemente en guardia para controlar los efectos de este sesgo. La mejor manera de hacerlo es cegándote a ti mismo, para que no sepas qué individuos recibieron el tratamiento y cuáles obtuvieron el control. Volviendo a nuestro experimento de aceite de hierba gatera y mosquitos, si sabes que Alice consiguió aceite de hierba gatera y Bob no lo hizo, tu lenguaje corporal subconsciente y tono de voz cuando hablas con Alice podría implicar “No recibiste muchas picaduras de mosquitos, ¿verdad? Eso significaría que el mundo finalmente sabrá lo genio que soy por inventar esto”, y podrías escudriñar cuidadosamente cada bulto rojo y decidir que algunas de ellas eran picaduras de araña o hiedra venenosa, no picaduras de mosquitos. Con Bob, quien recibió el placebo, podrías inconscientemente insinuar “Pobre Bob—apuesto a que tienes un montón de picaduras de mosquito, ¿no? Cuanto más tienes, más genio soy” y es más probable que cuentes cada indicio de un bulto en la piel de Bob como una picadura de mosquito. Idealmente, los sujetos tampoco deberían saber si recibieron el tratamiento o placebo, para que no puedan darte el resultado que deseas; esto es especialmente importante para variables subjetivas como el dolor. Por supuesto, mantener ciegos a los sujetos de este experimento imaginario en particular sobre si están frotando aceite de hierba gatera en su piel va a ser duro, porque el gato de Alice sigue lamiendo el brazo de Alice y luego actuando apedreada.