Causalidad

Última actualización
Guardar como PDF

Page ID: 151251

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $

$ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $

$ \newcommand{\dsum}{\displaystyle\sum\limits} $

$ \newcommand{\dint}{\displaystyle\int\limits} $

$ \newcommand{\dlim}{\displaystyle\lim\limits} $

$ \newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$

( \newcommand{\kernel}{\mathrm{null}\,}\) $ \newcommand{\range}{\mathrm{range}\,}$

$ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$

$ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$

$ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$ \newcommand{\Span}{\mathrm{span}}$

$ \newcommand{\id}{\mathrm{id}}$

$ \newcommand{\Span}{\mathrm{span}}$

$ \newcommand{\kernel}{\mathrm{null}\,}$

$ \newcommand{\range}{\mathrm{range}\,}$

$ \newcommand{\RealPart}{\mathrm{Re}}$

$ \newcommand{\ImaginaryPart}{\mathrm{Im}}$

$ \newcommand{\Argument}{\mathrm{Arg}}$

$ \newcommand{\norm}[1]{\| #1 \|}$

$ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\AA}{\unicode[.8,0]{x212B}}$

$ \newcommand{\vectorA}[1]{\vec{#1}} % arrow$

$ \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$

$ \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $

$ \newcommand{\vectorC}[1]{\textbf{#1}} $

$ \newcommand{\vectorD}[1]{\overrightarrow{#1}} $

$ \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} $

$ \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} $

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $

$\newcommand{\longvect}{\overrightarrow}$

$ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $

$\newcommand{\avec}{\mathbf a}$ $\newcommand{\bvec}{\mathbf b}$ $\newcommand{\cvec}{\mathbf c}$ $\newcommand{\dvec}{\mathbf d}$ $\newcommand{\dtil}{\widetilde{\mathbf d}}$ $\newcommand{\evec}{\mathbf e}$ $\newcommand{\fvec}{\mathbf f}$ $\newcommand{\nvec}{\mathbf n}$ $\newcommand{\pvec}{\mathbf p}$ $\newcommand{\qvec}{\mathbf q}$ $\newcommand{\svec}{\mathbf s}$ $\newcommand{\tvec}{\mathbf t}$ $\newcommand{\uvec}{\mathbf u}$ $\newcommand{\vvec}{\mathbf v}$ $\newcommand{\wvec}{\mathbf w}$ $\newcommand{\xvec}{\mathbf x}$ $\newcommand{\yvec}{\mathbf y}$ $\newcommand{\zvec}{\mathbf z}$ $\newcommand{\rvec}{\mathbf r}$ $\newcommand{\mvec}{\mathbf m}$ $\newcommand{\zerovec}{\mathbf 0}$ $\newcommand{\onevec}{\mathbf 1}$ $\newcommand{\real}{\mathbb R}$ $\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$ $\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$ $\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$ $\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$ $\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$ $\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$ $\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$ $\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$ $\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$ $\newcommand{\laspan}[1]{\text{Span}\{#1\}}$ $\newcommand{\bcal}{\cal B}$ $\newcommand{\ccal}{\cal C}$ $\newcommand{\scal}{\cal S}$ $\newcommand{\wcal}{\cal W}$ $\newcommand{\ecal}{\cal E}$ $\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$ $\newcommand{\gray}[1]{\color{gray}{#1}}$ $\newcommand{\lgray}[1]{\color{lightgray}{#1}}$ $\newcommand{\rank}{\operatorname{rank}}$ $\newcommand{\row}{\text{Row}}$ $\newcommand{\col}{\text{Col}}$ $\renewcommand{\row}{\text{Row}}$ $\newcommand{\nul}{\text{Nul}}$ $\newcommand{\var}{\text{Var}}$ $\newcommand{\corr}{\text{corr}}$ $\newcommand{\len}[1]{\left|#1\right|}$ $\newcommand{\bbar}{\overline{\bvec}}$ $\newcommand{\bhat}{\widehat{\bvec}}$ $\newcommand{\bperp}{\bvec^\perp}$ $\newcommand{\xhat}{\widehat{\xvec}}$ $\newcommand{\vhat}{\widehat{\vvec}}$ $\newcommand{\uhat}{\widehat{\uvec}}$ $\newcommand{\what}{\widehat{\wvec}}$ $\newcommand{\Sighat}{\widehat{\Sigma}}$ $\newcommand{\lt}{<}$ $\newcommand{\gt}{>}$ $\newcommand{\amp}{&}$ $\definecolor{fillinmathshade}{gray}{0.9}$

CO-1: Describir los roles que la bioestadística desempeña en la disciplina de la salud pública.

Video

Video: Causalidad (8:45)

Introducción

Objetivos de aprendizaje

LO 1.6: Reconocer la distinción entre asociación y causalidad.

Objetivos de aprendizaje

LO 1.7: Identificar posibles variables de acecho para explicar una relación observada.

Hasta ahora hemos discutido diferentes formas en las que los datos pueden ser utilizados para explorar la relación (o asociación) entre dos variables. Para enmarcar nuestra discusión seguimos la tabla de clasificación de tipo rol:

Es posible que cualquier tipo de variable explicativa se empareja con cualquier tipo de variable de respuesta. Los posibles emparejamientos son: Explicativo Categórico → Respuesta Categórica (C→C), Explicativo Categórico → Respuesta Cuantitativa (C→Q), Explicativo Cuantitativo → Respuesta Categórica (Q→C) y Explicativo Cuantitativo → Respuesta Cuantitativa (Q→Q).

Ya hemos terminado de aprender a explorar la relación en los casos C→Q, C→C y Q→Q. (Como se señaló anteriormente, el caso Q→C no se discutirá en este curso).

Cuando exploramos la relación entre dos variables, a menudo existe la tentación de concluir a partir de la relación observada que los cambios en la variable explicativa provocan cambios en la variable respuesta. Es decir, podrías estar tentado a interpretar la asociación observada como causalidad.

¡El propósito de esta parte del curso es convencerte de que este tipo de interpretación suele estar equivocada! El lema de esta sección es uno de los principios más fundamentales de este curso:

PALABRAS PARA VIVIR: ¡El análisis estadístico por sí solo nunca probará causalidad

PRINCIPIO: ¡Asociación no implica causalidad!

Lectura Exterior: Causa y Efecto (≈ 1700 palabras)

Empecemos por mirar el siguiente ejemplo:

EJEMPLO: Daños

El diagrama de dispersión a continuación ilustra cómo el número de bomberos enviados a incendios (X) se relaciona con la cantidad de daños causados por los incendios (Y) en una ciudad determinada.

Un diagrama de dispersión en el que el eje horizontal está etiquetado como “# De Bomberos”, y el eje vertical está etiquetado como “Daño ($)”. El eje vertical oscila entre $0 y $2500000 y el eje horizontal oscila entre 0 y 40.

La gráfica de dispersión muestra claramente una relación positiva bastante fuerte (ligeramente curvada) entre las dos variables. ¿Sería, entonces, razonable concluir que enviar más bomberos a un incendio causa más daños, o que la ciudad debería enviar menos bomberos a un incendio, a fin de disminuir la cantidad de daños causados por el incendio? ¡Por supuesto que no! Entonces, ¿qué está pasando aquí?

Hay una tercera variable en el fondo —la gravedad del fuego— que es responsable de la relación observada. Los incendios más graves requieren más bomberos, y también causan más daños.

La siguiente figura te ayudará a visualizar esta situación:

Un diagrama de flujo. La "gravedad del fuego” es una “variable al acecho”. Esta es una causa tanto de “Número de bomberos (X)” como de “cantidad de daños (Y)” Hemos observado falsamente una “asociación observada” entre “Número de bomberos (X)" y “Cantidad de daños (Y)”

Aquí, la gravedad del fuego es una variable al acecho. Una variable al acecho es una variable que no se encuentra entre las variables explicativas o de respuesta en un estudio, pero que podría afectar sustancialmente su interpretación de la relación entre esas variables.

Aquí tenemos las siguientes tres relaciones:

El daño aumenta con el número de bomberos
Número de bomberos aumenta con la severidad del incendio
El daño aumenta con la severidad del fuego
De esta manera, el incremento de los daños con el número de bomberos puede explicarse parcial o totalmente por la severidad del incendio.

En particular, como en nuestro ejemplo, la variable al acecho podría tener un efecto tanto en las variables explicativas como en las de respuesta. Este efecto común crea la asociación observada entre las variables explicativas y de respuesta, aunque no existe un vínculo causal entre ellas. Esta posibilidad, de que pueda haber una variable al acecho (en la que quizás no estemos pensando) que sea responsable de la relación observada lleva a nuestro principio:

PRINCIPIO: ¡Asociación no implica causalidad!

El siguiente ejemplo ilustrará otra forma en la que una variable acechante podría interferir y evitar que lleguemos a conclusiones causales.

EJEMPLO: Prueba SAT

Para colegios y universidades de Estados Unidos, un examen de ingreso estándar es el examen SAT. Las gráficas de caja lado a lado a continuación proporcionan evidencia de una relación entre el país de origen del estudiante (Estados Unidos u otro país) y el puntaje SAT Math del estudiante.

Un diagrama de caja lado a lado. El eje vertical está etiquetado como “SAT Math Score”, y oscila entre 450 y 800. El eje horizontal está etiquetado como “País” y tiene dos categorías, “Otro” y “US”.

La distribución de los puntajes de los estudiantes internacionales es mayor que la de los estudiantes estadounidenses. La puntuación media de los estudiantes internacionales (alrededor de 700) supera el tercer cuartil de los puntajes de los estudiantes estadounidenses. ¿Podemos concluir que el país de origen es la causa de la diferencia en los puntajes SAT Math, y que los estudiantes en Estados Unidos son más débiles en matemáticas que los estudiantes de otros países?

No, no necesariamente. Si bien podría ser cierto que los estudiantes estadounidenses difieren en la habilidad matemática de otros estudiantes —es decir, debido a diferencias en los sistemas educativos—, no podemos concluir que el país de origen de un estudiante sea la causa de la disparidad. Una variable importante al acecho que podría explicar la relación observada es el nivel educativo de las dos poblaciones que toman el examen SAT Math. En Estados Unidos, el SAT es una prueba estándar, y por lo tanto una amplia sección transversal de todos los estudiantes estadounidenses (en términos de nivel educativo) toman esta prueba. Entre todos los estudiantes internacionales, por otro lado, solo los que planean venir a Estados Unidos a estudiar, que suele ser un subgrupo más seleccionado, toman la prueba.

La siguiente figura te ayudará a visualizar esta explicación:

Un diagrama de flujo. Tenemos dos causas, una de las cuales es “Nivel educativo de los Tomadores del SAT”. Esta es una “variable al acecho" La otra causa es “Nacionalidad (X)”. Ambos podrían ser causas de "puntaje SAT-Math (Y)”. Se ha observado una asociación entre “Nacionalidad (X)” y “SAT-Math Score (Y)”. Observe que entre estas dos variables también existe una relación de causa sospechosa.

Aquí, la variable explicativa (X) puede tener una relación causal con la variable respuesta (Y), pero la variable al acecho también podría ser un factor contribuyente, lo que hace muy difícil aislar el efecto de la variable explicativa y demostrar que tiene un vínculo causal con la variable de respuesta . En este caso, decimos que la variable al acecho se confunde con la variable explicativa, ya que sus efectos sobre la variable de respuesta no pueden distinguirse entre sí.

Obsérvese que en cada uno de los dos ejemplos anteriores, la variable al acecho interactúa de manera diferente con las variables estudiadas. En el ejemplo 1, la variable al acecho tiene un efecto tanto en las variables explicativas como en las de respuesta, creando la ilusión de que existe un vínculo causal entre ellas. En el ejemplo dos, la variable al acecho se confunde con la variable explicativa, lo que dificulta evaluar el efecto aislado de la variable explicativa sobre la variable de respuesta.

La distinción entre estos dos tipos de interacciones no es tan importante como el hecho de que en cualquier caso, la asociación observada puede explicarse al menos parcialmente por la variable al acecho. El mensaje más importante de estos dos ejemplos es, por lo tanto: Una asociación observada entre dos variables no es suficiente evidencia de que exista una relación causal entre ellas.

En otras palabras...

PRINCIPIO: ¡Asociación no implica causalidad!

Aprende haciendo: Causation

Paradoja de Simpson

Objetivos de aprendizaje

LO 1.8: Reconocer y explicar el fenómeno de la Paradoja de Simpson en relación con la interpretación de la relación entre dos variables.

Hasta el momento, tenemos:

discutió qué son las variables que acechan,
demostraron diferentes formas en las que las variables acechadas pueden interactuar con las dos variables estudiadas, y
entendió que la existencia de una posible variable al acecho es la razón principal por la que decimos que la asociación no implica causalidad.

Como recuerdas, una variable al acecho, por definición, es una variable que no se incluyó en el estudio, pero que podría tener un efecto sustancial en nuestra comprensión de la relación entre las dos variables estudiadas.

¿Y si incluimos una variable al acecho en nuestro estudio? ¿Qué tipo de efecto podría tener eso en nuestra comprensión de la relación? Estas son las preguntas que vamos a discutir a continuación.

Empecemos con un ejemplo:

EJEMPLO: Las tasas de mortalidad

Antecedentes: Un estudio gubernamental recopiló datos sobre las tasas de mortalidad en casi 6 mil hospitales en Estados Unidos. Estos resultados fueron luego cuestionados por investigadores, quienes dijeron que los análisis federales no lograron tomar en cuenta la variación entre hospitales en la gravedad de las enfermedades de los pacientes cuando fueron hospitalizados. En consecuencia, dijeron los investigadores, algunos hospitales fueron atendidos injustamente en los hallazgos, que nombraron hospitales con tasas de mortalidad más altas de lo esperado. Lo que los investigadores quisieron decir es que cuando el gobierno federal exploró la relación entre las dos variables —hospital y tasa de mortalidad—, también debería haber incluido en el estudio (o tomado en cuenta) la variable al acecho —gravedad de la enfermedad—.

Utilizaremos una versión simplificada de este estudio para ilustrar la afirmación de los investigadores y ver cuál podría ser el posible efecto de incluir una variable al acecho en un estudio. (Referencia: Moore y McCabe (2003). Introducción a la Práctica de la Estadística.)

Considere la siguiente tabla bidireccional, que resume los datos sobre el estado de los pacientes que fueron ingresados en dos hospitales de una ciudad determinada (Hospital A y Hospital B). Obsérvese que dado que el propósito del estudio es examinar si existe un “efecto hospitalario” en el estado de los pacientes, “Hospital es la variable explicativa, y “Estado del paciente” es la variable de respuesta.

Cuando complementamos la mesa bidireccional con los porcentajes condicionales dentro de cada hospital:

Se ha eliminado una tabla bidireccional con las mismas filas y columnas que la tabla bidireccional anterior, excepto la fila Total. Aquí están los datos en el mismo formato: Hospital A, Murió: 3%; Hospital A, Sobrevivió: 97%; Hospital A, Total: 100%; Hospital B, Murió: 2%; Hospital B, Sobrevivió: 98%; Hospital B, Total: 100%;

encontramos que el Hospital A tiene una tasa de mortalidad mayor (3%) que el Hospital B (2%). ¿Deberíamos saltar a la conclusión de que un paciente enfermo ingresado en el Hospital A tiene 50% más probabilidades de morir que si fuera ingresado en el Hospital B? No tan rápido...

A lo mejor el Hospital A recibe la mayoría de los casos graves, y eso explica por qué tiene una mayor tasa de mortalidad. Para explorar esto, necesitamos incluir (o dar cuenta) en nuestro análisis de la variable al acecho “severidad de la enfermedad”. Para ello, volvemos a la mesa de dos vías y la dividimos para mirar por separado a los pacientes que están gravemente enfermos, y a los pacientes que no lo están.

Como podemos ver, el Hospital A sí admitió muchos más pacientes gravemente enfermos que el Hospital B (1,500 vs. 200). De hecho, por la forma en que se dividieron los totales, vemos que en el Hospital A, los pacientes gravemente enfermos fueron una proporción mucho mayor de los pacientes —1,500 de un total de 2,100 pacientes. En contraste, solo 200 de los 800 pacientes del Hospital B estaban gravemente enfermos. Para ver mejor el efecto de incluir la variable al acecho, necesitamos complementar cada una de las dos nuevas tablas bidireccionales con sus porcentajes condicionales:

Nótese que a pesar de nuestro hallazgo anterior de que en general el Hospital A tiene una mayor tasa de mortalidad (3% vs. 2%), cuando tomamos en cuenta la variable al acecho, encontramos que en realidad es el Hospital B el que tiene la mayor tasa de mortalidad tanto entre los pacientes gravemente enfermos (4% vs. 3.8%) como entre los pacientes no gravemente enfermos (1.3% vs. 1%). Así, vemos que agregar una variable al acecho puede cambiar la dirección de una asociación.

Aquí tenemos las siguientes tres relaciones:

Un mayor porcentaje de pacientes del hospital A fallecieron en comparación con el hospital B.
Los pacientes que están gravemente enfermos tienen menos probabilidades de sobrevivir.
El Hospital A acepta pacientes más gravemente enfermos.
En este caso, después de un análisis más cuidadoso, vemos que una vez que damos cuenta de la gravedad de la enfermedad, ¡el hospital A en realidad tiene un porcentaje menor de pacientes que fallecieron que el hospital B en ambos grupos de pacientes!

Siempre que incluir una variable al acecho nos hace repensar la dirección de una asociación, esto se llama la paradoja de Simpson.

La posibilidad de que una variable al acecho pueda tener un efecto tan dramático es otra razón por la que debemos adherirnos al principio:

PRINCIPIO: ¡Asociación no implica causalidad!

Un último ejemplo: obtener una comprensión más profunda de la relación

No siempre ocurre que incluir una variable al acecho nos hace repensar la dirección de la asociación. En el siguiente ejemplo veremos cómo incluir una variable al acecho simplemente nos ayuda a obtener una comprensión más profunda de la relación observada.

EJEMPLO: Exámenes de ingreso

Como se discutió anteriormente, en Estados Unidos, el SAT es un examen de ingreso a la universidad ampliamente utilizado, requerido por las escuelas más prestigiosas. En algunos estados, prevalece un examen de ingreso a la universidad diferente, el ACT.

Tenga en cuenta que:

la variable explicativa es el porcentaje tomando el SAT,
la variable respuesta es la mediana del puntaje SAT Math, y
cada punto de datos en la gráfica de dispersión representa uno de los estados, así por ejemplo, en Illinois, en el año en que se recolectaron estos datos, 16% de los estudiantes tomaron el SAT Math, y su puntaje medio fue 528.

Observe que existe una relación negativa entre el porcentaje de alumnos que cursan el SAT en un estado, y la mediana del puntaje SAT Math en ese estado. ¿Cuál podría ser la explicación detrás de esta tendencia negativa? ¿Por qué el hecho de que más personas tomen el examen podría estar asociado con puntuaciones más bajas?

Tenga en cuenta que otra característica visible de los datos es la presencia de una brecha en el medio de la gráfica de dispersión, que crea dos clústeres distintos en los datos. Esto sugiere que tal vez haya una variable al acecho que separe a los estados en estos dos cúmulos, y que incluir esta variable al acecho en el estudio (como lo hicimos nosotros, al crear esta gráfica de dispersión etiquetada) nos ayudará a comprender la tendencia negativa.

Resulta que efectivamente, los clusters representan dos grupos de estados:

El “grupo azul” de la derecha representa a los estados donde el SAT es la prueba de elección para estudiantes y colegios.
El “grupo rojo” de la izquierda representa los estados donde se usa comúnmente el examen de ingreso a la universidad ACT.

Tiene sentido entonces, que en los “estados ACT” de la izquierda, un porcentaje menor de alumnos tome el SAT. Además, los estudiantes que sí cursan el SAT en los estados ACT son probablemente estudiantes que están postulando a colegios nacionales más prestigiosos, y por lo tanto representan a un grupo más selecto de estudiantes. Esta es la razón por la que vemos altas puntuaciones de SAT Math en este grupo.

Por otro lado, en los “estados SAT” de la derecha, mayores porcentajes de alumnos toman la prueba. Estos estudiantes representan una sección transversal mucho más amplia de la población, y por lo tanto vemos puntuaciones más bajas (más promedio) de SAT Math.

Para resumir: En este caso, incluir la variable al acecho “estado ACT” versus “estado SAT” nos ayudó a comprender mejor la relación negativa observada en nuestros datos.

Aprende haciendo: Variables de causalidad y acecho

¿Consiguió esto? : La paradoja de Simpson

Los dos últimos ejemplos nos mostraron que incluir una variable al acecho en nuestra exploración puede:

nos llevan a repensar la dirección de una asociación (como en el ejemplo Hospital/Tasa de Muerte) o,
nos ayudan a profundizar en la relación entre variables (como en el ejemplo SAT/ACT).

Resumimos

Una variable al acecho es una variable que no se incluyó en su análisis, pero que podría cambiar sustancialmente su interpretación de los datos si se incluían.

Debido a la posibilidad de variables al acecho, nos adherimos al principio de que la asociación no implica causalidad.

Incluir una variable al acecho en nuestra exploración puede:
- ayudarnos a obtener una comprensión más profunda de la relación entre variables, o
- nos llevan a repensar la dirección de una asociación (La paradoja de Simpson)

Siempre que incluir una variable al acecho nos hace repensar la dirección de una asociación, esta es una instancia de la paradoja de Simpson.

Search

Text Color

Text Size

Margin Size

Font Type

Objetivos de aprendizaje

Objetivos de aprendizaje

EJEMPLO: Daños

EJEMPLO: Prueba SAT

Objetivos de aprendizaje

EJEMPLO: Las tasas de mortalidad

EJEMPLO: Exámenes de ingreso