Saltar al contenido principal
LibreTexts Español

12.7: Correlación versus causalidad

  • Page ID
    150748
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Cubrimos una gran cantidad de material en las estadísticas introductorias y, como se mencionó en el capítulo 1, muchos de los principios que subyacen a lo que hacemos en la estadística pueden ser utilizados en tu día a día para ayudarte a interpretar la información de manera objetiva y tomar mejores decisiones. Llegamos ahora a lo que puede ser la lección más importante en la estadística introductoria: la diferencia entre correlación y causalidad.

    Es muy, muy tentador mirar variables que están correlacionadas y asumir que esto significa que están relacionadas causalmente; es decir, da la impresión que\(X\) está causando\(Y\).

    No obstante, en realidad, la correlación no —y no puede— hacer esto. Las correlaciones NO prueban causalidad. No importa lo lógico, lo obvio o lo conveniente que pueda parecer, ningún análisis correlacional puede demostrar causalidad. La ÚNICA manera de demostrar una relación causal es con un experimento adecuadamente diseñado y controlado.

    Muchas veces, tenemos una buena razón para evaluar la correlación entre dos variables, y muchas veces esa razón será que sospechemos que una causa la otra. Así, cuando realizamos nuestros análisis y encontramos resultados fuertes y estadísticamente significativos, es muy tentador decir que encontramos la relación causal que buscamos. La razón por la que no podemos hacer esto es que, sin un diseño experimental que incluya variables de asignación aleatoria y de control, la relación que observamos entre las dos variables puede ser causada por otra cosa que no pudimos medir. Estas “terceras variables” son variables al acecho o variables confundidas, y son imposibles de detectar y controlar sin un experimento.

    Las variables confundidas, con las que representaremos\(Z\), pueden provocar dos variables\(X\) y\(Y\) que aparezcan relacionadas cuando en realidad no lo son. Esto lo hacen siendo la causa oculta —o al acecho— de cada variable independientemente. Es decir, si\(Z\) causas\(X\) y\(Z\) causas\(Y\), el\(X\) y\(Y\) parecerá estar relacionado. Sin embargo, si controlamos por el efecto de\(Z\) (el método para hacer esto está más allá del alcance de este texto), entonces la relación entre\(X\) y\(Y\) desaparecerá.

    Un ejemplo popular de este efecto es la correlación entre la venta de helados y las muertes por ahogamiento. Se sabe que estas variables se correlacionan muy fuertemente a lo largo del tiempo. Sin embargo, esto no prueba que uno cause el otro. La variable al acecho en este caso es el clima: la gente disfruta nadando y disfruta más comiendo helado durante el clima caluroso como una forma de refrescarse. Como otro ejemplo, considere el tamaño del zapato y la habilidad ortográfica en niños de primaria. Aunque claramente no debería haber relación causal aquí, las variables y, no obstante, se correlacionaron de manera consistente. ¿El confundido en este caso? Edad. Los niños mayores deletrea mejor que los niños más pequeños y también son más grandes, por lo que tienen zapatos más grandes.

    Cuando existe la posibilidad de que las variables de confusión sean la causa oculta de nuestra correlación observada, a menudo\(Z\) también recopilaremos datos y controlaremos para ello en nuestro análisis. Esta es una buena práctica y una cosa sabia que hagan los investigadores. Así, parecería que es fácil demostrar causalidad con una correlación que controle para\(Z\). Sin embargo, el número de variables que potencialmente podrían causar una correlación entre\(X\) y\(Y\) es funcionalmente ilimitado, por lo que sería imposible controlar para todo. Es por ello que utilizamos diseños experimentales; asignando aleatoriamente personas a grupos y manipulando variables en esos grupos, podemos equilibrar las diferencias individuales en cualquier variable que pueda ser nuestra causa.

    No siempre es posible hacer un experimento, sin embargo, por lo que hay ciertas situaciones en las que tendremos que estar satisfechos con nuestra relación observada y hacer lo mejor que podamos para controlar por confundidos conocidos. Sin embargo, en estas situaciones, aunque hagamos un excelente trabajo de control de muchas variables extrañas (un término estadístico y de investigación para “fuera”), debemos tener mucho cuidado de no usar el lenguaje causal. Eso se debe a que, incluso después de los controles, a veces las variables se relacionan solo por casualidad.

    En ocasiones, las variables terminarán estando relacionadas simplemente por casualidad aleatoria, y a estas correlaciones las llamamos espurias. Espurio solo significa aleatorio, entonces lo que estamos viendo son correlaciones aleatorias porque, dado el tiempo suficiente, suficientes variables y suficientes datos, el error de muestreo eventualmente hará que algunas variables se relacionen cuando no deberían. A veces, esto incluso resulta en correlaciones increíblemente fuertes, pero completamente absurdas. Esto se convierte cada vez más en un problema a medida que mejora nuestra capacidad para recopilar conjuntos de datos masivos y excavar a través de ellos, por lo que es muy importante pensar críticamente sobre cualquier relación que encuentre.


    This page titled 12.7: Correlación versus causalidad is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Foster et al. (University of Missouri’s Affordable and Open Access Educational Resources Initiative) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.