Saltar al contenido principal
LibreTexts Español

15.3: Correlación

  • Page ID
    93877
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Algunas variables tienden a estar relacionadas. Las personas más altas tienden a pesar más que las personas más bajas. Las personas con más educación tienden a ganar más que las personas con menos. Los fumadores tienden a tener más ataques cardíacos que los no fumadores. Hay excepciones, pero “en promedio” estas afirmaciones son ciertas.

    Son muchos los casos en los que queremos saber en qué medida se relacionan dos variables. ¿Cuál es la relación entre la cantidad de cigarrillos que fuma alguien y sus posibilidades de contraer cáncer de pulmón? ¿Existe alguna relación entre los años de escolaridad y el ingreso promedio de los adultos? ¿Cuál es la conexión entre la asistencia a clase y las calificaciones en este curso? Aprender las respuestas a tales preguntas es importante para descubrir cómo lograr nuestros objetivos (“Dado que las posibilidades de contraer cáncer aumentan mucho, intentaré dejar de fumar aunque realmente lo disfruto”).

    La correlación es una medida del grado con el que se relacionan dos variables, el grado con el que varían juntas (“covales”). Si dos cosas tienden a ir juntas, entonces hay una correlación positiva entre ellas. Por ejemplo, la estatura y el peso de las personas están correlacionados positivamente; en general, mayor estatura significa mayor peso. Por otro lado, si dos cosas tienden a variar inversamente existe una correlación negativa entre ellas. Por ejemplo, los años de escolaridad y los días pasados en prisión se correlacionan negativamente; en general, más años de escolaridad significa menos tiempo en la cárcel. Y si dos cosas están completamente desrelacionadas, no están correlacionadas en absoluto.

    Las correlaciones entre variables son extremadamente importantes en la predicción. Si conocieras las alturas de todos los alumnos de tu clase de razonamiento crítico, podrías hacer predicciones más precisas sobre el peso de cada alumno que si no supieras sus alturas. Seguirías cometiendo algunos errores, pero en promedio tus predicciones serían más precisas.

    Existe una fórmula para calcular correlaciones, y los valores resultantes son números entre +1.0 (para correlación positiva completa) y 10 (para una correlación negativa completa); una correlación de 0 significa que no hay patrón de relación entre las dos variables. Esto permite hablar de manera muy precisa sobre correlaciones. No nos preocuparemos por tal precisión aquí, sin embargo, sino que simplemente nos centraremos en las ideas básicas.

    Correlación y Probabilidad

    Podríamos aplicar las cosas que aprendimos sobre probabilidad para cubrir todos los casos de correlación, pero aquí solo obtendremos la idea general considerando el caso de dos variables dicotómicas (variables que solo tienen dos valores).

    Considera la variable tabaquismo y sus dos valores, fumador y no fumador, y la variable infarto y son dos valores, tener un infarto y no tener un infarto. Las dos variables no son independientes. Los fumadores tienen más probabilidades que los no fumadores de sufrir ataques cardíacos, por lo que existe una correlación positiva entre el tabaquismo y los ataques cardíacos. Esto significa que Pr (H|S) > Pr (H) > Pr (H |~S). O en palabras, la propiedad de tener corazón ocurre a un ritmo mayor en un grupo (fumadores) que en otro grupo (personas en general, así como el grupo de personas que no fuman). Entonces, la correlación compara la velocidad a la que ocurre una propiedad (como tener un ataque cardíaco) en dos grupos diferentes.

    Si la correlación fuera negativa, tendríamos Pr (H|S) < Pr (H). Y si no hubiera correlación alguna, las dos variables serían independientes entre sí, es decir, Pr (H|S) = Pr (H). La correlación es simétrica. Eso quiere decir que es una calle de doble sentido. Si S se correlaciona positivamente con H, entonces H se correlaciona positivamente con S, y de manera similar para correlaciones negativas y para no correlaciones. En cuanto a probabilidades esto significa que si Pr (A|B) > Pr (A), entonces Pr (B|A) > Pr (B) (ejercicio para expertos: probar esto).

    La correlación es comparativa

    El afirmar que existe una correlación positiva entre fumar y tener un ataque al corazón no significa que un fumador tenga muchas probabilidades de sufrir un ataque al corazón. Ni siquiera significa que un fumador tenga más probabilidades que no de sufrir un ataque al corazón. La mayoría de las personas no van a tener ataques cardíacos aunque fumen.

    La afirmación de que existe una correlación positiva entre fumar y tener un ataque cardíaco simplemente significa que hay más víctimas de ataques cardíacos entre los fumadores que entre los no fumadores.

    Captura de pantalla (85) .png
    Figura\(\PageIndex{1}\): Pensando en Correlaciones

    Una buena manera de hacerse una idea aproximada de la correlación entre dos variables es rellenar algunos números en la tabla de la Figura 15.3.1. Tiene cuatro celdas. El + significa la presencia de una característica (fumar, tener un ataque al corazón) y el - significa no tener esa característica (ser un no fumador, no tener un ataque al corazón). Entonces, la célula en la parte superior izquierda representa a personas que son fumadores y sufren ataques cardíacos, la célula en la parte inferior izquierda representa a personas que no fuman pero que de todos modos tienen infartos, y así sucesivamente. Entonces podríamos hacer una encuesta y rellenar números en cada una de las cuatro celdas.

    El punto clave a recordar es que el tabaquismo y los ataques cardíacos se correlacionan por si acaso Pr (S|H) > Pr (S|~H). Entonces, no se puede determinar si están correlacionados simplemente mirando a Pr (S|H). Este número podría ser alto simplemente porque la probabilidad de sufrir un ataque cardíaco es alta para todos, fumadores y no fumadores por igual. La correlación es comparativa: se debe comparar Pr (S|H) con Pr (S|~H) para determinar si el tabaquismo y los ataques cardíacos están correlacionados o no.

    Captura de pantalla (86) .png
    Figura\(\PageIndex{2}\): Correlación entre el tabaquismo y los infartos

    Diagramas comparativos para ilustrar la correlación

    Una de las formas más fáciles de entender los fundamentos de la correlación es usar un diagrama como el de la Figura 15.3.2. Diagramas como este son más toscos y listos que el diagrama anterior, pero son más fáciles de dibujar. Los porcentajes son hipotéticos y simplemente se utilizan con fines ilustrativos. Aquí suponemos que el porcentaje de fumadores que sufren ataques cardíacos es del 30%, y que el porcentaje de no fumadores que sufren ataques cardíacos es del 20% (estos números redondos se eligen para facilitar el ejemplo; no son los porcentajes reales).

    En este diagrama comparativo, la línea horizontal en la columna de fumadores indica que 30% de todos los fumadores sufren ataques cardíacos, y la línea horizontal inferior en la columna de no fumadores indica que 20% de los no fumadores sufren ataques cardíacos.

    Captura de pantalla (87) .png
    Figura\(\PageIndex{3}\): Una correlación positiva más fuerte

    El hecho de que la línea porcentual sea mayor en la columna de fumadores que en la columna de no fumadores indica una correlación positiva entre ser fumador y tener un ataque cardíaco. Es la relación entre estas dos líneas horizontales lo que significa una correlación positiva. De igual manera, el hecho de que la línea porcentual sea menor en la columna de no fumadores indica que existe una correlación negativa entre ser no fumador y tener un ataque al corazón. Cuanto más separadas estén las líneas en un diagrama como este, más fuerte será la correlación. Entonces, la Figura 15.3.3 ilustra una correlación positiva aún más fuerte entre el tabaquismo y los ataques cardíacos.

    Captura de pantalla (88) .png
    Figura\(\PageIndex{4}\): Independencia entre el tabaquismo y los ataques cardíacos

    Por último, si las líneas fueran en cambio de la misma altura, digamos al 30% (como en la Figura 15.3.4), fumar y tener un infarto serían independientes entre sí: no estarían correlacionadas, ni positiva ni negativamente.

    Observe que para dibujar dichos diagramas no es necesario conocer porcentajes exactos. Solo necesitas saber qué columna debe tener el porcentaje más alto, es decir, la línea horizontal más alta.

    Correlación y causalidad

    Las correlaciones suelen apuntar a causas; son evidencia de afirmaciones sobre qué causa qué. Cuando dos variables, como fumar y tener un ataque al corazón, covaramos sospechamos que debe haber alguna razón para su correlación— seguramente algo debe hacer que vayan juntos. Pero la correlación no es lo mismo que la causalidad. Por un lado, la correlación es simétrica (fumar y los ataques cardíacos se correlacionan entre sí), pero la causalidad es una calle unidireccional (fumar causa ataques cardíacos, pero los ataques cardíacos rara vez hacen que las personas fumen). Entonces, solo encontrar una correlación positiva no nos dice qué causa qué.

    Cuando el pediatra de su hijo dice: “Manchas como esta suelen significar sarampión”, están confiando en una correlación positiva entre la presencia de manchas y tener sarampión. Sabemos que las manchas no causan el sarampión, y el sentido común sugiere que el sarampión causa las manchas. Pero a veces las variables se correlacionan entre sí incluso cuando ninguna de ellas tiene ninguna influencia causal en la otra. Por ejemplo, cada primavera me empiezan a picar los ojos y uno o dos días después tengo episodios de estornudar. Pero los ojos que pican no provocan los estornudos; estos dos síntomas son el efecto conjunto de un tercer factor, las alergias al polen, que los provoca a ambos (Figura 15.3.5).

    De igual manera, existe una correlación positiva entre un barómetro de caída y una tormenta pluvial, pero ninguno causa el otro. Ambos son causados por un frente frío que se aproxima. Entonces, a veces las variables se correlacionan porque tienen una causa común, más que porque cualquiera causa la otra. Hay muchos ejemplos de correlaciones entre cosas que son efectos de alguna tercera causa común. Las puntuaciones de gemelos idénticos criados en entornos muy diferentes se correlacionan en múltiples variables conductuales como introversión— extroversión. Si los gemelos fueron separados al nacer y criados separados, el alto grado de extroversión de un gemelo no puede ser la causa de la extroversión del otro. En este caso, sus altos grados de extroversión son efectos conjuntos de una tercera cosa —una causa común — a saber, tener el mismo genotipo (composición genética).

    Captura de pantalla (89) .png
    Figura\(\PageIndex{5}\): Causas comunes

    Algunos voceros tempranos (todos eran hombres en aquellos días) de las tabacaleras intentaron convencer al público de que algo similar era cierto en el caso de fumar. Instaron a que el tabaquismo y los ataques cardíacos se correlacionen porque son efectos comunes de algún tercer factor. La composición genética de algunas personas, sugirieron los voceros, ambas las llevaron a fumar y las hicieron más susceptibles a las enfermedades cardíacas. A pesar de muchas investigaciones, nunca se encontró una causa genética común para el tabaquismo y el cáncer, pero la investigación fue necesaria para excluir esta posibilidad. Nunca podemos descartar la posibilidad de causas comunes sin observaciones empíricas.

    En muchos casos, es difícil determinar qué causa qué, incluso cuando sabemos mucho de correlaciones. Por ejemplo, a fines de la década de 1990, bajó la tasa de delitos violentos en muchas ciudades de Estados Unidos. La caída estuvo acompañada de varios factores, por ejemplo, más policías al ritmo, leyes de sentencia más duras, diversos programas educativos. Así, existe una correlación (negativa) entre número de policías y número de delitos, entre sentencias más duras y número de delitos (más policías, menos delitos), y así sucesivamente. Pero hay mucho debate sobre qué causó la caída del crimen (naturalmente, todos los involucrados quieren tomar el crédito por ello). Por supuesto, puede ser que cada uno de estos factores, por ejemplo, más policías, aumento de la educación, jugaron algún papel causal. Es muy difícil determinar cuánta diferencia hace cada uno de los factores, pero tenemos que hacerlo, si vamos a implementar medidas efectivas para reducir la delincuencia.

    También se sabe que la autoestima y la depresión están correlacionadas negativamente. La baja autoestima tiende a ir con depresión. Pero, ¿qué causa qué? Una baja autoestima bien podría conducir a la depresión, pero la depresión también podría disminuir la autoestima. Por supuesto, aquí podría haber un círculo vicioso, donde cada condición empeora a la otra. Pero también es posible que haya alguna tercera causa, por ejemplo, un bajo nivel de neurotransmisores en el cerebro, o eventos negativos en la vida de uno.

    Como muestran estos ejemplos, encontrar causas suele ser importante para abordar problemas graves como la delincuencia y la depresión. Pero si bien las correlaciones con frecuencia se pueden detectar mediante una observación cuidadosa, rastrear las causas suele ser mucho más difícil. Se realiza mejor en un entorno experimental, donde podemos controlar la influencia de las variables relevantes.

    Estadísticas de correlación e inferenciales

    Una vez que determinamos si dos variables están correlacionadas en una muestra, es posible que queramos hacer inferencias sobre si están correlacionadas en la población. Aquí, el material anterior en este capítulo sobre estadísticas inferenciales es relevante.

    Ejercicios

    1. Identificar si la correlación entre los siguientes pares de variables es fuerte, moderada o débil, y en aquellos casos que no involucren variables dicotómicas, identificar si la correlación es positiva o negativa. Defiende tu respuesta (si no estás seguro de la respuesta, explica qué información adicional necesitarías para descubrirla); en cada caso, piensa en los números como características de medición de adultos en Estados Unidos:
      1. altura y peso
      2. peso y altura
      3. peso e ingesta calórica
      4. peso e ingresos
      5. peso y puntaje en el ACT
      6. peso y cantidad de ejercicio
      7. peso y género
      8. años de escolaridad e ingresos
    2. Tener esquizofrenia y pertenecer a una familia disfuncional están correlacionados positivamente. Enumere varias causas posibles para esta correlación. ¿Qué pruebas podrían determinar qué posibles causas están realmente en juego?
    3. ¿Cómo podría determinar si ver programas de televisión que representan violencia y cometer actos violentos están correlacionados en niños menores de diez años? Supongamos que fueron: ¿qué posibles causas podrían explicar esta correlación?
    4. Muchos delincuentes provienen de hogares monoparentales. Explica en detalle lo que necesitarías saber para determinar si realmente existe una correlación entre ser un delincuente y venir de un hogar monoparental. Entonces explica qué más necesitarías saber para tener alguna opinión sólida sobre si venir de un hogar monoparental hace que las personas se conviertan en delincuentes.
    5. ¿Cómo evaluaría la afirmación de que existe una fuerte correlación positiva entre fumar marihuana y meterse en problemas con la ley?
    6. A menudo escuchamos sobre el poder del pensamiento positivo, y cómo las personas que tienen una actitud buena y positiva tienen más posibilidades de recuperarse de muchas enfermedades graves. ¿Qué afirmación hace esto sobre las correlaciones? ¿Cómo harías para evaluar esta afirmación?
    7. Supongamos que el 30% de los que fuman mariguana se meten en problemas con la ley, y el 70% no. Supongamos además que 27% de quienes no fuman mariguana se meten en problemas con la ley y 73% no. Cuáles son los valores de Pr (T|M) y Pr (T|~M). ¿Se correlacionan fumar marihuana y meterse en problemas con la ley? Si es así, ¿la correlación es positiva o negativa? ¿Parece ser grande o pequeña?
    8. Supongamos que obtenemos las siguientes estadísticas para la clase de graduación de la preparatoria de Wilbur: 46 de los alumnos (este es el número real de estudiantes, no un porcentaje) que fumaban marihuana se metieron en problemas con la ley, y 98 no. Y 112 de los que no fumaron mariguana se metieron en problemas con la ley y 199 no. ¿Cuáles son los valores de Pr (T|M) y Pr (T|~M)? ¿Se correlacionan fumar marihuana y meterse en problemas con la ley? Si es así, ¿la correlación es positiva o negativa? ¿Parece ser grande o pequeña?
    9. Supongamos que el año pasado la patrulla vial en un estado cercano reportó lo siguiente: 10 personas fallecidas en accidentes automovilísticos llevaban cinturones de seguridad y 37 no llevaban cinturones de seguridad. Además, 209 personas que no fallecieron (sino que estuvieron involucradas) en accidentes llevaban sus cinturones de seguridad, mientras que 143 no los llevaban. ¿Esto da alguna evidencia de que los cinturones de seguridad impiden la muerte en caso de accidente? ¿Existe una correlación distinta de cero entre usar el cinturón de seguridad y morir en un accidente? Si es así, ¿es positivo o negativo, y cuál es el tamaño relativo (grande, moderado, pequeño)? Asegúrate de justificar tus respuestas.

    Extras para Expertos. Demostrar que la correlación positiva es simétrica. Es decir, probar que Pr (A|B) > Pr (A) por si acaso Pr (B|A) > Pr (B)


    This page titled 15.3: Correlación is shared under a CC BY-NC 4.0 license and was authored, remixed, and/or curated by Jason Southworth & Chris Swoyer via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.