2.5: Correlación y causalidad, Gráficas de dispersión
- Page ID
- 110018
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)La etiqueta en una lata de Planters Cocktail Peanuts dice: “La evidencia científica sugiere pero no prueba que comer 1.5 onzas al día de la mayoría de los frutos secos, como el maní, como parte de una dieta baja en grasas saturadas y colesterol y que no resulte en una mayor ingesta calórica puede reducir el riesgo de enfermedades cardíacas. Ver información nutricional para el contenido de grasa (1.5 oz. es de aproximadamente 53 piezas).” ¿Por qué está escrito de esta manera y qué significa esta afirmación? Existen muchos estudios que muestran que dos variables están relacionadas entre sí. La fuerza de una relación entre dos variables se denomina correlación. Las variables que están fuertemente relacionadas entre sí tienen una fuerte correlación. Sin embargo, si se correlacionan dos variables no significa que una variable causó que se produjera la otra variable. El ejemplo anterior de la etiqueta Planters Cocktail Peanuts es un ejemplo de ello. Existe una fuerte correlación entre comer una dieta baja en grasas saturadas y colesterol y enfermedades cardíacas. Pero esa correlación no significa que comer una dieta baja en grasas saturadas y colesterol hará que baje tu riesgo de padecer enfermedades cardíacas. Podría haber muchas variables diferentes que podrían hacer que ambas variables en cuestión bajen o suban. Un ejemplo es que la composición genética de una persona podría hacer que no quiera comer alimentos grasos y tampoco desarrollar enfermedades cardíacas. No importa cuán fuerte sea una correlación entre dos variables, nunca se puede saber con certeza si una variable hace que la otra variable ocurra sin realizar experimentación. La única manera de saber si comer una dieta baja en grasas saturadas y colesterol realmente disminuye el riesgo de enfermedades cardíacas es hacer un experimento. Aquí es donde le dices a un grupo de personas que tienen que comer una dieta baja en grasas saturadas y colesterol y a otro grupo de personas que tienen que comer una dieta alta en grasas saturadas y colesterol, para luego observar lo que les sucede a ambos grupos a lo largo de los años. No se puede hacer moralmente este experimento, así que no hay forma de probar la afirmación. Es por ello que la palabra “mayo” está en el comunicado. Vemos muchas correlaciones como esta. Siempre asegúrese de no hacer una declaración de correlación en una declaración de causalidad.
Ejemplo\(\PageIndex{1}\): Correlación vs causalidad
Para cada uno de los siguientes escenarios responde la pregunta y da un ejemplo de otra variable que podría explicar la correlación.
- Existe una correlación negativa entre el número de hijos que tiene una mujer y su esperanza de vida. ¿Significa eso que tener hijos hace que una mujer muera antes?
Una correlación entre dos variables no significa que una cause la otra. Una posible causa de ambas variables podría ser un mejor cuidado de la salud. Si hay una mejor atención de salud, entonces la esperanza de vida sube, y también con una mejor atención médica el control de la natalidad está más fácilmente disponible.
- Existe una correlación positiva entre la venta de helados y el número de ahogamientos en la playa. ¿Significa eso que comer helado puede hacer que una persona se ahogue?
Una correlación entre dos variables no significa que una cause la otra. La causa de ambos podría ser que la temperatura esté subiendo. Cuanto mayor sea la temperatura, más probable es que alguien compre helado y más gente en la playa.
- Existe una correlación entre las medidas de cintura y las medidas de muñeca. ¿Significa esto que la medida de tu cintura hace que la medición de tu muñeca cambie?
Una correlación entre dos variables no significa que una cause la otra. La causa de ambos podría ser la genética de una persona, los hábitos alimenticios, los hábitos de ejercicio, etc.
¿Cómo sabemos si hay correlación entre dos variables? La forma más fácil es graficar las dos variables juntas como pares ordenados en una gráfica llamada gráfica de dispersión. Para crear un diagrama de dispersión, considere que una variable es la variable independiente y la otra es la variable dependiente. Esto significa que la variable dependiente depende de la variable independiente. Usualmente configuramos estas dos variables como pares ordenados donde la variable independiente es la primera y la variable dependiente es la segunda. Así, cuando se grafica, la variable independiente se grafica a lo largo del eje horizontal y la variable dependiente se grafica a lo largo del eje vertical. No conecta los puntos después de trazar estos pares ordenados. En su lugar, mire para ver si hay un patrón, como una línea, que se ajuste bien a los datos. Aquí hay algunos ejemplos de gráficos de dispersión y qué tan fuerte es la correlación lineal entre las dos variables.
Crear una gráfica de dispersión no es difícil. Solo asegúrate de configurar tus ejes con escalado antes de comenzar a trazar los pares ordenados.
Ejemplo\(\PageIndex{2}\): Creación de un gráfico de dispersión
Se han recolectado datos sobre la esperanza de vida y la tasa de fecundidad en diferentes países (“Ranking Mundial de Salud”, 2013). Se tomó una muestra aleatoria de 10 países, y los datos son:
País | Esperanza de vida (años) | Tasa de fecundidad (número de hijos por madre) |
SINGAPUR | 82.3 | 1.1 |
MÓNACO | 81.9 | 1.8 |
CANADÁ | 81.5 | 1.6 |
ECUADOR | 76 | 2.5 |
MALASIA | 73.9 | 3 |
LITUANIA | 73.8 | 1.2 |
BELIZE | 73.6 | 3.4 |
ARGELINA | 73 | 1.8 |
TRINIDAD/TOB. | 70.8 | 1.7 |
TAYIKISTÁN | 67.9 | 3 |
Para hacer el diagrama de dispersión, hay que decidir qué variable es la variable independiente y cuál es la variable dependiente. A veces es obvio qué variable es cuál, y en algunos casos no parece ser obvia. En este caso, parece tener más sentido predecir lo que está haciendo la esperanza de vida con base en la tasa de fertilidad, así que elige la esperanza de vida para que sea la variable dependiente y la tasa de fertilidad para que sea la variable independiente. El eje horizontal necesita abarcar 1.1 a 3.4, así que tenga un rango de cero a cuatro, con marcas de graduación cada una de las unidades. El eje vertical necesita abarcar los números 70.8 a 81.9, así que tenga un rango de cero a 90, y tener marcas de graduación cada 10 unidades.
Nota: Siempre inicia el eje vertical en cero para evitar exagerar los datos.
Gráfica 2.5.3: Gráfica de dispersión de la esperanza de vida versus tasa de fertilidad
De la gráfica, se puede ver que hay algo así como una tendencia a la baja, pero no es prominente. Lo que esto dice es que a medida que aumenta la tasa de fertilidad disminuye la esperanza de vida. La tendencia no es fuerte lo que podría deberse a la falta de datos suficientes o esto podría representar la relación real entre estas dos variables. Veamos cómo se ve el diagrama de dispersión con datos de todos los países en 2013 (“Ranking Mundial de Salud”, 2013).
Gráfica 2.5.4: Gráfica de dispersión de la esperanza de vida versus tasa de fecundidad para todos los países en 2013
Nuevamente, hay una tendencia a la baja. Se ve un poco más fuerte que el gráfico de dispersión anterior y la tendencia parece más obvia. Esta correlación probablemente se consideraría correlación negativa moderada. Parece que hay una tendencia a que cuanto mayor es la tasa de fertilidad, menor es la esperanza de vida. Precaución: solo porque existe una correlación entre mayor tasa de fertilidad y menor esperanza de vida, no asumas que tener menos hijos significará que una persona viva más tiempo. La tasa de fecundidad no necesariamente provoca que cambie la esperanza de vida. Hay muchos otros factores que podrían influir en ambos, como la atención médica y la educación. Recuerde que una correlación no implica causalidad.