Saltar al contenido principal
Library homepage
 
LibreTexts Español

13.1: El coeficiente de correlación r

  • Page ID
    151015
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Al comenzar esta sección observamos que el tipo de datos con los que estaremos trabajando ha cambiado. Quizás desapercibido, todos los datos que hemos estado usando son para una sola variable. Puede ser de dos muestras, pero sigue siendo una variable univariada. El tipo de datos descritos en los ejemplos anteriores y para cualquier modelo de causa y efecto son datos bivariados — “bi” para dos variables. En realidad, los estadísticos utilizan datos multivariados, es decir, muchas variables.

    Para nuestro trabajo podemos clasificar los datos en tres categorías amplias, datos de series de tiempo, datos de sección transversal y datos de panel. Conocimos a los dos primeros muy temprano. Los datos de series de tiempo miden una sola unidad de observación; digamos una persona, o una empresa o un país, a medida que pasa el tiempo. Lo que se mide serán al menos dos características, digamos el ingreso de la persona, la cantidad de un bien particular que compre y el precio que pagó. Esto serían tres piezas de información en un periodo de tiempo, digamos 1985. Si seguimos a esa persona a través del tiempo tendríamos esos mismos datos para 1985,1986, 1987, etc. Esto constituiría un conjunto de datos de series de tiempos. Si hiciéramos esto durante 10 años tendríamos 30 datos relativos a los hábitos de consumo de esta persona de este bien durante la última década y conoceríamos sus ingresos y el precio que pagó.

    Un segundo tipo de conjunto de datos es para datos de sección transversal. Aquí la variación no es a través del tiempo para una sola unidad de observación, sino a través de unidades de observación durante un punto en el tiempo. Por un período de tiempo determinado, reuniríamos el precio pagado, la cantidad comprada y los ingresos de muchas personas individuales.

    Un tercer tipo de conjunto de datos son los datos del panel. Aquí se sigue un panel de unidades de observación a lo largo del tiempo. Si tomamos nuestro ejemplo desde arriba podríamos seguir a 500 personas, la unidad de observación, a través del tiempo, diez años, y observar sus ingresos, precio pagado y cantidad del bien adquirido. Si tuviéramos 500 personas y datos por diez años por precio, ingresos y cantidad comprada tendríamos 15 mil piezas de información. Estos tipos de conjuntos de datos son muy caros de construir y mantener. Ellos, sin embargo, proporcionan una tremenda cantidad de información que puede ser utilizada para responder preguntas muy importantes. Como ejemplo, ¿cuál es el efecto en la tasa de participación en la fuerza laboral de las mujeres como familia de origen, madre y padre, edad? ¿O hay efectos diferenciales en los resultados de salud dependiendo de la edad a la que una persona comenzó a fumar? Solo los datos del panel pueden dar respuestas a estas y preguntas relacionadas porque debemos seguir a varias personas a lo largo del tiempo. Sin embargo, el trabajo que hacemos aquí no será del todo apropiado para conjuntos de datos como estos.

    Comenzando con un conjunto de datos con dos variables independientes nos hacemos la pregunta: ¿estas están relacionadas? Una forma de responder visualmente a esta pregunta es crear una gráfica de dispersión de los datos. No podíamos hacer eso antes cuando estábamos haciendo estadísticas descriptivas porque esos datos eran univariados. Ahora tenemos datos bivariados para que podamos trazar en dos dimensiones. Tres dimensiones son posibles en una hoja de papel plana, pero se vuelven muy difíciles de conceptualizar completamente. Por supuesto, no se pueden graficar más de tres dimensiones aunque las relaciones se pueden medir matemáticamente.

    Para proporcionar precisión matemática a la medición de lo que vemos utilizamos el coeficiente de correlación. La correlación nos dice algo sobre el co-movimiento de dos variables, pero nada de por qué ocurrió este movimiento. Formalmente, el análisis de correlación asume que ambas variables que se analizan son variables independientes. Esto quiere decir que ninguno provoca el movimiento en el otro. Además, significa que ninguna de las variables depende de la otra, o para el caso, de cualquier otra variable. Incluso con estas limitaciones, el análisis de correlación puede arrojar algunos resultados interesantes.

    El coeficiente de correlación, ρ (pronunciado rho), es el estadístico matemático para una población que nos proporciona una medición de la fuerza de una relación lineal entre las dos variables. Para una muestra de datos, el estadístico r, desarrollado por Karl Pearson a principios del siglo XX, es una estimación de la correlación poblacional y se define matemáticamente como:

    \[r=\frac{\frac{1}{n-1} \Sigma\left(X_{1 i}-\overline{X}_{1}\right)\left(X_{2 i}-\overline{X}_{2}\right)}{s_{x_{1}} s_{x_{2}}}\nonumber\]

    O

    \[r=\frac{\sum X_{1 i} X_{2 i}-n \overline{X}_{1}-\overline{X}_{2}}{\sqrt{\left(\Sigma X_{1 i}^{2}-n \overline{X}_{1}^{2}\right)\left(\Sigma X_{2 i}^{2}-n \overline{X}_{2}^{2}\right)}}\nonumber\]

    donde\(sx_1\) y\(sx_2\) son las desviaciones estándar de las dos variables independientes\(X_1\) y\(X_2\),\(\overline{X}_{1}\) y\(\overline{X}_{2}\) son las medias muestrales de las dos variables, y\(X_{1i}\) y\(X_{2i}\) son las observaciones individuales de\(X_1\) y\(X_2\). El coeficiente de correlación\(r\) varía en valor de -1 a 1. La segunda fórmula equivalente se usa a menudo porque puede ser computacionalmente más fácil. Por aterradoras que parezcan estas fórmulas, en realidad son solo la relación de la covarianza entre las dos variables y el producto de sus dos desviaciones estándar. Es decir, se trata de una medida de varianzas relativas.

    En la práctica, todos los análisis de correlación y regresión se proporcionarán a través de programas informáticos diseñados para estos fines. Cualquier cosa más que quizás media docena de observaciones crea inmensos problemas computacionales. Fue por este hecho que la correlación, y más aún, la regresión, no fueron herramientas de investigación ampliamente utilizadas hasta después del advenimiento de las “máquinas informáticas”. Ahora la potencia informática requerida para analizar datos usando paquetes de regresión se considera casi trivial en comparación con hace apenas una década.

    Para visualizar cualquier relación lineal que pueda existir, revise la gráfica de un diagrama de dispersión de los datos estandarizados. La figura\(\PageIndex{2}\) presenta varios diagramas de dispersión y el valor calculado de r. En los paneles (a) y (b) se observa que los datos generalmente tienden juntos, (a) hacia arriba y (b) a la baja. El panel (a) es un ejemplo de correlación positiva y el panel (b) es un ejemplo de correlación negativa, o relación. El signo del coeficiente de correlación nos indica si la relación es positiva o negativa (inversa). Si todos los valores de\(X_1\) y\(X_2\) están en línea recta el coeficiente de correlación será\(1\) o\(-1\) dependiendo de si la línea tiene una pendiente positiva o negativa y cuanto más cerca de una o negativa, más fuerte será la relación entre las dos variables. PERO SIEMPRE RECUERDA QUE EL COEFICIENTE DE CORRELACIÓN NO NOS DICE LA PENDIENTE.

    Figura\(\PageIndex{2}\)

    Recuerde, todo lo que el coeficiente de correlación nos dice es si los datos están o no relacionados linealmente. En el panel (d) las variables obviamente tienen algún tipo de relación muy específica entre sí, pero el coeficiente de correlación es cero, lo que indica que no existe relación lineal.

    Si sospecha una relación lineal entre\(X_1\) y\(X_2\) entonces\(r\) puede medir qué tan fuerte es la relación lineal.

    Lo que nos\(r\) dice el VALOR:

    • Lo que nos\(r\) dice el SIGNO
      • “la correlación no implica causalidad”.

    This page titled 13.1: El coeficiente de correlación r is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by OpenStax via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.