6.4: Correlación compleja

Última actualización
Guardar como PDF

Page ID: 144637

Rajiv S. Jhangiani, I-Chant A. Chiang, Carrie Cuttler, & Dana C. Leighton
Kwantlen Polytechnic U., Washington State U., & Texas A&M U.—Texarkana

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Objetivos de aprendizaje

Explicar algunas razones por las que los investigadores utilizan diseños correlacionales complejos.
Crear e interpretar una matriz de correlación.
Describir cómo los investigadores pueden utilizar la correlación parcial y la regresión múltiple para controlar estadísticamente terceras variables.

Como ya hemos visto, los investigadores realizan estudios correlacionales en lugar de experimentos cuando están interesados en las relaciones no causales o cuando están interesados en las relaciones causales pero la variable independiente no puede ser manipulada por razones prácticas o éticas. En esta sección, analizamos algunos enfoques de investigaciones correlacionales complejas que implican medir varias variables y evaluar las relaciones entre ellas.

Evaluación de las relaciones entre múltiples variables

La investigación correlacional más compleja implica medir varias variables, binarias o continuas, y luego evaluar las relaciones estadísticas entre ellas. Por ejemplo, los investigadores Nathan Radcliffe y William Klein estudiaron una muestra de adultos de mediana edad para ver cómo su nivel de optimismo (medido mediante un breve cuestionario llamado Life Orientation Test) se relaciona con varias otras variables relacionadas con tener un ataque cardíaco (Radcliffe & Klein, 2002) ^[1]. Estos incluyeron su salud, su conocimiento de los factores de riesgo de ataque cardíaco y sus creencias sobre su propio riesgo de sufrir un ataque cardíaco. Descubrieron que los participantes más optimistas estaban más sanos (por ejemplo, hacían más ejercicio y tenían presión arterial más baja), conocían los factores de riesgo de ataque cardíaco y creían correctamente que su propio riesgo era menor que el de sus compañeros.

En otro ejemplo, Ernest Jouriles y sus colegas midieron las experiencias de los adolescentes de agresión física y psicológica en las relaciones y su angustia psicológica. Debido a que las medidas de agresión física (como el Conflicto en el Adolescente en el Inventario de Relaciones de Citas y la Entrevista de Violencia en las Relaciones) a menudo tienden a resultar en distribuciones altamente sesgadas, los investigadores transformaron sus medidas de agresión física en una medida dicotómica (es decir, binaria) (0 = no ocurrió, 1 = sí ocurrió). Hicieron lo mismo con sus medidas de agresión psicológica y luego midieron las correlaciones entre estas variables, encontrando que los adolescentes que experimentaron agresión física tenían una probabilidad moderada de haber experimentado también agresión psicológica y que experimentar agresión psicológica era relacionados con síntomas de angustia psicológica. (Jouriles, Garrido, Rosenfield, & McDonald, 2009) ^[2]

Este enfoque se utiliza a menudo para evaluar la validez de nuevas medidas psicológicas. Por ejemplo, cuando John Cacioppo y Richard Petty crearon su Escala de Necesidad de Cognición, una medida del grado en que a la gente le gusta pensar y valorar el pensamiento, la usaron para medir la necesidad de cognición para una gran muestra de estudiantes universitarios, junto con otras tres variables: inteligencia, socialmente respuesta deseable (la tendencia a dar lo que uno piensa es la respuesta “apropiada”), y dogmatismo (Caccioppo & Petty, 1982) ^[3]. Los resultados de este estudio se resumen en la Tabla\(\PageIndex{1}\), que es una matriz de correlación que muestra la correlación (r de Pearson) entre cada par de variables posibles en el estudio. Por ejemplo, la correlación entre la necesidad de cognición e inteligencia fue de +.39, la correlación entre la inteligencia y la respuesta socialmente deseable fue de +.02, y así sucesivamente. (Solo se rellena la mitad de la matriz porque la otra mitad contendría exactamente la misma información. Además, debido a que la correlación entre una variable y ella misma es siempre +1.00, estos valores son reemplazados por guiones en toda la matriz.) En este caso, el patrón general de correlaciones fue consistente con las ideas de los investigadores sobre cómo deberían relacionarse las puntuaciones sobre la necesidad de cognición con estos otros constructos.

Tabla\(\PageIndex{1}\): Matriz de correlación que muestra correlaciones entre la necesidad de cognición y otras tres variables basadas en la investigación de Cacioppo y Petty (1982)
	Necesidad de cognición	Inteligencia	Deseabilidad social	Dogmatismo
Necesidad de cognición	—
Inteligencia	+.39	—
Deseabilidad social	+.08	+.02	—
Dogmatismo	−.27	−.23	+.03	—

Análisis factorial

Cuando los investigadores estudian las relaciones entre un gran número de variables conceptualmente similares, suelen utilizar una técnica estadística compleja llamada análisis factorial. En esencia, el análisis factorial organiza las variables en un número menor de conglomerados, de tal manera que están fuertemente correlacionadas dentro de cada clúster pero débilmente correlacionadas entre los clústeres. Cada clúster se interpreta entonces como múltiples medidas del mismo constructo subyacente. Estos constructos subyacentes también se llaman “factores”. Por ejemplo, cuando las personas realizan una amplia variedad de tareas mentales, el análisis factorial las organiza típicamente en dos factores principales, uno que los investigadores interpretan como inteligencia matemática (aritmética, estimación cuantitativa, razonamiento espacial, etc.) y otro que interpretan como inteligencia verbal ( gramática, comprensión lectora, vocabulario, etc.). Los Cinco Grandes factores de personalidad se han identificado a través del análisis factorial de las puntuaciones de las personas en un gran número de rasgos más específicos. Por ejemplo, las medidas de calidez, gregariedad, nivel de actividad y emociones positivas tienden a estar altamente correlacionadas entre sí y se interpretan como que representan el constructo de la extraversión. Como último ejemplo, los investigadores Peter Rentfrow y Samuel Gosling pidieron a más de mil 700 universitarios que calificaran cuánto les gustaban 14 géneros musicales populares diferentes (Rentfrow & Gosling, 2008) ^[4]. Luego sometieron estas 14 variables a un análisis factorial, el cual identificó cuatro factores distintos. Los investigadores los llamaron Reflective and Complex (blues, jazz, clásica y folk), Intenso y rebelde (rock, alternativo y heavy metal), Upbeat y Convencional (country, soundtrack, religioso, pop), y Energético y Rítmico (rap/hip-hop, soul/ funk y electrónica); ver Tabla\(\PageIndex{2}\).

Tabla\(\PageIndex{2}\): Cargas factoriales de los 14 géneros musicales en cuatro componentes principales girados con varimax. Basado en una investigación de Rentfrow y Gosling (2003)
	Dimensión de preferencia musical
Género	Reflexivo y complejo	Intenso y rebelde	Upbeat y Convencional	Energético y Rítmico
Blues	.85	.01	-.09	.12
Jazz	.83	.04	.07	.15
Clásica	.66	.14	.02	-.13
Folk	.64	.09	.15	-.16
Rock	.17	.85	-.04	-.07
Alternativa	.02	.80	.13	.04
Metal pesado	.07	.75	-.11	.04
País	-.06	.05	.72	-.03
Pistas sonoras	.01	.04	.70	.17
Religiosos	.23	-.21	.64	-.01
Pop	-.20	.06	.59	.45
Rap Hip-Hop	-.19	-.12	.17	.79
Soul/funk	.39	-.11	.11	.69
Electrónica/danza	-.02	.15	-.01	.60
Nota. N = 1,704. Todas las cargas factoriales .40 o mayores están en cursiva; las cargas de factor más altas para cada dimensión se enumeran en negritas.

Aquí vale la pena hacer dos puntos adicionales sobre el análisis factorial. Una es que los factores no son categorías. El análisis factorial no nos dice que las personas son extravertidas o concienzudas o que les gusta ya sea la música “reflexiva y compleja” o la música “intensa y rebelde”. En cambio, los factores son constructos que operan independientemente entre sí. Entonces, las personas que tienen un alto nivel de extraversión pueden ser altas o bajas en escrupulosidad, y a las personas a las que les gusta la música reflexiva y compleja podría o no gustarle también la música intensa y rebelde. El segundo punto es que el análisis factorial revela solo la estructura subyacente de las variables. Corresponde a los investigadores interpretar y etiquetar los factores y explicar el origen de esa estructura factorial particular. Por ejemplo, una razón por la que la extraversión y los otros Big Five operan como factores separados es que parecen estar controlados por diferentes genes (Plomin, DeFries, McClean, & McGuffin, 2008) ^[5].

Explorando las relaciones causales

Otro uso importante de la investigación correlacional compleja es explorar posibles relaciones causales entre variables. Esto puede parecer sorprendente dado el dicho frecuentemente citado de que “la correlación no implica causalidad”. Es cierto que la investigación correlacional no puede establecer inequívocamente que una variable causa otra. La investigación correlacional compleja, sin embargo, a menudo puede ser utilizada para descartar otras interpretaciones plausibles. La forma principal de hacerlo es a través del control estadístico de terceras variables potenciales. En lugar de controlar estas variables mediante asignación aleatoria o manteniéndolas constantes como en un experimento, el investigador las mide e incluye en el análisis estadístico denominado correlación parcial. Mediante esta técnica, los investigadores pueden examinar la relación entre dos variables, mientras controlan estadísticamente una o más terceras variables potenciales.

Por ejemplo, supongamos que una investigadora estaba interesada en la relación entre ver programas de televisión violentos y comportamiento agresivo pero le preocupaba que el estatus socioeconómico (SES) pudiera representar una tercera variable que está impulsando esta relación. En este caso, podría realizar un estudio en el que mida la cantidad de televisión violenta que los participantes ven en su vida cotidiana, el número de actos de agresión en los que han participado, y su SES. Primero pudo examinar la correlación entre la televisión violenta y la agresión. Digamos que encontró una correlación de +.35, lo que se consideraría una correlación positiva de tamaño moderado. A continuación, podría usar correlación parcial para reexaminar esta relación después de controlar estadísticamente para SES. Esta técnica le permitiría examinar la relación entre la parte de la televisión violenta que es independiente del SES y la parte de comportamiento agresivo que es independiente del SES. Si encontró que la correlación parcial entre la visualización violenta de televisión y la agresión mientras controlaba para SES era de +.34, eso sugeriría que la relación entre la televisión violenta y la agresión es en gran parte independiente del SES (es decir, SES no es una tercera variable impulsora de esta relación). Por otro lado, si encontró que después de controlar estadísticamente para SES la correlación entre la visión violenta de televisión y la agresión bajó a +.03, entonces eso sugeriría que SES es efectivamente una tercera variable que está impulsando la relación. Si, sin embargo, encontró que controlar estadísticamente para SES redujo la magnitud de la correlación de +.35 a +.20, entonces esto sugeriría que el SES da cuenta de algunas, pero no todas, de la relación entre violencia televisiva y agresión. Es importante señalar que si bien la correlación parcial proporciona una herramienta importante para que los investigadores controlen estadísticamente para terceras variables, los investigadores que utilizan esta técnica siguen siendo limitados en su capacidad para llegar a conclusiones causales porque esta técnica no se ocupa de la direccionalidad problema y puede haber otras terceras variables que impulsen la relación que el investigador no consideró y controló estadísticamente.

Regresión

Una vez establecida una relación entre dos variables, los investigadores pueden usar esa información para hacer predicciones sobre el valor de una variable dado el valor de otra variable. Por ejemplo, una vez que hayamos establecido que existe una correlación entre IQ y GPA podemos usar los puntajes de CI de las personas para predecir su GPA. Así, mientras que los coeficientes de correlación pueden ser utilizados para describir la fuerza y dirección de las relaciones entre variables, la regresión es una técnica estadística que permite a los investigadores predecir una variable dada otra. La regresión también se puede utilizar para describir relaciones más complejas entre más de dos variables. Por lo general, la variable que se utiliza para hacer la predicción se conoce como la variable predictora y la variable que se predice se denomina variable de resultado o variable de criterio. Esta ecuación de regresión tiene la siguiente forma general:

\[Y = b _1 X _1\]

\(Y\)en esta fórmula representa la puntuación predicha de la persona en la variable de resultado,\(b_1\) representa la pendiente de la línea que representa la relación entre dos variables (o el peso de regresión), y X1 representa la puntuación de la persona en la variable predictora. Se puede ver que para predecir la puntuación de una persona en la variable de resultado (\(Y\)), simplemente se necesita multiplicar su puntaje en la variable predictora (\(X\)) por el peso de regresión (\(b_1\))

Si bien la regresión simple implica usar una variable para predecir otra, la regresión múltiple implica medir varias variables (\(X_1\)\(X_2\),\(X_3\),,...\(X_i\)), y utilizarlas para predecir alguna variable de resultado (\(Y\)). La regresión múltiple también se puede utilizar para describir simplemente la relación entre una única variable de resultado (\(Y\)) y un conjunto de variables predictoras (\(X_1\),\(X_2\),\(X_3\),...\(X_i\)). El resultado de un análisis de regresión múltiple es una ecuación que expresa la variable de resultado como una combinación aditiva de las variables predictoras. Esta ecuación de regresión tiene la siguiente forma general:

\[Y = b _1 X_1 + b_2 X_2 + b_3 X_3 + … + b_i X_i\]

Los pesos de regresión (\(b_1\),\(b_2\), y así sucesivamente) indican cuán grande es una contribución que hace una variable predictora, en promedio, a la predicción de la variable de resultado. Específicamente, indican cuánto cambia la variable de resultado por cada cambio de una unidad en la variable predictora.

La ventaja de la regresión múltiple es que puede mostrar si una variable predictora hace una contribución a una variable de resultado por encima de las contribuciones realizadas por otras variables predictoras (es decir, se puede usar para mostrar si una variable predictora está relacionada con una variable de resultado después estadísticamente controlando para otras variables predictoras). Como ejemplo hipotético, imagina que un investigador quiere saber cómo se relacionan los ingresos y la salud con la felicidad. Esto es complicado porque los ingresos y la salud están ellos mismos relacionados entre sí. Así, si las personas con mayores ingresos tienden a ser más felices, entonces quizás esto es sólo porque tienden a ser más saludables. De igual manera, si las personas que son más sanas tienden a ser más felices, quizás esto es sólo porque tienden a ganar más dinero. Pero un análisis de regresión múltiple que incluya tanto el ingreso como la salud como variables predictoras mostraría si cada una hace una contribución a la predicción de la felicidad cuando se toma en cuenta al otro (cuando se controla estadísticamente). En otras palabras, la regresión múltiple permitiría al investigador examinar si esa parte del ingreso que no está relacionada con la salud predice o se relaciona con la felicidad, así como si esa parte de la salud que no está relacionada con el ingreso predice o se relaciona con la felicidad. Investigaciones como esta, por cierto, han demostrado que tanto el ingreso como la salud hacen aportes extremadamente pequeños a la felicidad excepto en el caso de pobreza o enfermedad severa (Diener, 2000 ^[6]).

Los ejemplos discutidos en esta sección solo rascan la superficie de cómo los investigadores utilizan investigaciones correlacionales complejas para explorar posibles relaciones causales entre variables. Es importante tener en cuenta, sin embargo, que los enfoques puramente correlacionales no pueden establecer inequívocamente que una variable causa otra. Lo mejor que pueden hacer es mostrar patrones de relaciones que sean consistentes con algunas interpretaciones causales e inconsistentes con otras.

Referencias

Radcliffe, N. M., & Klein, W. M. P. (2002). Optimismo disposicional, poco realista y comparativo: Relaciones diferenciales con el conocimiento y procesamiento de la información de riesgo y creencias sobre el riesgo personal. Boletín de Personalidad y Psicología Social, 28, 836—846.
Jouriles, E. N., Garrido, E., Rosenfield, D., & McDonald, R. (2009). Experiencias de agresión psicológica y física en las relaciones románticas adolescentes: Vínculos a la angustia psicológica. Abuso y negligencia infantil, 33 (7), 451—460.
Cacioppo, J. T., & Petty, R. E. (1982). La necesidad de la cognición. Revista de Personalidad y Psicología Social, 42, 116—131.
Rentfrow, P. J., & Gosling, S. D. (2008). Los do re mi's de la vida cotidiana: La estructura y la personalidad se correlacionan de las preferencias musicales. Revista de Personalidad y Psicología Social, 84, 1236—1256.
Plomin, R., DeFries, J. C., McClearn, G. E., & McGuffin, P. (2008). Genética conductual (5ª ed.). Nueva York, NY: Vale la pena.
Diener, E. (2000). Bienestar subjetivo: La ciencia de la felicidad, y una propuesta de índice nacional. Psicólogo Americano, 55, 34—43.