12.5: Prueba de la significancia del coeficiente de correlación

Última actualización
Guardar como PDF

Page ID: 153193

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

El coeficiente de correlación\(r\),, nos habla de la fuerza y dirección de la relación lineal entre\(x\) y\(y\). Sin embargo, la confiabilidad del modelo lineal también depende de cuántos puntos de datos observados haya en la muestra. Tenemos que mirar tanto el valor del coeficiente\(r\) de correlación como el tamaño de la muestra\(n\), juntos. Se realiza una prueba de hipótesis de la “significancia del coeficiente de correlación” para decidir si la relación lineal en los datos de la muestra es lo suficientemente fuerte como para modelar la relación en la población.

Los datos de la muestra se utilizan para calcular\(r\), el coeficiente de correlación para la muestra. Si tuviéramos datos para toda la población, podríamos encontrar el coeficiente de correlación poblacional. Pero debido a que solo tenemos datos de muestra, no podemos calcular el coeficiente de correlación poblacional. El coeficiente de correlación muestral\(r\),, es nuestra estimación del coeficiente de correlación poblacional desconocido.

El símbolo para el coeficiente de correlación poblacional es\(\rho\), la letra griega “rho”.
\(\rho =\)coeficiente de correlación poblacional (desconocido)
\(r =\)coeficiente de correlación muestral (conocido; calculado a partir de datos de la muestra)

La prueba de hipótesis permite decidir si el valor del coeficiente de correlación poblacional\(\rho\) es “cercano a cero” o “significativamente diferente de cero”. Esto lo decidimos con base en el coeficiente de correlación muestral\(r\) y el tamaño de la muestra\(n\).

Si la prueba concluye que el coeficiente de correlación es significativamente diferente de cero, decimos que el coeficiente de correlación es “significativo”.

Conclusión: Existe evidencia suficiente para concluir que existe una relación lineal significativa entre\(x\) y\(y\) porque el coeficiente de correlación es significativamente diferente de cero.
Lo que significa la conclusión: Existe una relación lineal significativa entre\(x\) y\(y\). Podemos usar la línea de regresión para modelar la relación lineal entre\(x\) y\(y\) en la población.

Si la prueba concluye que el coeficiente de correlación no es significativamente diferente de cero (es cercano a cero), decimos que el coeficiente de correlación es “no significativo”.

Conclusión: “No hay evidencia suficiente para concluir que existe una relación lineal significativa entre\(x\) y\(y\) porque el coeficiente de correlación no es significativamente diferente de cero”.
Lo que significa la conclusión: No existe una relación lineal significativa entre\(x\) y\(y\). Por lo tanto, NO PODEMOS utilizar la línea de regresión para modelar una relación lineal entre\(x\) y\(y\) en la población.

NOTA

Si\(r\) es significativo y la gráfica de dispersión muestra una tendencia lineal, la línea se puede utilizar para predecir el valor de\(y\) para valores de\(x\) que están dentro del dominio de\(x\) los valores observados.
Si no\(r\) es significativo O si el gráfico de dispersión no muestra una tendencia lineal, la línea no debe ser utilizada para la predicción.
Si\(r\) es significativo y si el gráfico de dispersión muestra una tendencia lineal, la línea puede NO ser apropiada o confiable para la predicción FUERA del dominio de\(x\) los valores observados en los datos.

REALIZAR LA PRUEBA DE HIPÓTESIS

Hipótesis nula:\(H_{0}: \rho = 0\)
Hipótesis Alterna:\(H_{a}: \rho \neq 0\)

QUÉ SIGNIFICAN LAS HIPÓTESIS EN PALABRAS:

Hipótesis nula\(H_{0}\): El coeficiente de correlación poblacional NO ES significativamente diferente de cero. NO EXISTE una relación lineal significativa (correlación) entre\(x\) y\(y\) en la población.
Hipótesis alternativa\(H_{a}\): El coeficiente de correlación poblacional ES significativamente DIFERENTE DE cero. Existe una relación lineal significativa (correlación) entre\(x\) y\(y\) en la población.

DIBUJO Una conclusión:Existen dos métodos para tomar la decisión. Los dos métodos son equivalentes y dan el mismo resultado.

Método 1: Uso del\(p\text{-value}\)
Método 2: Uso de una tabla de valores críticos

En este capítulo de este libro de texto, siempre usaremos un nivel de significación del 5%,\(\alpha = 0.05\)

NOTA

Usando el\(p\text{-value}\) método, puedes elegir cualquier nivel de significancia apropiado que desees; no estás limitado a usar\(\alpha = 0.05\). Pero la tabla de valores críticos proporcionada en este libro de texto supone que estamos utilizando un nivel de significancia del 5%,\(\alpha = 0.05\). (Si quisiéramos usar un nivel de significancia diferente al 5% con el método del valor crítico, necesitaríamos diferentes tablas de valores críticos que no se proporcionan en este libro de texto).

MÉTODO 1: Usar a\(p\text{-value}\) para tomar una decisión

Uso de la CALCULADORA TI83, 83+, 84, 84+

Para calcular el\(p\text{-value}\) uso de LinregtTest:

En la pantalla de entrada LinregtTest, en el símbolo de línea para\(\beta\) o\(\rho\), resalte "\(\neq 0\)”

La pantalla de salida muestra el\(p\text{-value}\) en la línea que dice "\(p =\)”.

(La mayoría de los programas informáticos estadísticos pueden calcular el\(p\text{-value}\).)

Si el\(p\text{-value}\) es menor que el nivel de significancia (\(\alpha = 0.05\)):

Decisión: Rechazar la hipótesis nula.
Conclusión: “Hay evidencia suficiente para concluir que existe una relación lineal significativa entre\(x\) y\(y\) porque el coeficiente de correlación es significativamente diferente de cero”.

Si el NO\(p\text{-value}\) es menor que el nivel de significancia (\(\alpha = 0.05\))

Decisión: NO RECHAZAR la hipótesis nula.
Conclusión: “No hay evidencia suficiente para concluir que existe una relación lineal significativa entre\(x\) y\(y\) porque el coeficiente de correlación NO es significativamente diferente de cero”.

Notas de Cálculo:

Utilizarás la tecnología para calcular el\(p\text{-value}\). A continuación se describen los cálculos para calcular las estadísticas de prueba y el\(p\text{-value}\):
El\(p\text{-value}\) se calcula usando una\(t\) -distribución con\(n - 2\) grados de libertad.
La fórmula para el estadístico de prueba es\(t = \frac{r\sqrt{n-2}}{\sqrt{1-r^{2}}}\). El valor del estadístico de prueba,\(t\), se muestra en la salida de la computadora o calculadora junto con el\(p\text{-value}\). El estadístico de prueba\(t\) tiene el mismo signo que el coeficiente de correlación\(r\).
El\(p\text{-value}\) es el área combinada en ambas colas.

Una forma alternativa de calcular el\(p\text{-value}\) (\(p\)) dado por Linregttest es el comando 2*tcdf (abs (t) ,10^99, n-2) en 2do DISTR.C/DESC.

EJEMPLO TERCER EXAMEN vs\(p\text{-value}\) EXAMEN

Considera el tercer examen/ejemplo de examen final.
La línea de mejor ajuste es:\(\hat{y} = -173.51 + 4.83x\) con\(r = 0.6631\) y hay puntos\(n = 11\) de datos.
¿Se puede usar la línea de regresión para la predicción? Dado un puntaje del tercer examen (\(x\)valor), ¿podemos usar la línea para predecir el puntaje final del examen (\(y\)valor predicho)?

\(H_{0}: \rho = 0\)

\(H_{a}: \rho \neq 0\)

\(\alpha = 0.05\)

El\(p\text{-value}\) es 0.026 (desde LinregtTest en tu calculadora o desde software de computadora).
El\(p\text{-value}\), 0.026, es menor que el nivel de significancia de\(\alpha = 0.05\).
Decisión: Rechazar la hipótesis nula\(H_{0}\)
Conclusión: Existe evidencia suficiente para concluir que existe una relación lineal significativa entre el puntaje del tercer examen (\(x\)) y el puntaje final del examen (\(y\)) porque el coeficiente de correlación es significativamente diferente de cero.

Debido a que\(r\) es significativo y la gráfica de dispersión muestra una tendencia lineal, la línea de regresión se puede utilizar para predecir los puntajes finales de los exámenes.

MÉTODO 2: Uso de una tabla de Valores Críticos para tomar una decisión

Los Valores Críticos del 95% de la Tabla de Coeficientes de Correlación Muestra se pueden utilizar para darle una buena idea de si el valor calculado de\(r\) es significativo o no. Comparar\(r\) con el valor crítico apropiado en la tabla. Si no\(r\) está entre los valores críticos positivos y negativos, entonces el coeficiente de correlación es significativo. Si\(r\) es significativo, entonces es posible que desee usar la línea para la predicción.

Ejemplo\(\PageIndex{1}\)

Supongamos que\(r = 0.801\) computó usando puntos de\(n = 10\) datos. \(df = n - 2 = 10 - 2 = 8\). Los valores críticos asociados a\(df = 8\) son\(-0.632\) y\(+0.632\). Si el valor crítico\(r <\) negativo o el valor crítico\(r >\) positivo, entonces\(r\) es significativo. Dado que\(r = 0.801\) y\(0.801 > 0.632\),\(r\) es significativo y la línea puede ser utilizada para la predicción. Si ves este ejemplo en una recta numérica, te ayudará.

Línea numérica horizontal con valores de -1, -0.632, 0, 0.632, 0.801 y 1. Una línea discontinua por encima de los valores -0.632, 0 y 0.632 indica valores no significativos. — Figura\(\PageIndex{1}\). \(r\)no es significativo entre\(-0.632\) y\(+0.632\). \(r = 0.801 > +0.632\). Por lo tanto,\(r\) es significativo.

Ejercicio\(\PageIndex{1}\)

Para una línea dada de mejor ajuste, computó que\(r = 0.6501\) usando puntos de\(n = 12\) datos y el valor crítico es 0.576. ¿Se puede usar la línea para la predicción? ¿Por qué o por qué no?

Responder: Si el gráfico de dispersión se ve lineal entonces, sí, la línea se puede utilizar para la predicción, porque\(r >\) el valor crítico positivo.

Ejemplo\(\PageIndex{2}\)

Supongamos que\(r = –0.624\) computó con 14 puntos de datos. \(df = 14 – 2 = 12\). Los valores críticos son\(-0.532\) y\(0.532\). Ya que\(-0.624 < -0.532\),\(r\) es significativo y la línea se puede utilizar para la predicción

Línea numérica horizontal con valores de -0.624, -0.532 y 0.532. — Figura\(\PageIndex{2}\). \(r = -0.624 - 0.532\). Por lo tanto,\(r\) es significativo.

Ejercicio\(\PageIndex{2}\)

Para una línea dada de mejor ajuste, calcula eso\(r = 0.5204\) usando puntos de\(n = 9\) datos, y el valor crítico es\(0.666\). ¿Se puede usar la línea para la predicción? ¿Por qué o por qué no?

Responder: No, la línea no puede ser utilizada para la predicción, porque\(r <\) el valor crítico positivo.

Ejemplo\(\PageIndex{3}\)

Supongamos que\(r = 0.776\) computó y\(n = 6\). \(df = 6 - 2 = 4\). Los valores críticos son\(-0.811\) y\(0.811\). Ya que\(-0.811 < 0.776 < 0.811\), no\(r\) es significativo, y la línea no debe ser utilizada para la predicción.

Línea numérica horizontal con valores -0.924, -0.532 y 0.532. — Figura\(\PageIndex{3}\). \(-0.811 < r = 0.776 < 0.811\). Por lo tanto, no\(r\) es significativo.

Ejercicio\(\PageIndex{3}\)

Para una línea dada de mejor ajuste, calcula eso\(r = -0.7204\) usando puntos de\(n = 8\) datos, y el valor crítico es\(= 0.707\). ¿Se puede usar la línea para la predicción? ¿Por qué o por qué no?

Responder: Sí, la línea se puede utilizar para la predicción, porque\(r <\) el valor crítico negativo.

EJEMPLO DE TERCER EXAMEN vs EXAMEN FINAL

Considera el tercer examen/ejemplo de examen final. La línea de mejor ajuste es:\(\hat{y} = -173.51 + 4.83x\) con\(r = 0.6631\) y hay puntos\(n = 11\) de datos. ¿Se puede usar la línea de regresión para la predicción? Dado un puntaje de tercer examen (\(x\)valor), ¿podemos usar la línea para predecir el puntaje final del examen (\(y\)valor predicho)?

\(H_{0}: \rho = 0\)
\(H_{a}: \rho \neq 0\)
\(\alpha = 0.05\)

Utilice la tabla "Valor Crítico 95%” para\(r\) con\(df = n - 2 = 11 - 2 = 9\).
Los valores críticos son\(-0.602\) y\(+0.602\)
Ya que\(0.6631 > 0.602\),\(r\) es significativo.
Decisión: Rechazar la hipótesis nula.
Conclusión:Existe evidencia suficiente para concluir que existe una relación lineal significativa entre el puntaje del tercer examen (\(x\)) y el puntaje final del examen (\(y\)) porque el coeficiente de correlación es significativamente diferente de cero.

Debido a que\(r\) es significativo y la gráfica de dispersión muestra una tendencia lineal, la línea de regresión se puede utilizar para predecir los puntajes finales de los exámenes.

Ejemplo\(\PageIndex{4}\)

Supongamos que computó los siguientes coeficientes de correlación. Usando la tabla al final del capítulo, determinar si\(r\) es significativo y la línea de mejor ajuste asociada a cada r se puede usar para predecir un\(y\) valor. Si ayuda, dibuja una recta numérea.

\(r = –0.567\)y el tamaño de la muestra\(n\),, es\(19\). El\(df = n - 2 = 17\). El valor crítico es\(-0.456\). \(-0.567 < -0.456\)por lo que\(r\) es significativo.
\(r = 0.708\)y el tamaño de la muestra\(n\),, es\(9\). El\(df = n - 2 = 7\). El valor crítico es\(0.666\). \(0.708 > 0.666\)por lo que\(r\) es significativo.
\(r = 0.134\)y el tamaño de la muestra\(n\),, es\(14\). El\(df = 14 - 2 = 12\). El valor crítico es\(0.532\). \(0.134\)está entre\(-0.532\) y\(0.532\) así no\(r\) es significativo.
\(r = 0\)y el tamaño de la muestra\(n\),, es cinco. No importa lo que\(dfs\) sean,\(r = 0\) está entre los dos valores críticos por lo que no\(r\) es significativo.

Ejercicio\(\PageIndex{4}\)

Para una línea dada de mejor ajuste, la calcula\(r = 0\) usando puntos\(n = 100\) de datos. ¿Se puede usar la línea para la predicción? ¿Por qué o por qué no?

Responder: No, la línea no se puede utilizar para la predicción sin importar cuál sea el tamaño de la muestra.

Supuestos en la prueba de la significancia del coeficiente de correlación

Para probar la significancia del coeficiente de correlación se requiere que se cumplan ciertos supuestos sobre los datos. La premisa de esta prueba es que los datos son una muestra de puntos observados tomados de una población mayor. No hemos examinado a toda la población porque no es posible ni factible hacerlo. Estamos examinando la muestra para sacar una conclusión sobre si la relación lineal que vemos entre\(x\) y\(y\) en los datos de la muestra proporciona evidencia lo suficientemente fuerte para que podamos concluir que existe una relación lineal entre\(x\) y\(y\) en la población.

La ecuación de la línea de regresión que calculamos a partir de los datos de la muestra da la línea de mejor ajuste para nuestra muestra particular. Queremos utilizar esta línea de mejor ajuste para la muestra como estimación de la línea de mejor ajuste para la población. Examinar el diagrama de dispersión y probar la significancia del coeficiente de correlación nos ayuda a determinar si es apropiado hacerlo.

Los supuestos que subyacen a la prueba de significación son:

Existe una relación lineal en la población que modela el valor promedio de\(y\) para valores variables de\(x\). Es decir, el valor esperado de\(y\) para cada valor particular se encuentra en una línea recta en la población. (No conocemos la ecuación para la línea para la población. Nuestra línea de regresión de la muestra es nuestra mejor estimación de esta línea en la población.)
Los\(y\) valores para cualquier\(x\) valor en particular se distribuyen normalmente alrededor de la línea. Esto implica que hay más\(y\) valores dispersos más cerca de la línea que están dispersos más lejos. La suposición (1) implica que estas distribuciones normales están centradas en la línea: las medias de estas distribuciones normales de\(y\) valores se encuentran en la línea.
Las desviaciones estándar de los\(y\) valores de población alrededor de la línea son iguales para cada valor de\(x\). Es decir, cada una de estas distribuciones normales de\(y\) valores tiene la misma forma y se extiende alrededor de la línea.
Los errores residuales son mutuamente independientes (sin patrón).
Los datos se producen a partir de una muestra aleatoria bien diseñada o experimento aleatorio.

El gráfico de la izquierda muestra tres conjuntos de puntos. Cada conjunto cae en una línea vertical. Los puntos en cada conjunto normalmente se distribuyen a lo largo de la línea: están densamente empaquetados en el medio y más extendidos en la parte superior e inferior. Una línea de regresión inclinada hacia abajo pasa por la media de cada conjunto. La gráfica derecha muestra la misma línea de regresión trazada. Se muestra una curva normal vertical para cada línea. — Figura\(\PageIndex{4}\). Los\(y\) valores para cada\(x\) valor normalmente se distribuyen alrededor de la línea con la misma desviación estándar. Para cada\(x\) valor, la media de los\(y\) valores se encuentra en la línea de regresión. Más\(y\) valores se encuentran cerca de la línea de los que están dispersos más lejos de la línea.

Resumen

La regresión lineal es un procedimiento para ajustar una línea recta del formulario\(\hat{y} = a + bx\) a los datos. Las condiciones para la regresión son:

Lineal En la población, existe una relación lineal que modela el valor promedio de\(y\) para diferentes valores de\(x\).
Independiente Se supone que los residuos son independientes.
Normal Los\(y\) valores se distribuyen normalmente para cualquier valor de\(x\).
Varianza igual La desviación estándar de los\(y\) valores es igual para cada\(x\) valor.
Aleatorio Los datos se producen a partir de una muestra aleatoria bien diseñada o experimento aleatorio.

La pendiente\(b\) y la intersección\(a\) de la línea de mínimos cuadrados estiman la pendiente\(\beta\) e intercepción\(\alpha\) de la línea de regresión poblacional (verdadera). Para estimar la desviación estándar poblacional de\(y\)\(\sigma\),, utilizar la desviación estándar de los residuales,\(s\). \(s = \sqrt{\frac{SEE}{n-2}}\). La variable\(\rho\) (rho) es el coeficiente de correlación poblacional. Para probar el valor\(H_{0}: \rho =\) hipotético de hipótesis nula, utilice una prueba t de regresión lineal. La hipótesis nula más común es la\(H_{0}: \rho = 0\) que indica que no existe una relación lineal entre\(x\) y\(y\) en la población. La función de calculadora TI-83, 83+, 84, 84+ LinregtTest puede realizar esta prueba (STATS TEST LINRegtTest).

Revisión de Fórmula

Línea de mínimos cuadrados o línea de mejor ajuste:

\[\hat{y} = a + bx\]

donde

\[a = y\text{-intercept}\]

\[b = \text{slope}\]

Desviación estándar de los residuos:

\[s = \sqrt{\frac{SSE}{n-2}}\]

donde

\[SSE = \text{sum of squared errors}\]

\[n = \text{the number of data points}\]