11.4: Prueba de Independencia
- Page ID
- 150799
Las pruebas de independencia implican el uso de una tabla de contingencia de valores observados (datos). El estadístico de prueba para una prueba de independencia es similar al de una prueba de bondad de ajuste:
\[\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\nonumber\]
donde:
- \(O\)= valores observados
- \(E\)= valores esperados
- \(i\)= el número de filas en la tabla
- \(j\)= el número de columnas en la tabla
Hay\(i \cdot j\) términos de la forma\(\frac{(O-E)^{2}}{E}\).
Una prueba de independencia determina si dos factores son independientes o no. Se encontró por primera vez con el término independencia en la Tabla 3.1 anterior. Como revisión, considere el siguiente ejemplo.
Nota
El valor esperado dentro de cada celda debe ser de al menos cinco para que puedas usar esta prueba.
Ejemplo 11.8
Supongamos\(A\) = una violación por exceso de velocidad en el último año y\(B\) = un usuario de celular mientras conduce. Si\(A\) y\(B\) son independientes entonces\(P(A \cap B)=P(A) P(B) . A \cap B\) es el evento de que un conductor recibió una infracción por exceso de velocidad el año pasado y también usó un celular mientras conducía. Supongamos, en un estudio de conductores que recibieron infracciones por exceso de velocidad en el último año, y que usaron celular mientras conducían, que se encuestó a 755 personas. De los 755, 70 presentaron una infracción por exceso de velocidad y 685 no; 305 usaron celulares mientras conducían y 450 no.
Dejar y = número esperado de conductores que usaron un celular mientras conducían y recibieron infracciones por exceso de velocidad.
Si\(A\) y\(B\) son independientes, entonces\(P(A \cap B)=P(A) P(B)\). Por sustitución,
\[\frac{y}{755}=\left(\frac{70}{755}\right)\left(\frac{305}{755}\right)\nonumber\]
Resolver para\(y\):\(y=\frac{(70)(305)}{755}=28.3\)
Se espera que alrededor de 28 personas de la muestra usen teléfonos celulares mientras conducen y reciban infracciones por exceso de velocidad.
En una prueba de independencia, declaramos las hipótesis nulas y alternativas en palabras. Dado que la tabla de contingencia consta de dos factores, la hipótesis nula establece que los factores son independientes y la hipótesis alternativa establece que no son independientes (dependientes). Si hacemos una prueba de independencia usando el ejemplo, entonces la hipótesis nula es:
\(H_0\): Ser usuario de celular mientras conduce y recibe una infracción por exceso de velocidad son eventos independientes; en otras palabras, no tienen ningún efecto el uno en el otro.
Si la hipótesis nula fuera cierta, esperaríamos que alrededor de 28 personas usaran celulares mientras conducían y recibieran una infracción por exceso de velocidad.
La prueba de independencia siempre es de cola derecha debido al cálculo del estadístico de prueba. Si los valores esperados y observados no están muy juntos, entonces el estadístico de prueba es muy grande y sale en la cola derecha de la curva de chi-cuadrado, ya que está en una bondad de ajuste.
El número de grados de libertad para la prueba de independencia es:
\(d f=(\text { number of columns }-1)(\text { number of rows }-1)\)
La siguiente fórmula calcula el número esperado (E):
\[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}\nonumber\]
Ejercicio 11.8
Se toma una muestra de 300 alumnos. De los estudiantes encuestados, 50 eran estudiantes de música, mientras que 250 no. Noventa y siete de los 300 encuestados estaban en la lista de honor, mientras que 203 no. Si asumimos que ser estudiante de música y estar en el cuadro de honor son eventos independientes, ¿cuál es el número esperado de estudiantes de música que también están en el cuadro de honor?
Ejemplo 11.9
Un grupo de voluntarios, brinda de una a nueve horas semanales con personas mayores discapacitadas. El programa recluta entre estudiantes de colegios comunitarios, estudiantes universitarios de cuatro años y no estudiantes. En el Cuadro 11.14 se encuentra una muestra de los voluntarios adultos y el número de horas que realizan voluntariado a la semana.
Tipo de voluntario | 1—3 Horas | 4—6 Horas | 7—9 Horas | Total de fila |
---|---|---|---|---|
Estudiantes de colegios comunitarios | 111 | 96 | 48 | 255 |
Estudiantes universitarios de cuatro años | 96 | 133 | 61 | 290 |
No estudiantes | 91 | 150 | 53 | 294 |
Total de columnas | 298 | 379 | 162 | 839 |
¿El número de horas voluntarias es independiente del tipo de voluntario?
- Contestar
-
Solución 11.9
La mesa observada y la pregunta al final del problema, “¿El número de horas voluntarias es independiente del tipo de voluntario?” te digo que esta es una prueba de independencia. Los dos factores son el número de horas de voluntariado y el tipo de voluntario. Esta prueba siempre es de cola derecha.
\(H_0\): El número de horas voluntarias es independiente del tipo de voluntario.
\(H_a\): El número de horas voluntarias depende del tipo de voluntario.
El resultado esperado se encuentra en el Cuadro 11.15.
La tabla contiene valores esperados (E) (datos). Tipo de voluntario 1-3 Horas 4-6 Horas 7-9 Horas Estudiantes de colegios comunitarios 90.57 115.19 49.24 Estudiantes universitarios de cuatro años 103.00 131.00 56.00 No estudiantes 104.42 132.81 56.77 Tabla 11.15 Número de horas trabajadas por semana por tipo de voluntario (esperado) Por ejemplo, el cálculo de la frecuencia esperada para la celda superior izquierda es
\[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}=\frac{(255)(298)}{839}=90.57\nonumber\]
Calcular el estadístico de prueba:\(\chi^2 = 12.99\) (calculadora o computadora)
Distribución para la prueba:\(\chi_4^2\)
\(d f=(3 \text { columns }-1)(3 \text { rows }-1)=(2)(2)=4\)
Gráfica:
La gráfica del Chi-cuadrado muestra la distribución y marca el valor crítico con cuatro grados de libertad a un nivel de confianza del 95%,\(\alpha = 0.05\), 9.488. La gráfica también marca el estadístico\(\chi_{c}^{2}\) de prueba calculado de 12.99. Comparando el estadístico de prueba con el valor crítico, como lo hemos hecho con todas las demás pruebas de hipótesis, llegamos a la conclusión.
Tomar una decisión: Debido a que el estadístico de prueba calculado está en la cola no podemos aceptar H 0. Esto quiere decir que los factores no son independientes.
Conclusión: A un nivel de significancia del 5%, a partir de los datos, hay evidencia suficiente para concluir que el número de horas voluntarias y el tipo de voluntario son dependientes entre sí.
Para el ejemplo de la Tabla 11.15, si hubiera habido otro tipo de voluntario, adolescentes, ¿cuáles serían los grados de libertad?
Ejercicio 11.9
El Bureau of Labor Statistics recopila datos sobre el empleo en Estados Unidos. Se toma una muestra para calcular el número de ciudadanos estadounidenses que trabajan en uno de varios sectores de la industria a lo largo del tiempo. La Tabla 11.16 muestra los resultados:
Sector de la industria | 2000 | 2010 | 2020 | Total |
---|---|---|---|---|
Salario y salario no agrícola | 13,243 | 13,044 | 15.018 | 41,305 |
Producción de bienes, excluida la agricultura | 2,457 | 1,771 | 1,950 | 6,178 |
Prestación de servicios | 10,786 | 11,273 | 13,068 | 35,127 |
Agricultura, silvicultura, pesca y caza | 240 | 214 | 201 | 655 |
Trabajador autónomo no agrícola y familiar no remunerado | 931 | 894 | 972 | 2,797 |
Trabajos secundarios salariales y salariales en agricultura e industrias domésticas privadas | 14 | 11 | 11 | 36 |
Trabajos secundarios como trabajador autónomo o familiar no remunerado | 196 | 144 | 152 | 492 |
Total | 27,867 | 27,351 | 31,372 | 86,590 |
Queremos saber si el cambio en el número de empleos es independiente del cambio en años. Declarar las hipótesis nulas y alternativas y los grados de libertad.
Ejemplo 11.10
De Anza College está interesado en la relación entre el nivel de ansiedad y la necesidad de tener éxito en la escuela. Una muestra aleatoria de 400 alumnos realizó una prueba que midió el nivel de ansiedad y la necesidad de tener éxito en la escuela. En el Cuadro 11.17 se muestran los resultados. De Anza College quiere saber si el nivel de ansiedad y la necesidad de triunfar en la escuela son eventos independientes.
Necesidad de triunfar en la escuela | Ansiedad alta |
Ansiedad alta |
Ansiedad media |
Ansiedad media-baja |
Baja ansiedad |
Total de fila |
---|---|---|---|---|---|---|
Alta necesidad | 35 | 42 | 53 | 15 | 10 | 155 |
Necesidad media | 18 | 48 | 63 | 33 | 31 | 193 |
Baja necesidad | 4 | 5 | 11 | 15 | 17 | 52 |
Total de columnas | 57 | 95 | 127 | 63 | 58 | 400 |
a. ¿Cuántos estudiantes de alto nivel de ansiedad se espera que tengan una alta necesidad de tener éxito en la escuela?
- Contestar
-
Solución 11.10
a. El total de la columna para un alto nivel de ansiedad es 57. El total de fila por alta necesidad para triunfar en la escuela es de 155. El tamaño muestral o total encuestado es de 400.
\[E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\frac{155 \cdot 57}{400}=22.09\nonumber\]
El número esperado de estudiantes que tienen un alto nivel de ansiedad y una alta necesidad de tener éxito en la escuela es de alrededor de 22.
b. Si las dos variables son independientes, ¿cuántos estudiantes espera que tengan una baja necesidad de triunfar en la escuela y un nivel medio-bajo de ansiedad?
- Contestar
-
Solución 11.10
b. El total de la columna para un nivel medio-bajo de ansiedad es 63. El total de fila para una baja necesidad de tener éxito en la escuela es de 52. El tamaño muestral o total encuestado es de 400.
c.\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\) ________
- Contestar
-
Solución 11.10
c.\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=8.19\)
d. El número esperado de estudiantes que tienen un nivel de ansiedad media-bajo y una baja necesidad de tener éxito en la escuela es de aproximadamente ________.
- Contestar
-
Solución 11.10
d. 8