12.1: Prueba de bondad de ajuste de Chi cuadrado

Última actualización
Guardar como PDF

Page ID: 151649

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Una empresa de servicios financieros tenía evidencia anecdótica de que la gente estaba llamando a enfermos los lunes y viernes con más frecuencia que el martes, miércoles o jueves. La especulación fue que algunos empleados estaban usando días de enfermedad para extender sus fines de semana. Se le pidió a un investigador de la empresa que determinara si los datos apoyaban una diferencia significativa en el ausentismo debido al día de la semana.

La variable categórica de interés aquí es “Día de la semana” que un empleado llamó enfermo (lunes a viernes). Este es un ejemplo de una variable aleatoria multinomial, en la que observaremos un número fijo de ensayos (el número total de días de enfermedad muestreados) y al menos 2 posibles resultados. (Una variable aleatoria binomial es un caso especial de la variable aleatoria multinomial donde hay exactamente 2 resultados posibles y se estudió en el Capítulo 10 como\(Z\) Prueba de Proporción.)

La prueba de bondad de ajuste de Chi‐cuadrado se utiliza para probar si los datos observados de una variable categórica son consistentes con una suposición esperada sobre la distribución de esa variable.

Prueba de bondad de ajuste de Chi‐cuadrado

Supuestos de modelo

\(O_{i}\)= Observado en la categoría\(i\)
\(p_{i}\)= Proporción esperada en la categoría\(i\)
\(E_{i}=n p_{i}\)= Esperado en la categoría\(i\)
\(E_{i} \geq 5\)para cada\(i\)

Estadística de prueba

\(\chi^{2}=\sum_{i=1}^{k} \dfrac{\left(O_{i}-E_{i}\right)^{2}}{E_{i}} \quad \mathrm{df}=k-1\)donde

\(k\)= número de categorías\(n\) = tamaño de la muestra

Prueba de bondad de ajuste de Chi‐cuadrado ‐ frecuencias iguales esperadas

Ejemplo: Días de enfermedad

Un investigador de la empresa de servicios financieros recopiló 400 registros de qué día de la semana los empleados llamaron enfermos para trabajar. ¿Puede el investigador concluir que la proporción de empleados que llaman enfermos no es la misma para cada día de la semana? Diseñar y realizar una prueba de hipótesis al nivel de significancia del 1%.

Solución

Hipótesis de investigación:

\(H_o\): No hay diferencia en la proporción de empleados que llaman enfermos debido al día de la semana.

\(H_a\): Existe una diferencia en la proporción de empleados que llaman enfermos por el día de la semana.

También podemos exponer las hipótesis en términos de parámetros poblacionales,\(p_i\) para cada categoría. Bajo la Hipótesis Nula, esperaríamos que el 20% de los días de enfermedad ocurrieran cada día de la semana.

Hipótesis de investigación:

\(H_o: p_{1}=p_{2}=p_{3}=p_{4}=p_{5}=0.20\)

\(H_a\): Al menos un pi es diferente a lo que se indicó en\(H_o\)

Modelo estadístico: Prueba de bondad de ajuste de Chi‐cuadrado.

Suposición Importante: El Valor Esperado de Cada Categoría debe ser mayor o igual a 5. En este ejemplo,\(E_{i}=n p_{i}=(400)(.20)=80 \geq 5\) para cada categoría, por lo que el modelo es apropiado.

Estadística de prueba:\(\chi^{2}=\sum_{i=1}^{k} \dfrac{\left(O_{i}-E_{i}\right)^{2}}{E_{i}} \qquad \mathrm{df}=5-1=4\)

Regla de Decisión (Método de Valor Crítico): Rechazar\(H_o\) si\(\chi^{2}>13.277 (\alpha=.01, 4 \mathrm{df})\)

Resultados:

Dado que el Estadístico de Prueba se encuentra en la Región de Rechazo, la decisión es Rechazar\(H_o\). Bajo el método\(p\) ‐value, también\(H_o\) se rechaza ya que el\(p \text {-value }=p\left(\chi^{2}>15.625\right)=0.004\), que es menor que el Nivel\(\alpha\) de Significancia de 1%.

Conclusión:

Existe una diferencia en la proporción de empleados que llaman enfermos por el día de la semana. Es más probable que los empleados llamen enfermos en días cercanos al fin de semana.

Prueba de bondad de ajuste de Chi‐cuadrado ‐ diferentes frecuencias esperadas

En el ejemplo anterior, la Hipótesis Null fue que todas las categorías tenían la misma proporción; es decir, no hubo diferencia en los recuentos debido a las elecciones de una variable categórica. Se puede usar otro conjunto de hipótesis que utilizan esta misma prueba de bondad de ajuste de Chi‐cuadrado para comparar los resultados actuales de un experimento actual con resultados anteriores. En estas pruebas, es muy probable que las proporciones anteriores no fueran las mismas.

Ejemplo: Método de desplazamiento)

En el censo de Estados Unidos de 2010, se recolectaron datos sobre cómo las personas llegan a trabajar ‐‐ su método de desplazamiento. Los resultados se muestran en la gráfica de la derecha. Supongamos que quería saber si las personas que viven en el área metropolitana de San José (condado de Santa Clara) viajan con proporciones similares a las de Estados Unidos. Tomaremos muestras de 1000 trabajadores del condado de Santa Clara y realizaremos una prueba de bondad de ajuste de Chi cuadrado. Diseñar y realizar una prueba de hipótesis al nivel de significancia del 5%.

Solución

Hipótesis de investigación:

\(H_o\): Los trabajadores del condado de Santa Clara eligen métodos de desplazamiento que coinciden con los promedios de Estados Unidos.

\(H_a\): Los trabajadores del condado de Santa Clara eligen métodos de desplazamiento que no coinciden con los promedios de Estados Unidos.

También podemos exponer las hipótesis en términos de parámetros poblacionales,\(p_i\) para cada categoría. Bajo la Hipótesis Nula, esperaríamos que las proporciones de Santa Clara fueran las mismas que los datos del Censo de Estados Unidos 2010.

Hipótesis de investigación:

\(H_o: p_{1}=.763 p_{2}=.098 p_{3}=.050 p_{4}=.028 p_{5}=.018 p_{6}=.043\)

\(H_a\): Al menos uno\(p_i\) es diferente a lo que se declaró en\(H_o\)

Modelo estadístico: Prueba de bondad de ajuste de Chi‐cuadrado.

Suposición Importante: El Valor Esperado de Cada Categoría debe ser mayor o igual a 5. En este ejemplo verifique el más bajo\(p_{i}: E_{5}=n p_{5}=(1000)(.018)=18 \geq 5\), por lo que el modelo es apropiado.

Estadística de prueba:\(\chi^{2}=\sum_{i=1}^{k} \dfrac{\left(O_{i}-E_{i}\right)^{2}}{E_{i}} \qquad \mathrm{df}=6-1=5\)

Regla de Decisión (Método de Valor Crítico): Rechazar\(H_o\) si\(\chi^{2}>11.071 (\alpha=.05, 5 \mathrm{df})\)

Después de diseñar el experimento, se realizó la muestra del condado de Santa Clara, que se muestra en la Columna de Frecuencia Observada de la siguiente tabla. Las Columnas de Proporción Esperada y Frecuencia Esperada se calculan utilizando el Censo 2010 de Estados Unidos.

Resultados:

Dado que el Estadístico de Prueba de 16.2791 supera el valor crítico de 11.071, la decisión es Rechazar\(H_o\). Bajo el método\(p\) ‐value, también\(H_o\) se rechaza ya\(p \text {-value }=P\left(\chi^{2}>16.2791\right)=0.006\) que el cual es menor que el Nivel\(\alpha\) de Significancia del 5%.

Conclusión:

Los trabajadores del condado de Santa Clara no tienen las mismas frecuencias de método de desplazamiento que los trabajadores en todo Estados Unidos.