14.5: Tablas de contingencia para dos variables

Última actualización
Guardar como PDF

Page ID: 150979

Foster et al.
University of Missouri-St. Louis, Rice University, & University of Houston, Downtown Campus via University of Missouri’s Affordable and Open Access Educational Resources Initiative

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

La prueba de bondad de ajuste es una herramienta útil para evaluar una sola variable categórica. Sin embargo, lo que es más común es querer saber si dos variables categóricas están relacionadas entre sí. Este tipo de análisis es similar a una correlación, siendo la única diferencia que estamos trabajando con datos nominales, lo que viola los supuestos de los coeficientes de correlación tradicionales. Aquí es donde la\(\chi^2\) prueba de independencia viene muy bien.

Como se señaló anteriormente, nuestra única descripción para los datos nominales es la frecuencia, por lo que nuevamente presentaremos nuestras observaciones en una tabla de frecuencias. Cuando tenemos dos variables categóricas, se cruza nuestra tabla de frecuencias. Es decir, se presenta cada combinación de niveles de cada variable categórica. Este tipo de tabla de frecuencias se denomina tabla de contingencia porque muestra la frecuencia de cada categoría en una variable, supeditada al nivel específico de la otra variable.

Una tabla de contingencia de ejemplo se muestra en la Tabla\(\PageIndex{1}\), que muestra si 168 estudiantes universitarios vieron o no deportes universitarios creciendo (Sí/No) y si la elección final de los estudiantes de a qué universidad asistir estuvo influenciada por los equipos deportivos de la universidad (Sí — Primaria, Sí — Algo, No):

Tabla\(\PageIndex{1}\): Tabla de contingencia de deportes universitarios y toma de decisiones
Deportes Universitarios		Decisión Afectada
Deportes Universitarios		Primaria	Algo	No	Total
Vigilado	Sí	47	26	14	87
Vigilado	No	21	23	37	81
	Total	68	49	51	168

A diferencia de la tabla de frecuencias para nuestra prueba de bondad de ajuste, nuestra tabla de contingencia no contiene valores esperados, solo datos observados. Dentro de nuestra mesa, dondequiera que se crucen nuestras filas y columnas, tenemos una celda. Una celda contiene la frecuencia de observación de sus correspondientes niveles específicos de cada variable al mismo tiempo. La celda superior izquierda en Table nos\(\PageIndex{1}\) muestra que 47 personas en nuestro estudio vieron los deportes universitarios cuando eran niños Y tenían los deportes universitarios como su principal factor decisivo en qué universidad asistir.

Las celdas se numeran en función de en qué fila se encuentran (las filas se numeran de arriba a abajo) y en qué columna se encuentran (las columnas se numeran de izquierda a derecha). Siempre nombramos la celda usando (R, C), con la fila primera y la columna segunda. Una manera rápida y fácil de recordar el pedido es que R/C Cola existe pero C/R Cola no. Con base en esta convención, la celda superior izquierda que contiene a nuestros 47 participantes que vieron deportes universitarios cuando eran niños y tenían el deporte como criterio primario es la celda (1,1). Al lado, que cuenta con 26 personas que vieron deportes universitarios cuando eran niños pero que tenían deportes sólo afectaban algo su decisión, está celular (1,2), y así sucesivamente. Solo numeramos las celdas donde se cruzan nuestras categorías. No numeramos nuestras celdas totales, que tienen su propio nombre especial: valores marginales.

Los valores marginales son los valores totales para una sola categoría de una variable, sumados a través de los niveles de la otra variable. En el cuadro 3, estos valores marginales se han puesto en cursiva para facilitar su explicación, aunque normalmente no es así. Podemos ver que, en total, 87 de nuestros participantes (47+26+14) vieron deportes universitarios creciendo y 81 (21+23+37) no. El total de estos dos valores marginales es de 168, el número total de personas en nuestro estudio. De igual manera, 68 personas utilizaron el deporte como criterio primario para decidir a qué universidad asistir, 50 lo consideraron algo, y 50 no lo utilizaron como criterio en absoluto. El total de estos valores marginales es también 168, nuestro número total de personas. Los valores marginales para filas y columnas siempre sumarán ambos al número total de participantes,\(N\), en el estudio. Si no lo hacen, entonces se hizo un error de cálculo y debes regresar y revisar tu trabajo.

Valores esperados de las Tablas de Contingencia

Nuestros valores esperados para las tablas de contingencia se basan en la misma lógica que lo fueron para las tablas de frecuencias, pero ahora debemos incorporar información sobre la frecuencia con la que se observó cada fila y columna (los valores marginales) y cuántas personas estaban en la muestra en general (\(N\)) para encontrar qué oportunidad aleatoria habría hecho que las frecuencias fuera para ser. Específicamente:

\[E_{i j}=\dfrac{R_{i} C_{j}}{N} \]

Los subíndices\(i\) e\(j\) indican qué fila y columna, respectivamente, corresponden a la celda para la que estamos calculando la frecuencia esperada, y los\(R_i\) y\(C_j\) son los valores marginales de fila y columna, respectivamente. \(N\)sigue siendo el tamaño total de la muestra. Utilizando los datos de Table\(\PageIndex{1}\), podemos calcular la frecuencia esperada para la celda (1,1), los observadores deportivos universitarios que utilizaron el deporte en su criterio primario, para ser:

\[E_{1,1}=\frac{87 * 68}{168}=35.21 \nonumber \]

Podemos seguir la misma matemática para encontrar todos los valores esperados para esta tabla:

Tabla\(\PageIndex{2}\): Tabla de contingencia de deportes universitarios y toma de decisiones
Deportes Universitarios		Decisión Afectada
Deportes Universitarios		Primaria	Algo	No	Total
Vigilado	Sí	35.21	25.38	26.41	87
Vigilado	No	32.79	23.62	24.59	81
	Total	68	49	51

Observe que los valores marginales todavía suman los mismos totales que antes. Esto se debe a que las frecuencias esperadas son solo promedios de fila y columna simultáneamente. Nuestro total también\(N\) sumará el mismo valor.

Las frecuencias observadas y esperadas pueden ser utilizadas para calcular el mismo\(\chi^{2}\) estadístico que hicimos para la prueba de bondad de ajuste. Antes de llegar, sin embargo, deberíamos mirar las hipótesis y grados de libertad utilizados para las tablas de contingencia.