22.3: Tablas de Contingencia y Prueba de Dos Vías

Última actualización
Guardar como PDF

Page ID: 150769

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

Otra forma en la que solemos utilizar la prueba de chi-cuadrado es preguntándonos si dos variables categóricas están relacionadas entre sí. Como ejemplo más realista, tomemos la pregunta de si es más probable que un conductor negro sea registrado cuando es detenido por un policía, en comparación con un conductor blanco. El Proyecto de Policía Abierta de Stanford (https://openpolicing.stanford.edu/) ha estudiado esto y proporciona datos que podemos usar para analizar la pregunta. Utilizaremos los datos del Estado de Connecticut ya que son bastante pequeños. Estos datos se limpiaron primero para eliminar todos los datos innecesarios.

La forma estándar de representar datos a partir de un análisis categórico es a través de una tabla de contingencia, que presenta el número o proporción de observaciones que caen dentro de cada combinación posible de valores para cada una de las variables. En la siguiente tabla se muestra la tabla de contingencia para los datos de búsqueda policial. También puede ser útil mirar la tabla de contingencia usando proporciones en lugar de números brutos, ya que son más fáciles de comparar visualmente, por lo que aquí incluimos números absolutos y relativos.

Cuadro 22.2: Tabla de contingencia para datos de búsqueda policial
buscó	Negro	Blanco	Negro (relativo)	Blanco (relativo)
FALSE	36244	239241	0.13	0.86
TRUE	1219	3108	0.00	0.01

La prueba de chi-cuadrado de Pearson nos permite probar si las frecuencias observadas son diferentes de las frecuencias esperadas, por lo que necesitamos determinar qué frecuencias esperaríamos en cada celda si las búsquedas y la raza no estuvieran relacionadas, lo que podemos definir como independientes. Recuerda del capítulo sobre probabilidad que si X e Y son independientes, entonces:

$P (X\ cap Y) = P (X) * P (Y)$ Es decir, la probabilidad conjunta bajo la hipótesis nula de independencia es simplemente el producto de las probabilidades marginales de cada variable individual. Las probabilidades marginales son simplemente las probabilidades de que cada evento ocurra independientemente de otros eventos. Podemos calcular esas probabilidades marginales, y luego multiplicarlas juntas para obtener las proporciones esperadas bajo la independencia.

	Negro	Blanco
No se buscó	P (NS) *P (B)	P (NS) *P (W)	P (NS)
Buscó	P (S) *P (B)	P (S) *P (W)	P (S)
	P (B)	P (W)

Cuadro 22.3: Resumen de la tabla de contingencia bidireccional para datos de búsqueda policial
buscó	driver_race	n	esperado	STDSQdiff
FALSE	Negro	36244	36884	11.1
TRUE	Negro	1219	579	706.3
FALSE	Blanco	239241	238601	1.7
TRUE	Blanco	3108	3748	109.2

Luego calculamos el estadístico chi-cuadrado, que sale a 828.3. Para calcular un valor p, necesitamos compararlo con la distribución chi-cuadrada nula para determinar qué tan extremo se compara nuestro valor chi-cuadrado con nuestra expectativa bajo la hipótesis nula. Los grados de libertad para esta distribución son $df = (nFilas - 1) * (nColumnas - 1)$ - así, para una mesa 2X2 como la de aquí, $df$ . La intuición aquí es que calcular las frecuencias esperadas requiere que usemos tres valores: el número total de observaciones y la probabilidad marginal para cada una de las dos variables. Así, una vez que se computan esos valores, sólo hay un número que es libre de variar, y así hay un grado de libertad. Dado esto, podemos calcular el valor p para el estadístico chi-cuadrado, que es aproximadamente lo más cercano a cero como se puede obtener: $3.79e^ {-182}$ . Esto demuestra que los datos observados serían muy improbables si realmente no hubiera relación entre la raza y las búsquedas policiales, y así deberíamos rechazar la hipótesis nula de independencia.

También podemos realizar esta prueba fácilmente usando la función chisq.test () en R:

## 
##  Pearson's Chi-squared test
## 
## data:  summaryDf2wayTable
## X-squared = 828, df = 1, p-value <2e-16