Saltar al contenido principal
LibreTexts Español

22.3: Tablas de Contingencia y Prueba de Dos Vías

  • Page ID
    150769
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Otra forma en la que solemos utilizar la prueba de chi-cuadrado es preguntándonos si dos variables categóricas están relacionadas entre sí. Como ejemplo más realista, tomemos la pregunta de si es más probable que un conductor negro sea registrado cuando es detenido por un policía, en comparación con un conductor blanco. El Proyecto de Policía Abierta de Stanford (https://openpolicing.stanford.edu/) ha estudiado esto y proporciona datos que podemos usar para analizar la pregunta. Utilizaremos los datos del Estado de Connecticut ya que son bastante pequeños. Estos datos se limpiaron primero para eliminar todos los datos innecesarios.

    La forma estándar de representar datos a partir de un análisis categórico es a través de una tabla de contingencia, que presenta el número o proporción de observaciones que caen dentro de cada combinación posible de valores para cada una de las variables. En la siguiente tabla se muestra la tabla de contingencia para los datos de búsqueda policial. También puede ser útil mirar la tabla de contingencia usando proporciones en lugar de números brutos, ya que son más fáciles de comparar visualmente, por lo que aquí incluimos números absolutos y relativos.

    Cuadro 22.2: Tabla de contingencia para datos de búsqueda policial
    buscó Negro Blanco Negro (relativo) Blanco (relativo)
    FALSE 36244 239241 0.13 0.86
    TRUE 1219 3108 0.00 0.01

    La prueba de chi-cuadrado de Pearson nos permite probar si las frecuencias observadas son diferentes de las frecuencias esperadas, por lo que necesitamos determinar qué frecuencias esperaríamos en cada celda si las búsquedas y la raza no estuvieran relacionadas, lo que podemos definir como independientes. Recuerda del capítulo sobre probabilidad que si X e Y son independientes, entonces:

    P(XY)=P(X)*P(Y)P (X\ cap Y) = P (X) * P (Y)Es decir, la probabilidad conjunta bajo la hipótesis nula de independencia es simplemente el producto de las probabilidades marginales de cada variable individual. Las probabilidades marginales son simplemente las probabilidades de que cada evento ocurra independientemente de otros eventos. Podemos calcular esas probabilidades marginales, y luego multiplicarlas juntas para obtener las proporciones esperadas bajo la independencia.

    Negro Blanco
    No se buscó P (NS) *P (B) P (NS) *P (W) P (NS)
    Buscó P (S) *P (B) P (S) *P (W) P (S)
      P (B) P (W)  
    Cuadro 22.3: Resumen de la tabla de contingencia bidireccional para datos de búsqueda policial
    buscó driver_race n esperado STDSQdiff
    FALSE Negro 36244 36884 11.1
    TRUE Negro 1219 579 706.3
    FALSE Blanco 239241 238601 1.7
    TRUE Blanco 3108 3748 109.2

    Luego calculamos el estadístico chi-cuadrado, que sale a 828.3. Para calcular un valor p, necesitamos compararlo con la distribución chi-cuadrada nula para determinar qué tan extremo se compara nuestro valor chi-cuadrado con nuestra expectativa bajo la hipótesis nula. Los grados de libertad para esta distribución sondf=(nRows1)*(nColumns1)df = (nFilas - 1) * (nColumnas - 1)- así, para una mesa 2X2 como la de aquí,df=(21)*(21)=1df= (2-1) * (2-1) =1. La intuición aquí es que calcular las frecuencias esperadas requiere que usemos tres valores: el número total de observaciones y la probabilidad marginal para cada una de las dos variables. Así, una vez que se computan esos valores, sólo hay un número que es libre de variar, y así hay un grado de libertad. Dado esto, podemos calcular el valor p para el estadístico chi-cuadrado, que es aproximadamente lo más cercano a cero como se puede obtener:3.79e1823.79e^ {-182}. Esto demuestra que los datos observados serían muy improbables si realmente no hubiera relación entre la raza y las búsquedas policiales, y así deberíamos rechazar la hipótesis nula de independencia.

    También podemos realizar esta prueba fácilmente usando la función chisq.test () en R:

    ## 
    ##  Pearson's Chi-squared test
    ## 
    ## data:  summaryDf2wayTable
    ## X-squared = 828, df = 1, p-value <2e-16

    This page titled 22.3: Tablas de Contingencia y Prueba de Dos Vías is shared under a not declared license and was authored, remixed, and/or curated by Russell A. Poldrack via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.