Saltar al contenido principal
LibreTexts Español

8: Plaza Chi

  • Page ID
    150432
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    En el capítulo 5, se desarrolló la teoría inferencial para datos categóricos con base en la distribución binomial. Recordemos que la distribución binomial muestra la probabilidad del posible número de éxitos en una muestra de tamaño n cuando solo hubo dos posibles resultados independientes, éxito y fracaso. Sin embargo, ¿qué sucede si hay más de dos posibles resultados?

    Considera las siguientes tres preguntas.

    1. ¿La calculadora TI 84 genera números iguales de 0-9 al usar el generador de enteros aleatorios?
    2. Hacer algo sobre el cambio climático ha sido un reto para la humanidad. El sitio web Edge.Org tenía una propuesta presentada por Lee Smolin, físico del Instituto Perimeter y autor del libro Time Reborn. (www.edge.org/conversation/del... ooperation/ #rc 30 de nov de 2013.) La esencia de la propuesta es que se debe colocar un impuesto al carbono sobre todo el carbono que se utilice pero en lugar de que el dinero vaya al gobierno va a cuentas individuales de jubilación climática. Cada persona tendría esa cuenta. Cada cuenta tendría dos categorías de posibles inversiones que un individuo podría elegir. Las inversiones de categoría A serían en cosas que mitiguen el cambio climático (por ejemplo, solar, eólica, etc.). Las inversiones de categoría B estarían en cosas que podrían funcionar bien si no ocurre el cambio climático (por ejemplo, servicios públicos que queman carbón, desarrollos inmobiliarios costeros y empresas de automóviles que no producen autos eficientes en combustible o eléctricos). ¿Existe correlación entre la opinión de una persona sobre el cambio climático y su elección de inversión?
    3. Los huracanes se clasifican en la categoría 1,2,3,4,5. ¿Es diferente la distribución de los huracanes en los años 1951- 2000 de lo que era en 1901-1950?

    Antes de que se pueda hacer un análisis, es necesario comprender el tipo de datos que se recogen para cada una de estas preguntas.

    En la pregunta 1, los datos que se recopilarán son los números 0 a 9. Si bien los números suelen considerarse cuantitativos, en este caso simplemente queremos saber si la calculadora produce cada número específico. Por lo tanto, en realidad se trata de la frecuencia con la que se producen estos números. Si el proceso utilizado por la calculadora es suficientemente aleatorio, entonces las frecuencias para todos los números deberían ser iguales si se toma una muestra lo suficientemente grande. Entonces, a pesar de parecer datos cuantitativos, en realidad se trata de datos categóricos, con 10 categorías diferentes y siendo los datos que se seleccionó un número.

    En la pregunta 2, imagina una encuesta de dos preguntas en la que se haga a la gente:

    1. ¿Crees que el cambio climático está ocurriendo porque los humanos han estado usando fuentes de carbono que llevan a un aumento de los gases de efecto invernadero? Sí No
    2. ¿Cuál de las siguientes representa más de cerca la elección que tomaría para las inversiones de su cuenta de jubilación climática individual? Categoría A Categoría B

    Para esta pregunta, hay una población. Cada persona que realice la encuesta proporcionaría dos respuestas. El objetivo es determinar si existe correlación entre su opinión sobre el cambio climático y su elección de inversión. Una forma alternativa de decir esto es que las dos variables son independientes entre sí, lo que significa que una respuesta no afecta a la otra, o no son independientes lo que significa que la opinión sobre el cambio climático y la estrategia de inversión están relacionadas.

    En la pregunta 3, hay dos poblaciones. La primera población es huracanes en 1901-50 y la segunda población es huracanes en 1951-2000. Hay 5 categorías de huracanes y el objetivo es ver si la distribución de huracanes en estas categorías es la misma o diferente.

    Los problemas se ajustan a una de las siguientes clases de problemas, en orden: bondad de ajuste, prueba de independencia y prueba de homogeneidad. A continuación se muestra el uso de estos problemas y sus hipótesis.

    1. Bondad de ajuste

      La prueba de bondad de ajuste se utiliza cuando una variable aleatoria categórica con más de dos niveles tiene una distribución esperada.

      \(H_0\): La distribución es la misma que se esperaba

      \(H_1\): La distribución es diferente a la esperada
    2. Prueba de independencia

      La prueba de independencia se utiliza cuando existen dos variables aleatorias categóricas para una misma unidad (o persona) y el objetivo es determinar una correlación entre ellas.

      \(H_0\): Las dos variables aleatorias son independientes (sin correlación)

      \(H_1\): Las dos variables aleatorias no son independientes (correlación)

      Si los datos son significativos, que el conocimiento de la de una de las variables aleatorias aumenta la probabilidad de conocer el valor de la otra variable aleatoria en comparación con el azar.
    3. Prueba de homogeneidad

      La prueba de homogeneidad se utiliza cuando hay muestras tomadas de dos (o más) poblaciones con el objetivo de determinar si la distribución de una variable aleatoria es similar o diferente en las dos poblaciones.

      \(H_0\): Las dos poblaciones son homogéneas

      \(H_1\): Las dos poblaciones no son homogéneas

      Dado que todos los problemas tienen datos que se pueden contar exactamente una vez, la estrategia es determinar en qué se diferencia la distribución de los recuentos de la distribución esperada. El análisis de todos estos problemas utiliza la misma fórmula estadística de prueba llamada\(chi ^2\) (Chi Square).
      \[\chi^2 = \sum \dfrac{(O - E)^2}{E}\]
      La distribución que se utiliza para probar las hipótesis es el conjunto de\(chi ^2\) distribuciones. Estas distribuciones están sesgadas positivamente. No pueden ser negativos. Cada distribución se basa en el número de grados de libertad. A diferencia de las distribuciones t en las que los grados de libertad se basaron en el tamaño de la muestra, en el caso de\(chi ^2\), los grados de libertad se basan en el número de niveles de la (s) variable (s) aleatoria (s).

    Las siguientes distribuciones muestran 10,000 muestras de tamaño n = 100 en las que se calcularon y graficaron los estadísticos de\(chi ^2\) prueba. Los números de grados de libertad en estas cuatro gráficas son 1,2,5, y 9.

    2019-05-17 1.50.05.png

    Observe cómo la distribución de Chi Square se vuelve menos sesgada y se acerca a una distribución normal a medida que aumenta el número de grados de libertad. Un incremento en el número de grados de libertad corresponde a un incremento en el número de niveles del factor explicativo. La manera en que se encuentran los grados de libertad es diferente para la prueba de bondad de ajuste en comparación con la prueba de independencia y prueba de homogeneidad. Cada método se explicará a su vez.

    Prueba de bondad de ajuste

    1. ¿La calculadora TI 84 genera números iguales de 0-9 al usar el generador de enteros aleatorios?

    En este experimento, 12 números entre 1 y 100 fueron generados aleatoriamente por la calculadora TI 84. Estos 12 números se utilizaron como valores de semilla. Después de sembrar la calculadora con cada número, se generaron aleatoriamente 10 números nuevos entre 0 y 9 usando la función randint en la calculadora. Así, se produjeron un total de 120 números entre 0 y 9. La frecuencia de estos números se muestra en la tabla siguiente.

    0 1 2 3 4 5 6 7 8 9
    15 11 12 14 10 14 10 11 14 9

    Las hipótesis a probar son:

    \(H_0\): La frecuencia de celda observada es igual a la frecuencia celular esperada para todas las celdas

    \(H_1\): La frecuencia celular observada no es igual a la frecuencia celular esperada para al menos una celda. Usar un nivel de significancia 0.05

    Esto se puede representar simbólicamente como

    \(H_0\):\(o_1 = \epsilon_1\) para todas las celdas

    \(H_1\):\(o_1 \ne \epsilon_1\) para al menos una celda

    donde ο es la letra griega minúscula omicron que representa la frecuencia celular observada en la población subyacente y ε es la letra griega minúscula épsilon que representa la frecuencia celular esperada. La frecuencia celular esperada siempre debe ser 5 o superior. Si no lo es, las células deben reagruparse.

    La tabla anterior muestra las frecuencias observadas, pero ¿cuáles son las frecuencias esperadas? En teoría, si el proceso es verdaderamente aleatorio, entonces cada número ocurriría con la misma frecuencia si el muestreo se hiciera un número muy grande de veces. Si este es el caso, entonces en una muestra de tamaño 120, con 10 alternativas posibles, el número esperado de frecuencias para cada alternativa debe ser 12. De la tabla, vemos que la mayoría de las frecuencias no son 12, pero lo que se necesita es una manera de determinar si la cantidad de variación que existe es suficiente para sugerir que las frecuencias observadas no son iguales a las frecuencias esperadas. Tal conclusión implicaría que la calculadora no produce un conjunto verdaderamente aleatorio de números. La estrategia es encontrar\(\chi^2\) y luego usar la\(\chi^2\) distribución adecuada para encontrar el valor p. Una forma de encontrar\(\chi^2 = \sum \dfrac{(O - E)^2}{E}\) es con una mesa.

    Observado Esperado O - E \((O - E)^2\) \(\dfrac{(O - E)^2}{E}\)
    15 12 3 \ ((O - E) ^2\)” style="vertical-align:middle; ">9 \ (\ dfrac {(O - E) ^2} {E}\)” style="vertical-align:middle; ">\(\dfrac{9}{12}\)
    11 12 -1 \ ((O - E) ^2\)” style="vertical-align:middle; ">1 \ (\ dfrac {(O - E) ^2} {E}\)” style="vertical-align:middle; ">\(\dfrac{1}{12}\)
    12 12 0 \ ((O - E) ^2\)” style="vertical-align:middle; ">0 \ (\ dfrac {(O - E) ^2} {E}\)” style="vertical-align:middle; ">\(\dfrac{0}{12}\)
    14 12 2 \ ((O - E) ^2\)” style="vertical-align:middle; ">4 \ (\ dfrac {(O - E) ^2} {E}\)” style="vertical-align:middle; ">\(\dfrac{4}{12}\)
    10 12 -2 \ ((O - E) ^2\)” style="vertical-align:middle; ">4 \ (\ dfrac {(O - E) ^2} {E}\)” style="vertical-align:middle; ">\(\dfrac{4}{12}\)
    14 12 2 \ ((O - E) ^2\)” style="vertical-align:middle; ">4 \ (\ dfrac {(O - E) ^2} {E}\)” style="vertical-align:middle; ">\(\dfrac{4}{12}\)
    10 12 -2 \ ((O - E) ^2\)” style="vertical-align:middle; ">4 \ (\ dfrac {(O - E) ^2} {E}\)” style="vertical-align:middle; ">\(\dfrac{4}{12}\)
    11 12 -1 \ ((O - E) ^2\)” style="vertical-align:middle; ">1 \ (\ dfrac {(O - E) ^2} {E}\)” style="vertical-align:middle; ">\(\dfrac{1}{12}\)
    14 12 2 \ ((O - E) ^2\)” style="vertical-align:middle; ">4 \ (\ dfrac {(O - E) ^2} {E}\)” style="vertical-align:middle; ">\(\dfrac{4}{12}\)
    9 12 -3 \ ((O - E) ^2\)” style="vertical-align:middle; ">9 \ (\ dfrac {(O - E) ^2} {E}\)” style="vertical-align:middle; ">\(\dfrac{9}{12}\)
    \ ((O - E) ^2\)” style="vertical-align:middle; "> \ (\ dfrac {(O - E) ^2} {E}\)” style="vertical-align:middle; ">\(\chi^2 = \dfrac{40}{12} = 3.33\)

    Si r representa el número de filas, entonces el número de grados de libertad en una prueba de bondad de ajuste es:

    df = r — 1.

    Para esta prueba de bondad de ajuste, hay 10 filas de datos. En consecuencia hay 9 grados de libertad.

    El valor p para se\(\chi^2\) puede encontrar usando la tabla de las Distribuciones de Chi Cuadrado al final de este capítulo o su calculadora.

    Las Distribuciones Chi-Cuadradas también se pueden utilizar para encontrar el valor p. Usando la siguiente tabla, encuentra los grados de libertad en la columna izquierda, localiza el\(\chi^2\) valor en la fila, luego mueve a la fila que muestra el área a la derecha y usa un signo de desigualdad para mostrar el valor p. Si el valor p es mayor que\(\alpha\), entonces use el símbolo mayor que. Si es menor que α, use el símbolo menor que, pero en cualquier caso, use la mayor precisión posible. Por ejemplo, si α es 0.05 pero el área a la derecha es menor que 0.025, entonces se prefiere p < 0.025 sobre p < 0.05.

    En este ejemplo,\(\chi^2\) = 3.33, hay 9 grados de libertad, por lo que el valor p > 0.9.

    2019-05-17 2.03.02.png

    \(\chi^2 = 3.33\)

    El uso de\(\chi^2\) cdf (bajo, alto, df) en la calculadora TI 84 da como resultado\(\chi^2\) cdf (3.33, 1E99,9) = 0.9496.

    Dado que este valor p es claramente superior a 0.05, se puede escribir la conclusión:

    Al nivel de significancia del 5%, los valores de celda observados no son significativamente diferentes a los valores esperados de celda (\(\chi^2\)= 3.33, p = 0.9496, df=9). La calculadora TI84 parece producir un buen conjunto de enteros aleatorios.

    En el caso de la calculadora, si es aleatoria en la generación de números, esperaríamos el mismo número de valores en cada categoría. Es decir, esperaríamos obtener el mismo número de 0s, 1s, 2s, etc. ya que la muestra consistió en 120 ensayos con 10 posibilidades para cada resultado, el valor esperado es 12 porque 120 dividido por 10 es 12. Pero, ¿qué pasa si el resultado esperado no es el mismo en todos los casos?

    En el otoño de 2013, nuestro colegio estaba conformado por 54% caucásicos, 14% hispano/latinos, 11% afroamericanos, 10% asiáticos/isleños del Pacífico, 1% nativos americanos, 3% internacionales y 7% otros. Si quisiéramos determinar si la distribución racial/étnica de los estudiantes de estadística es diferente a la de toda la escuela, podríamos realizar una encuesta a los estudiantes de estadística para obtener los datos observados. La siguiente tabla contiene datos hipotéticos observados. Ya que hay 300 alumnos en la muestra y con base en la matrícula universitaria, 54% del cuerpo estudiantil es blanco, entonces el número esperado de alumnos en la clase que son blancos se encuentra multiplicando 300 por 0.54. Se toma el mismo enfoque para cada carrera. Esto se muestra en la tabla. Observe que el total en la columna esperada es el mismo que en la columna observada.

    Raza/Etnicidad Observado Esperado
    Caucásico/blanco (54%) 154 0.54 (300) = 162
    H ispánico/Latino (14%) 48 0.14 (300) = 42
    Un fricano americano/negro (11%) 36 0.11 (300) = 33
    Un siano/isleño del Pacífico (10%) 35 0.10 (300) = 30
    Nativo Americano (1%) 6 0.01 (300) = 3
    Internacional (3%) 9 0.03 (300) = 9
    Otros (7%) 12 0.07 (300) = 21
    Total 300 Total 300

    El resto de la prueba de bondad de ajuste se realiza igual que con el ejemplo de la calculadora y no se demostrará aquí.

    Prueba de la Plaza Chi para la Independencia

    La Prueba de Chi Cuadrado para la Independencia se utiliza cuando un investigador quiere determinar una relación entre dos variables categóricas aleatorias recolectadas en una misma unidad (o persona). Las preguntas de muestra incluyen:

    1. ¿Existe una relación entre la afiliación religiosa de una persona y su preferencia de partido político?
    2. ¿Existe una relación entre la disposición de una persona a comer alimentos genéticamente modificados y su disposición a usar la medicina genéticamente modificada?
    3. ¿Existe una relación entre el campo de estudio de un egresado universitario y su capacidad de pensar críticamente?
    4. ¿Existe una relación entre la calidad del sueño que recibe una persona y su actitud durante el día siguiente?

    Como ejemplo, aprenderemos la mecánica de la prueba para la independencia utilizando el ejemplo hipotético de respuestas a las dos preguntas sobre cambio climático e inversiones.

    1. ¿Crees que el cambio climático está ocurriendo porque los humanos han estado usando fuentes de carbono que llevan a un aumento de los gases de efecto invernadero? Sí No
    2. ¿Cuál de las siguientes representa más de cerca la elección que tomaría para las inversiones de su cuenta de jubilación climática individual? Categoría A Categoría B

    Categoría A — solar, eólica Categoría B — Carbón, desarrollo del lado del océano

    \(H_0\): Las dos variables aleatorias son independientes (sin correlación)
    \(H_1\): Las dos variables aleatorias no son independientes (correlación)

    Esto también se puede representar simbólicamente como

    \(H_0: o_1 = \epsilon_1\)para todas las células
    \(H_1: o_1 \ne \epsilon_1\) para al menos una célula
    donde\(o\) está la letra griega minúscula omicron que representa la frecuencia celular observada en la población subyacente y\(\epsilon\) es la letra griega minúscula épsilon que representa la célula esperada frecuencia. La frecuencia celular esperada siempre debe ser 5 o superior. Si no lo es, las células deben reagruparse.

    Utilizar un nivel de significancia de 0.05.

    Debido a que esto se hará con datos simulados, será útil hacerlo dos veces, produciendo conclusiones opuestas cada vez.

    Los datos se presentarán en una tabla de contingencia 2 x 2.

    Versión 1
    Observada
    Sí, los humanos contribuyen al cambio climático No, los humanos no contribuyen al cambio climático Totales
    Categoría A Inversiones (eólica, solar) 56 54
    Categoría B Inversiones (carbón, desarrollos de costa oceánica) 47 43
    Total

    La prueba de independencia utiliza la misma fórmula que la prueba de bondad de ajuste. \(\chi^2 = \sum \dfrac{(O - E)^2}{E}\). Sin embargo, a diferencia de esa prueba, no hay una indicación clara de cuáles son los valores esperados. En cambio deben calcularse, que es un proceso de cuatro pasos.

    Paso 1, Encuentra los totales de fila y columna y el total general.

    Versión 1
    Observada
    Sí, los humanos contribuyen al cambio climático No, los humanos no contribuyen al cambio climático Totales
    Categoría A Inversiones (eólica, solar) 56 54 110
    Categoría B Inversiones (carbón, desarrollos de costa oceánica) 47 43 90
    Total 103 97 200

    Paso 2. Crear una nueva tabla para los valores esperados. El proceso de razonamiento para calcular los valores esperados consiste en considerar primero la proporción de todos los valores que caen en cada columna. En la primera columna hay 103 valores de 200 que es\(\dfrac{}{} = 0.515\). En la segunda columna hay 97 de 200 valores (0.485). Dado que 51.5% de los valores están en la primera columna, entonces se esperaría que 51.5% de los valores de la primera fila también estarían en la primera columna. Así, 0.515 (110) da un valor esperado de 56.65. De igual manera, 0.485 (90) producirá el valor esperado de 43.65 para la última celda. Como fórmula, esto se puede expresar como

    \[\dfrac{Column\ Total}{Grand\ Total} \cdot Row\ Total\]

    Versión 1
    Observada
    Sí, los humanos contribuyen al cambio climático No, los humanos no contribuyen al cambio climático Totales
    Categoría A Inversiones (eólica, solar) \(\dfrac{103}{200} \cdot 110 = 56.65\) \(\dfrac{97}{200} \cdot 110 = 53.35\) 110
    Categoría B Inversiones (carbón, desarrollos de costa oceánica) \(\dfrac{103}{200} \cdot 90 = 46.35\) \(\dfrac{97}{200} \cdot 110 = 43.65\) 90
    Total 103 97 200

    Paso 3. Use una tabla similar a la utilizada en la prueba de Bondad de Ajuste para calcular el Chi Cuadrado.

    Observado Esperado \(O - E\) \((O - E)^2\) \(\dfrac{(O - E)^2}{E}\)
    56 56.65 -0.65 0.4225 0.0075
    54 53.35 0.65 0.4225 0.0079
    47 46.35 0.65 0.4225 0.0091
    43 43.65 -0.65 0.4225 0.0097
    \(\chi^2 = 0.0342\)

    Paso 4. Determinar los grados de libertad y encontrar el valor p

    Si R es el número de Filas en la Tabla de contingencia y C es el número de columnas en la tabla de contingencia, entonces el número de grados de libertad para la prueba de independencia se encuentra como

    df = (R - 1) (C - 1).

    Para una tabla de contingencia de 2 x 2 como en este problema, solo hay 1 grado de libertad porque (2-1) (2-1) = 1.

    El valor p para se\(\chi^2\) puede encontrar usando la tabla o su calculadora.

    En la tabla ubicamos 0.034 en la fila con 1 grado de libertad, luego nos movemos hacia arriba a la fila para el área a la derecha. Dado que el área a la derecha es mayor que 0.05, pero más específicamente es mayor que 0.1, el valor p se escribe como p > 0.1.

    2019-05-17 2.34.09.png

    En tu calculadora, usa\(\chi^2\) cdf (bajo, alto, df). En este caso,\(\chi^2\) cdf (0.0342, 1E99, 1) = 0.853.

    Dado que los datos no son significativos, concluimos que la estrategia de inversión de las personas es independiente de su opinión sobre las contribuciones humanas al cambio climático.

    La versión 2 de este problema utiliza la siguiente tabla de contingencia.

    Versión 2
    Observada
    Sí, los humanos contribuyen al cambio climático No, los humanos no contribuyen al cambio climático Totales
    Categoría A Inversiones (eólica, solar) 80 30
    Categoría B Inversiones (carbón, desarrollos de costa oceánica) 30 60
    Total

    Esta vez, todo el problema se calculará usando la calculadora TI 84 en lugar de construir las tablas que se utilizaron en la Versión 1.

    Paso 1. Matriz
    Paso 2. Configura 1: [A] en una matriz de 2 x 2 seleccionando Editar Entrar y luego modificar la R x C según sea necesario. Paso 3. Ingresa las frecuencias tal y como se muestran en la tabla.
    Paso 4. STAT TEST\(\chi^2\) − Test
    Observado: [A]
    Esperado: [B] (no es necesario crear la matriz Esperada, la calculadora lo hará para usted.)
    Seleccione Calcular para ver los resultados:
    \(\chi^2\) = 31.03764922
    p=2.5307155e-8
    df=1

    En este caso, los datos son significativos. Esto significa que existe una correlación entre la opinión de cada persona sobre las contribuciones humanas al cambio climático y su elección de inversiones. Recuerda que la correlación no es causalidad.

    Prueba de Chi Cuadrado para Homogeneidad

    El tercer y último problema se refiere a la clasificación de los huracanes en dos décadas distintas, 1901-50 y 1951-2000. Una teoría sobre el cambio climático es que los huracanes podrían empeorar. ser trabajado usando tablas.

    Los huracanes son clasificados por la Escala de Viento Huracanes Saffir-Simpson.2

    Categoría 1 Vientos sostenidos 74-95 mph
    Categoría 2 Vientos sostenidos 96-110 mph
    Categoría 3 Vientos sostenidos 111-129 mph
    Categoría 4 Vientos sostenidos 130-156 mph
    Categoría 5 Vientos sostenidos 157 o superior.

    Los huracanes de categoría 3, 4 y 5 se consideran importantes.

    Este problema

    La población de interés es la distribución de huracanes para las condiciones climáticas imperantes en su momento. Las hipótesis que se están probando son

    \(H_0\): Las distribuciones son homogéneas

    \(H_1\): Las distribuciones no son homogéneas

    Esto también se puede representar simbólicamente como

    \(H_0: o_1 = \epsilon_1\)para todas las celdas
    \(H_1: o_1 \ne \epsilon_1\) para al menos una celda

    donde\(o\) es la letra griega minúscula omicron que representa la frecuencia celular observada en la población subyacente y\(\epsilon\) es la letra griega minúscula épsilon que representa la frecuencia celular esperada. La frecuencia celular esperada siempre debe ser 5 o superior. Si no lo es, las células deben reagruparse.

    Se utilizará una tabla de contingencia de 5 x 2 para mostrar las frecuencias que se observaron. Las frecuencias esperadas se calcularon de la misma manera que en la prueba de independencia. (http://www.nhc.noaa.gov/pastdec.shtml visto 12/7/13)

    Observado 1901 - 1950 1951 - 2000 Totales
    Categoría 1 37 29 66
    Categoría 2 24 15 39
    Categoría 3 26 21 47
    Categoría 4 7 5 12
    Categoría 5 1 2 3
    Totales 95 72 167
    Esperado 1901 - 1950 1951 - 2000 Totales
    Categoría 1 37.54 28.46 66
    Categoría 2 22.19 16.81 39
    Categoría 3 26.74 20.26 47
    Categoría 4 6.83 5.17 12
    Categoría 5 1.71 1.29 3
    Totales 95 72 167

    Observe que las frecuencias celulares esperadas para huracanes de categoría 5 son menores a 5, por lo que será necesario que rehagamos este problema combinando grupos. El grupo 5 se combinará con el grupo 4 y se proporcionarán las tablas modificadas.

    Observado 1901 - 1950 1951 - 2000 Total
    Categoría 1 37 29 66
    Categoría 2 24 15 39
    Categoría 3 26 21 47
    Categoría 4 y 5 8 7 15
    Total 95 72 167
    Observado 1901 - 1950 1951 - 2000 Total
    Categoría 1 37.54 28.46 66
    Categoría 2 22.19 16.81 39
    Categoría 3 26.74 20.26 47
    Categoría 4 y 5 8.53 6.47 15
    Total 95 72 167
    Observado Esperado \(O - E\) \((O - E)^2\) \(\dfrac{(O - E)^2}{E}\)
    1901 - 50
    Categoría 1 37 37.54 -0.54 0.30 0.008
    Categoría 2 24 22.19 1.81 3.29 0.148
    Categoría 3 26 26.74 -0.74 0.54 0.020
    Categoría 4 y 5 8 8.53 -0.53 0.28 0.033
    1951 - 2000
    Categoría 1 29 28.46 0.54 0.30 0.010
    Categoría 2 15 16.81 -1.81 3.29 0.196
    Categoría 3 21 20.26 0.74 0.54 0.027
    Categoría 4 y 5 7 6.47 0.53 0.28 0.044
    \(\chi^2 = 0.487\)

    Si R es el número de Filas en la Tabla de contingencia y C es el número de columnas en la tabla de contingencia, entonces el número de grados de libertad para la prueba de homogeneidad se encuentra como

    df = (R-1) (C-1).

    Para una tabla de contingencia 4\(\times\) 2 como en este problema, hay 3 grados de libertad porque (4-1) (2-1) = 3 grados de libertad.

    2019-05-17 3.00.37.png

    En la tabla se muestra que el valor p es menor a 0.05. La calculadora confirma esto porque\(\chi^2\) cdf (0.486, 1E99, 3) = 0.9218. En consecuencia, la conclusión es que no existe una diferencia significativa entre la distribución de huracanes en 1951-2000 y 1901-50.

    Distinguir entre el uso de la prueba de independencia y homogeneidad

    Si bien las matemáticas detrás tanto de la prueba de independencia como de la prueba de homogeneidad son las mismas, la intención detrás de su uso e interpretación de los resultados es diferente.

    La prueba de independencia se utiliza cuando se determinan dos variables aleatorias, ambas consideradas como variables de respuesta, para cada unidad. La prueba de homogeneidad se utiliza cuando una de las variables aleatorias es la variable explicativa y los sujetos son seleccionados en función de su nivel de esta variable. La otra variable aleatoria es la variable de respuesta.

    La determinación de qué prueba a utilizar se establece mediante el enfoque de muestreo. Si se definen claramente dos poblaciones de antemano y se realiza una selección aleatoria de cada población, entonces las poblaciones se compararán utilizando la prueba de homogeneidad. Si no se hace ningún esfuerzo para distinguir poblaciones de antemano, y se hace una selección aleatoria de esta población y luego se determinan los valores de las dos variables aleatorias, la prueba de independencia es apropiada.

    Un ejemplo puede aclarar la sutil diferencia entre las dos pruebas. Considera que una variable aleatoria es la preferencia de una persona entre correr y nadar para hacer ejercicio y la otra variable aleatoria es la preferencia de una persona entre ver televisión o leer un libro. Si el investigador selecciona al azar a algunos corredores y algunos nadadores y pregunta a cada grupo sobre su preferencia por la televisión o leer un libro, la prueba de homogeneidad sería apropiada. Por otro lado, si el investigador encuestó a personas al azar y pregunta si prefieren correr o nadar y si prefieren la televisión o la lectura, entonces el objetivo será determinar si existe una correlación entre estas dos variables aleatorias mediante el uso de la prueba de independencia.

    Distribuciones Chi Cuadradas
    Área Izquierda 0.005 0.01 0.025 0.05 0.1 0.9 0.95 0.975 0.99 0.995
    Área Derecha 0.995 0.99 0.975 0.95 0.9 0.1 0.05 0.025 0.01 0.005
    df
    1 0.000 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879
    2 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597
    3 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838
    4 0.207 0.287 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860
    5 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.832 15.086 16.750
    6 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548
    7 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278
    8 1.344 1.647 2.180 2.733 3,490 13.362 15.507 17.535 20.090 21.955
    9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589
    10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188
    11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757
    12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300
    13 3.565 4.107 5.009 5.892 7.041 19.812 22.362 24.736 27.688 29.819
    14 4.075 4.660 5.629 6.571 7.790 21/064 23.685 26.119 29.141 31.319
    15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801
    16 5.142 5,812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267
    17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718
    18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156
    19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582
    20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997
    21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401
    22 8.643 9.542 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796
    23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181
    24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.365 42.980 45.558
    25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928
    26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290
    27 11.808 12.878 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645
    28 12.461 13.565 15.398 16.928 18.939 37.916 41.337 44.461 48.278 50.994
    29 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.335
    30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672
    40 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766
    50 27.991 29.707 32.357 34.764 37.689 63.167 67.505 71.420 76.154 79.490
    60 35.534 37.485 40.482 43.188 46.459 74.397 79.082 83.298 88.379 91.952
    70 43.275 45.442 48.758 51.739 55.329 85.527 90.531 95.023 100.425 104.215
    80 51.172 53.540 57.153 60.391 64.278 96.578 101.879 106.629 112.329 116.321
    90 59.196 61.754 65.647 69.126 73.291 107.565 113.145 118.136 124.116 128.299
    100 67.328 70.065 74.222 77.929 82.358 118.498 124.342 129.561 135.807 140.170
    110 75.550 78.458 82.867 86.792 91.471 129.385 135.480 140.916 147.414 151.948

    This page titled 8: Plaza Chi is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Peter Kaslik via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.