Saltar al contenido principal
Library homepage
 
LibreTexts Español

11.4: Prueba de Independencia

  • Page ID
    153163
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Las pruebas de independencia implican el uso de una tabla de contingencia de valores observados (datos).

    El estadístico de prueba para una prueba de independencia es similar al de una prueba de bondad de ajuste:

    \[\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\]

    donde:

    • \(O =\)valores observados
    • \(E =\)valores esperados
    • \(i =\)el número de filas en la tabla
    • \(j =\)el número de columnas en la tabla

    Hay\(i \cdot j\) términos de la forma\(\frac{(O-E)^{2}}{E}\).

    El valor esperado para cada celda debe ser de al menos cinco para que puedas usar esta prueba.

    Una prueba de independencia determina si dos factores son independientes o no. Primero encontraste el término independencia en Temas de probabilidad. Como revisión, considere el siguiente ejemplo.

    Ejemplo\(\PageIndex{1}\)

    Supongamos\(A =\) una violación por exceso de velocidad en el último año y\(B =\) un usuario de celular mientras conduce. Si\(A\) y\(B\) son independientes entonces\(P(A \text{ AND } B) = P(A)P(B)\). \(A \text{ AND } B\)es el evento de que un conductor recibió una infracción por exceso de velocidad el año pasado y también usó un celular mientras conducía. Supongamos, en un estudio de conductores que recibieron infracciones por exceso de velocidad en el último año, y que usaron celular mientras conducían, que se encuestó a 755 personas. De los 755, 70 presentaron una infracción por exceso de velocidad y 685 no; 305 usaron celulares mientras conducían y 450 no.

    Dejó el número\(y =\) esperado de conductores que usaron un celular mientras conducían y recibieron infracciones por exceso de velocidad.

    Si\(A\) y\(B\) son independientes, entonces\(P(A \text{ AND } B) = P(A)P(B)\). Por sustitución,

    \[\frac{y}{755} = \left(\frac{70}{755}\right)\left(\frac{305}{755}\right) \nonumber\]

    Resolver para\(y\):

    \[y = \frac{(70)(305)}{755} = 28.3 \nonumber\]

    Se espera que alrededor de 28 personas de la muestra usen teléfonos celulares mientras conducen y reciban infracciones por exceso de velocidad.

    En una prueba de independencia, declaramos las hipótesis nulas y alternativas en palabras. Dado que la tabla de contingencia consta de dos factores, la hipótesis nula establece que los factores son independientes y la hipótesis alternativa establece que no son independientes (dependientes). Si hacemos una prueba de independencia usando el ejemplo, entonces la hipótesis nula es:

    \(H_{0}\): Ser usuario de teléfono celular mientras conduce y recibir una infracción por exceso de velocidad son eventos independientes.

    Si la hipótesis nula fuera cierta, esperaríamos que alrededor de 28 personas usaran celulares mientras conducían y recibieran una infracción por exceso de velocidad.

    La prueba de independencia siempre es de cola derecha debido al cálculo del estadístico de prueba. Si los valores esperados y observados no están muy juntos, entonces el estadístico de prueba es muy grande y sale en la cola derecha de la curva de chi-cuadrado, ya que está en una bondad de ajuste.

    El número de grados de libertad para la prueba de independencia es:

    \[df = (\text{number of columns} - 1)(\text{number of rows} - 1) \nonumber\]

    La siguiente fórmula calcula el número esperado (\(E\)):

    \[E = \frac{\text{(row total)(column total)}}{\text{total number surveyed}} \nonumber\]

    Ejercicio\(\PageIndex{1}\)

    Se toma una muestra de 300 alumnos. De los estudiantes encuestados, 50 eran estudiantes de música, mientras que 250 no. Noventa y siete estaban en la lista de honor, mientras que 203 no. Si asumimos que ser estudiante de música y estar en el cuadro de honor son eventos independientes, ¿cuál es el número esperado de estudiantes de música que también están en el cuadro de honor?

    Contestar

    Se espera que alrededor de 16 estudiantes sean estudiantes de música y estén en el cuadro de honor.

    Ejemplo\(\PageIndex{2}\)

    En un grupo de voluntarios, los adultos mayores de 21 años se ofrecen como voluntarios de una a nueve horas cada semana para pasar tiempo con una persona mayor discapacitada. El programa recluta entre estudiantes de colegios comunitarios, estudiantes universitarios de cuatro años y no estudiantes. En Tabla\(\PageIndex{1}\) se encuentra una muestra de los voluntarios adultos y el número de horas que realizan voluntariado a la semana.

    Tabla\(\PageIndex{1}\): Número de Horas Trabajadas por Semana por Tipo de Voluntariado (Observado). La tabla contiene los valores observados (O) (datos).
    Tipo de Voluntariado 1—3 Horas 4—6 Horas 7—9 Horas Total de fila
    Estudiantes de Community College 111 96 48 255
    Estudiantes universitarios de cuatro años 96 133 61 290
    No estudiantes 91 150 53 294
    Total de Columna 298 379 162 839

    ¿El número de horas voluntarias es independiente del tipo de voluntario?

    Contestar

    La mesa observada y la pregunta al final del problema, “¿El número de horas voluntarias es independiente del tipo de voluntario?” te digo que esta es una prueba de independencia. Los dos factores son el número de horas de voluntariado y el tipo de voluntario. Esta prueba siempre es de cola derecha.

    • \(H_{0}\): El número de horas voluntarias es independiente del tipo de voluntario.
    • \(H_{a}\): El número de horas voluntarias depende del tipo de voluntario.

    Los resultados esperados están en la Tabla\(\PageIndex{2}\).

    Tabla\(\PageIndex{2}\): Número de Horas Trabajadas por Semana por Tipo de Voluntariado (Esperado). La tabla contiene valores esperados (\(E\)) (datos).
    Tipo de Voluntariado 1-3 Horas 4-6 Horas 7-9 Horas
    Estudiantes de Community College 90.57 115.19 49.24
    Estudiantes universitarios de cuatro años 103.00 131.00 56.00
    No estudiantes 104.42 132.81 56.77

    Por ejemplo, el cálculo de la frecuencia esperada para la celda superior izquierda es

    \[E = \frac{(\text{row total})(\text{column total})}{\text{total number surveyed}} = \frac{(255)(298)}{839} = 90.57 \nonumber\]

    Calcular el estadístico de prueba:\(\chi^{2} = 12.99\) (calculadora o computadora)

    Distribución para la prueba:\(\chi^{2}_{4}\)

    \[df = (3 \text{ columns} – 1)(3 \text{ rows} – 1) = (2)(2) = 4 \nonumber\]

    Gráfica:

    Curva chi-cuadrada no simétrica con valores de 0 y 12.99 en el eje x que representan el estadístico de prueba del número de horas trabajadas por voluntarios de diferentes tipos. Una línea vertical ascendente se extiende desde 12.99 hasta la curva y el área a la derecha de ésta es igual al valor p.
    Figura\(\PageIndex{1}\).

    Declaración de probabilidad:\(p\text{-value} = P(\chi^{2} > 12.99) = 0.0113\)

    Comparar\(\alpha\) y el\(p\text{-value}\): Dado que no\(\alpha\) se da, asuma\(\alpha = 0.05\). \(p\text{-value} = 0.0113\). \(\alpha > p\text{-value}\).

    Tomar una decisión: Desde\(\alpha > p\text{-value}\), rechazar\(H_{0}\). Esto quiere decir que los factores no son independientes.

    Conclusión: A un nivel de significancia del 5%, a partir de los datos, hay evidencia suficiente para concluir que el número de horas voluntarias y el tipo de voluntario son dependientes entre sí.

    Para el ejemplo en Table, si hubiera habido otro tipo de voluntario, adolescentes, ¿cuáles serían los grados de libertad?

    USANDO LA CALCULADORA TI-83, 83+, 84, 84+

    Presiona la tecla MATRX y flecha hacia arriba para EDITAR. Presione 1: [A]. Presione 3 ENTRAR 3 ENTER. Ingrese los valores de la tabla por fila desde Tabla. Presione ENTRAR después de cada uno. Presiona 2do QUIT. Presiona STAT y flecha hacia TEST. Flecha hacia abajo a C:χ2-test. Presione ENTER. Debería ver Observado: [A] y Esperado: [B]. Si es necesario, use las teclas de flecha para mover el cursor después de Observado: y presione 2nd MATRX. Presione 1: [A] para seleccionar la matriz A. No es necesario ingresar valores esperados. La matriz listada después de Esperado: puede estar en blanco. Flecha hacia abajo para Calcular. Presione ENTER. El estadístico de prueba es 12.9909 y el valor p = 0.0113. Haz el procedimiento por segunda vez, pero flecha hacia abajo para Dibujar en lugar de calcular.

    Ejercicio\(\PageIndex{2}\)

    El Bureau of Labor Statistics recopila datos sobre el empleo en Estados Unidos. Se toma una muestra para calcular el número de ciudadanos estadounidenses que trabajan en uno de varios sectores de la industria a lo largo del tiempo. \(\PageIndex{3}\)La tabla muestra los resultados:

    Mesa\(\PageIndex{3}\)
    Sector de la Industria 2000 2010 2020 Total
    Salario y salario no agrícola 13,243 13,044 15.018 41,305
    Productores de bienes, excluida la agricultura 2,457 1,771 1,950 6,178
    Prestación de servicios 10,786 11,273 13,068 35,127
    Agricultura, silvicultura, pesca y caza 240 214 201 655
    Trabajador autónomo no agrícola y familiar no remunerado 931 894 972 2,797
    Trabajos secundarios salariales y salariales en agricultura e industrias domésticas privadas 14 11 11 36
    Trabajos secundarios como trabajador autónomo o familiar no remunerado 196 144 152 492
    Total 27,867 27,351 31,372 86,590

    Queremos saber si el cambio en el número de empleos es independiente del cambio en años. Declarar las hipótesis nulas y alternativas y los grados de libertad.

    Contestar

    • \(H_{0}\): El número de empleos es independiente del año.
    • \(H_{a}\): El número de empleos depende del año.
    \(df = 12\)
    alt
    Figura\(\PageIndex{2}\).

    Presiona la tecla MATRX y flecha hacia arriba para EDITAR. Presione 1: [A]. Presione 3 ENTRAR 3 ENTER. Introduzca los valores de la tabla por fila. Presione ENTRAR después de cada uno. Presiona 2do QUIT. Presiona STAT y flecha hacia TEST. Flecha hacia abajo a c:\(\chi^{2}\) -PRUEBA. Presione ENTER. Debería ver Observado: [A] y Esperado: [B]. Flecha hacia abajo para Calcular. Presione ENTER. El estadístico de prueba es 227.73 y el\(p\text{-value} = 5.90E - 42 = 0\). Haz el procedimiento por segunda vez pero flecha hacia abajo para Dibujar en lugar de calcular.

    Ejemplo\(\PageIndex{3}\)

    De Anza College está interesado en la relación entre el nivel de ansiedad y la necesidad de tener éxito en la escuela. Una muestra aleatoria de 400 alumnos realizó una prueba que midió el nivel de ansiedad y la necesidad de tener éxito en la escuela. En la tabla se muestran los resultados. De Anza College quiere saber si el nivel de ansiedad y la necesidad de triunfar en la escuela son eventos independientes.

    Necesidad de triunfar en la escuela vs. nivel de ansiedad
    Necesidad de tener éxito en la escuela
    Ansiedad Alta

    Ansiedad media-alta

    Ansiedad Media

    Ansiedad media-baja
    Baja
    Ansiedad
    Total de fila
    Alta Necesidad 35 42 53 15 10 155
    Necesidad Media 18 48 63 33 31 193
    Baja necesidad 4 5 11 15 17 52
    Total de Columna 57 95 127 63 58 400
    1. ¿Cuántos estudiantes de alto nivel de ansiedad se espera que tengan una alta necesidad de tener éxito en la escuela?
    2. Si las dos variables son independientes, ¿cuántos alumnos esperas que tengan una baja necesidad de triunfar en la escuela y un nivel medio-bajo de ansiedad?
    3. \(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} =\)________
    4. El número esperado de estudiantes que tienen un nivel de ansiedad media-bajo y una baja necesidad de tener éxito en la escuela es de aproximadamente ________.

    Solución

    a. El total de la columna para un alto nivel de ansiedad es 57. El total de fila por alta necesidad para triunfar en la escuela es de 155. El tamaño muestral o total encuestado es de 400.

    \[E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} = \frac{155 \cdot 57}{400} = 22.09\]

    El número esperado de estudiantes que tienen un alto nivel de ansiedad y una alta necesidad de tener éxito en la escuela es de alrededor de 22.

    b. El total de la columna para un nivel medio-bajo de ansiedad es 63. El total de fila para una baja necesidad de tener éxito en la escuela es de 52. El tamaño muestral o total encuestado es de 400.

    c.\(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} = 8.19\)

    d. 8

    Ejercicio\(\PageIndex{3}\)

    Refiérase a la información en Nota. ¿Cuántos empleos de prestación de servicios se espera que haya en 2020? ¿Cuántos empleos salariales y salariales no agrícolas se espera que haya en 2020?

    Contestar

    12,727, 14,965

    Referencias

    1. DiCamilo, Mark, Mervin Field, “La mayoría de los californianos ven un vínculo directo entre la obesidad y los refrescos azucarados. Dos de cada tres votantes apoyan gravar las bebidas endulzadas con azúcar si las ganancias están ligadas a mejorar los programas de nutrición escolar y actividad física”. The Field Poll, publicado el 14 de febrero de 2013. Disponible en línea en field.com/fieldpollonline/sub... rs/Rls2436.pdf (consultado el 24 de mayo de 2013).
    2. Harris Interactive, “Sabor Favorito del Helado”. Disponible en línea en http://www.statisticbrain.com/favori...r-of-ice-cream (consultado el 24 de mayo de 2013)
    3. “Lista de Emprendedores en Línea más Jóvenes”. Disponible en línea en http://www.statisticbrain.com/younge...repreneur-list (consultado el 24 de mayo de 2013).

    Revisar

    Para evaluar si dos factores son independientes o no, se puede aplicar la prueba de independencia que utiliza la distribución chi-cuadrada. La hipótesis nula para esta prueba establece que los dos factores son independientes. La prueba compara los valores observados con los valores esperados. La prueba es de cola derecha. Cada observación o categoría de celda debe tener un valor esperado de al menos 5.

    Revisión de Fórmula

    Prueba de Independencia

    • El número de grados de libertad es igual a\((\text{number of columns - 1})(\text{number of rows - 1})\).
    • El estadístico de prueba es\(\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\) donde\(O =\) se observan los valores, los valores\(E =\) esperados,\(i =\) el número de filas en la tabla y\(j =\) el número de columnas en la tabla.
    • Si la hipótesis nula es verdadera, el número esperado\(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}}\).

    Determinar la prueba apropiada que se utilizará en los siguientes tres ejercicios.

    Ejercicio\(\PageIndex{4}\)

    Una compañía farmacéutica está interesada en la relación entre la edad y la presentación de síntomas de una infección viral común. Se toma una muestra aleatoria de 500 personas con la infección en diferentes grupos de edad.

    Contestar

    una prueba de independencia

    Ejercicio\(\PageIndex{5}\)

    Al dueño de un equipo de béisbol le interesa la relación entre los salarios de los jugadores y el porcentaje de victorias del equipo. Toma una muestra aleatoria de 100 jugadores de distintas organizaciones.

    Ejercicio\(\PageIndex{6}\)

    A un corredor de maratón le interesa la relación entre la marca de zapatos que usan los corredores y sus tiempos de carrera. Toma una muestra aleatoria de 50 corredores y registra sus tiempos de carrera así como la marca de zapatos que llevaban.

    Contestar

    una prueba de independencia

    Utiliza la siguiente información para responder a los siguientes siete ejercicios: Transit Railroads está interesado en la relación entre la distancia de viaje y la clase de boleto comprada. Se toma una muestra aleatoria de 200 pasajeros. En la tabla se\(\PageIndex{4}\) muestran los resultados. El ferrocarril quiere saber si la elección de un pasajero en clase de boleto es independiente de la distancia que debe recorrer.

    Mesa\(\PageIndex{4}\)
    Distancia de Viaje Tercera clase Segunda clase Primera clase Total
    1—100 millas 21 14 6 41
    101—200 millas 18 16 8 42
    201—300 millas 16 17 15 48
    301—400 millas 12 14 21 47
    401—500 millas 6 6 10 22
    Total 73 67 60 200

    Ejercicio\(\PageIndex{7}\)

    Indicar las hipótesis.

    • \(H_{0}\): _______
    • \(H_{a}\): _______

    Ejercicio\(\PageIndex{8}\)

    \(df =\)_______

    Contestar

    8

    Ejercicio\(\PageIndex{9}\)

    ¿Cuántos pasajeros se espera que viajen entre 201 y 300 millas y compren boletos de segunda clase?

    Ejercicio\(\PageIndex{10}\)

    ¿Cuántos pasajeros se espera que viajen entre 401 y 500 millas y compren boletos de primera clase?

    Contestar

    6.6

    Ejercicio\(\PageIndex{11}\)

    ¿Cuál es el estadístico de prueba?

    Ejercicio\(\PageIndex{12}\)

    ¿Cuál es el\(p\text{-value}\)?

    Contestar

    0.0435

    Ejercicio\(\PageIndex{13}\)

    ¿Qué se puede concluir con el nivel de significación del 5%?

    Utilice la siguiente información para responder a los siguientes ocho ejercicios: Un artículo en el New England Journal of Medicine, discutió un estudio sobre fumadores en California y Hawai. En una parte del reporte se dio la etnia autoreportada y los niveles de tabaquismo por día. De las personas que fuman como máximo diez cigarrillos diarios, había 9 mil 886 afroamericanos, 2 mil 745 nativos hawaianos, 12 mil 831 latinos, 8 mil 378 japoneses-americanos y 7 mil 650 blancos. De las personas que fumaban de 11 a 20 cigarrillos diarios, había 6 mil 514 afroamericanos, 3 mil 062 nativos hawaianos, 4 mil 932 latinos, 10 mil 680 japoneses americanos y 9 mil 877 blancos. De las personas que fumaban de 21 a 30 cigarrillos diarios, había 1,671 afroamericanos, 1,419 nativos hawaianos, 1,406 latinos, 4,715 japoneses-americanos y 6,062 blancos. De las personas que fuman al menos 31 cigarrillos al día, había 759 afroamericanos, 788 nativos hawaianos, 800 latinos, 2 mil 305 japoneses americanos y 3 mil 970 blancos.

    Ejercicio\(\PageIndex{14}\)

    Completa la tabla.

    Tabla\(\PageIndex{5}\): Niveles de tabaquismo por etnia (observado)
    Nivel de tabaquismo por día Afroamericano Nativo hawaiano Latino Japoneso-americanos Blanco TOTALES
    1-10
    11-20
    21-30
    31+
    TOTALES

    Contestar

    Mesa\(\PageIndex{5B}\)
    Nivel de tabaquismo por día Afroamericano Nativo hawaiano Latino Japoneso-americanos Blanco Totales
    1-10 9,886 2,745 12,831 8,378 7,650 41.490
    11-20 6,514 3,062 4,932 10,680 9,877 35,065
    21-30 1,671 1,419 1,406 4,715 6,062 15,273
    31+ 759 788 800 2,305 3,970 8,622
    Totales 18,830 8,014 19,969 26,078 27,559 10,0450

    Ejercicio\(\PageIndex{15}\)

    Indicar las hipótesis.

    • \(H_{0}\): _______
    • \(H_{a}\): _______

    Ejercicio\(\PageIndex{16}\)

    Introduzca los valores esperados en la Tabla. Redondear a dos decimales.

    Calcula los siguientes valores:

    Contestar

    Mesa\(\PageIndex{6}\)
    Nivel de tabaquismo por día Afroamericano Nativo hawaiano Latino Japoneso-americanos Blanco
    1-10 7777.57 3310.11 8248.02 10771.29 11383.01
    11-20 6573.16 2797.52 6970.76 9103.29 9620.27
    21-30 2863.02 1218.49 3036.20 3965.05 4190.23
    31+ 1616.25 687.87 1714.01 2238.37 2365.49

    Ejercicio\(\PageIndex{17}\)

    \(df =\)_______

    Ejercicio\(\PageIndex{18}\)

    \(\chi^{2} \text{test statistic} =\)______

    Contestar

    10,301.8

    Ejercicio\(\PageIndex{19}\)

    \(p\text{-value} =\)______

    Ejercicio\(\PageIndex{20}\)

    ¿Es esta una prueba de cola derecha, cola izquierda o de dos colas? Explique por qué.

    Contestar

    derecha

    Ejercicio\(\PageIndex{21}\)

    Grafica la situación. Etiquetar y escalar el eje horizontal. Marcar la media y el estadístico de prueba. Sombra en la región correspondiente a la\(p\text{-value}\).

    Gráfico en blanco con ejes verticales y horizontales.
    Figura\(\PageIndex{3}\).

    Indicar la decisión y conclusión (en oración completa) para los siguientes niveles preconcebidos de\(\alpha\).

    Ejercicio\(\PageIndex{22}\)

    \(\alpha = 0.05\)

    1. Decisión: ___________________
    2. Motivo de la decisión: ___________________
    3. Conclusión (escribir en una oración completa): ___________________

    Contestar

    1. Rechazar la hipótesis nula.
    2. \(p\text{-value} < \alpha\)
    3. Existe evidencia suficiente para concluir que el nivel de tabaquismo depende del grupo étnico.

    Ejercicio\(\PageIndex{23}\)

    \(\alpha = 0.05\)

    1. Decisión: ___________________
    2. Motivo de la decisión: ___________________
    3. Conclusión (escribir en una oración completa): ___________________

    Glosario

    Tabla de Contingencia
    una tabla que muestra valores de muestra para dos factores diferentes que pueden ser dependientes o contingentes entre sí; facilita la determinación de probabilidades condicionales.

    This page titled 11.4: Prueba de Independencia is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by OpenStax via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.