Saltar al contenido principal
LibreTexts Español

Caso C→C

  • Page ID
    151237
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    CO-4: Distinguir entre diferentes escalas de medición, elegir los métodos estadísticos descriptivos e inferenciales adecuados con base en estas distinciones e interpretar los resultados.

    Objetivos de aprendizaje

    LO 4.35: Para una situación de análisis de datos que involucre dos variables, elija el método inferencial apropiado para examinar la relación entre las variables y justificar la elección.

    Objetivos de aprendizaje

    LO 4.36: Para una situación de análisis de datos que involucre dos variables, llevar a cabo el método inferencial apropiado para examinar las relaciones entre las variables y sacar las conclusiones correctas en contexto.

    CO-5: Determinar alternativas metodológicas preferidas a los métodos estadísticos de uso común cuando no se cumplen los supuestos.

    Revisión: Unidad 1 Caso C-C

    Video

    Vídeo: Caso C→C (47:09)

    Tutoriales SAS relacionados

    Tutoriales relacionados con SPSS

    Introducción

    Los últimos procedimientos estudiados (t de dos muestras, t pareado, ANOVA y sus alternativas no paramétricas) implican la relación entre una variable explicativa categórica y una variable de respuesta cuantitativa (caso C→Q) .En todos estos procedimientos, el resultado es una comparación de la variable de respuesta cuantitativa (Y) entre los grupos definidos por la variable explicativa categórica (X) .Las pruebas estándar dan como resultado una comparación de las medias poblacionales de Y dentro de cada grupo definido por X.

    A continuación, consideraremos inferencias sobre las relaciones entre dos variables categóricas, correspondientes al caso C→C.

    Es posible que cualquier tipo de variable explicativa se empareja con cualquier tipo de variable de respuesta. Los posibles emparejamientos son: Explicativo Categórico → Respuesta Categórica (C→C), Explicativo Categórico → Respuesta Cuantitativa (C→Q), Explicativo Cuantitativo → Respuesta Categórica (Q→C) y Explicativo Cuantitativo → Respuesta Cuantitativa (Q→Q).

    Para el caso C→C, aprenderemos las siguientes pruebas:

    Muestras Independientes (Solo Énfasis)

    Muestras dependientes (no discutidas)

    Pruebas estándar
    • Prueba de Chi-cuadrado corregida de continuidad para independencia (caso 2×2)
    • Prueba de Chi-cuadrado para la independencia (caso RxC)

    Prueba no paramétrica

    • Prueba exacta de Fisher
    Prueba estándar
    • Prueba de McNemar — Caso 2×2

    En la unidad de Análisis Exploratorio de Datos del curso, resumimos la relación entre dos variables categóricas para un conjunto de datos dado (usando una tabla bidireccional y porcentajes condicionales), sin intentar generalizar más allá de los datos de la muestra.

    Ahora realizaremos inferencia estadística para dos variables categóricas, utilizando los datos de la muestra para sacar conclusiones sobre si tenemos o no evidencia de que las variables están relacionadas en la población más grande de la que se extrajo la muestra.

    Es decir, nos gustaría evaluar si la relación entre X e Y que observamos en los datos se debe a una relación real entre X e Y en la población, o si es algo que podría haber ocurrido solo por casualidad debido a la variabilidad del muestreo.

    Tenemos una población de interés y una pregunta al respecto, que es “¿Están relacionadas las dos variables categóricas X e Y?”. Tomamos un SRS de tamaño n, y resumimos esos datos con una tabla bidireccional. Por inferencia, podemos decidir si la relación es lo suficientemente fuerte como para concluir que se debe a una verdadera relación en la población. Este paso de inferencia es lo que repasa esta sección.

    Antes de pasar a las pruebas estadísticas, veamos algunos ejemplos (falsos).

    Mesas RxC

    Supongamos que nuestra variable explicativa X tiene r niveles y nuestra variable de respuesta Y tiene niveles c. Normalmente organizamos nuestra tabla con la variable explicativa en las filas y la variable de respuesta en las columnas.

    EJEMPLO: Mesa RxC

    Supongamos que tenemos los siguientes datos parciales (falsos) resumidos en una tabla bidireccional usando X = categoría IMC (r = 4 niveles) e Y = estado de diabetes (c = 3 niveles).

      Sin Diabetes Pre-Diabetes Diabetes Total
    Bajo peso       100
    Normal       400
    Sobrepeso       300
    Obesos       200
    Total 700 200 100 1000

    A partir de nuestro estudio de probabilidad podemos determinar:

    • P (Sin Diabetes) = 700/1000 = 0.7
    • P (Prediabetes) = 200/1000 = 0.20
    • P (Diabetes) = 100/1000 = 0.10

    En la prueba que vamos a utilizar, nuestra hipótesis nula será:

    Ho: No hay relación entre X e Y.

    Que en este caso sería:

    Ho: No existe relación entre la categoría IMC (X) y el estado diabético (Y).

    Si no hubiera relación entre X e Y, esto implicaría que la distribución del estado de diabetes es la misma para cada categoría de IMC.

    En este caso (C→C), la distribución del estado de diabetes consiste en la probabilidad de cada grupo de estado diabético y la hipótesis nula se convierte en:

    Ho: IMC categoría (X) y estado de diabetes (Y) son INDEPENDIENTES.

    Dado que la probabilidad de “No Diabetes” es 0.7 en todo el conjunto de datos, si no hubiera diferencias en la distribución del estado de diabetes entre las categorías de IMC, obtendríamos la misma proporción en cada fila. Usando los totales de fila podemos encontrar los recuentos ESPERADOS de la siguiente manera.

    Observe que la fórmula utilizada a continuación es simplemente la fórmula para el valor medio o esperado de una variable aleatoria binomial con n “ensayos” y probabilidad de “éxito” p que fue μ = E (X) = np donde X = número de éxitos para una muestra de tamaño n.

      Sin Diabetes Pre-Diabetes Diabetes Total
    Bajo peso 100 (0.7) = 70     100
    Normal 400 (0.7) = 280     400
    Sobrepeso 300 (0.7) = 210     300
    Obesos 200 (0.7) = 140     200
    Total 700 200 100 1000

    Observe que estos sí se suman a 700.

    De igual manera podemos determinar los recuentos ESPERADOS para las dos columnas restantes ya que 20% de nuestra muestra se clasificaron como prediabetes y 10% fueron clasificados como diabéticos.

      Sin Diabetes Pre-Diabetes Diabetes Total
    Bajo peso 70 100 (0.2) = 20 100 (0.1) = 10 100
    Normal 280 400 (0.2) = 80 400 (0.1) = 40 400
    Sobrepeso 210 300 (0.2) = 60 300 (0.1) = 30 300
    Obesos 140 200 (0.2) = 40 200 (0.1) = 20 200
    Total 700 200 100 1000

    Lo que hemos creado, utilizando únicamente los totales de fila, los totales de columna y los porcentajes de columna, es una tabla de lo que esperaríamos que sucediera si la hipótesis nula de no relación entre X e Y fuera cierta. Aquí está el resultado final.

      Sin Diabetes Pre-Diabetes Diabetes Total
    Bajo peso 70 20 10 100
    Normal 280 80 40 400
    Sobrepeso 210 60 30 300
    Obesos 140 40 20 200
    Total 700 200 100 1000

    Supongamos que recolectamos datos y encontramos lo siguiente (los recuentos esperados están entre paréntesis para facilitar la comparación):

      Sin Diabetes Pre-Diabetes Diabetes Total
    Bajo peso 65 (70) 22 (20) 13 (10) 100
    Normal 285 (280) 78 (80) 37 (40) 400
    Sobrepeso 216 (210) 53 (60) 31 (30) 300
    Obesos 134 (140) 47 (40) 19 (20) 200
    Total 700 200 100 1000

    Si comparamos nuestros recuentos con los conteos esperados están bastante cerca. Estos datos no darían mucha evidencia de una diferencia en la distribución del estado de diabetes entre los niveles de las categorías de IMC. En otras palabras, estos datos no darían mucha evidencia de una relación (o asociación) entre las categorías de IMC y el estado de diabetes.

    La prueba estándar que aprenderemos en caso de C→C se basa en comparar los recuentos de células OBSERVADOS (nuestros datos) con los recuentos de células ESPERADOS (utilizando el método discutido anteriormente).

    Queremos que veas cómo se crean los recuentos de celdas esperados para que entiendas qué tipo de evidencia se está utilizando para rechazar la hipótesis nula en el caso C→C.

    Supongamos en cambio que recogemos datos y obtenemos los siguientes recuentos (los recuentos esperados están entre paréntesis y se proporcionan los porcentajes de fila):

      Sin Diabetes Pre-Diabetes Diabetes Total
    Bajo peso 90 (70)
    90%
    7 (20)
    7%
    3 (10)
    3%
    100
    Normal 340 (280)
    85%
    40 (80)
    10%
    20 (40)
    5%
    400
    Sobrepeso 180 (210)
    60%
    90 (60)
    30%
    30 (30)
    10%
    300
    Obesos 90 (140)
    45%
    63 (40)
    31.5%
    47 (20)
    23.5%
    200
    Total 700 200 100 1000

    En este caso, la mayoría de las diferencias son drásticas y parece haber evidencia clara de que la distribución del estado de diabetes no es la misma entre las cuatro categorías de IMC.

    Aunque estos datos están completamente fabricados, ilustran el tipo de evidencia que necesitamos para rechazar la hipótesis nula en el caso C→C.

    Mesas 2×2

    Un caso especial ocurre cuando tenemos dos variables categóricas donde ambas variables tienen dos niveles. Las variables categóricas de dos niveles a menudo se denominan variables binarias o variables dicotómicas y cuando es posible se suelen codificar como 1 para “Sí” o “Éxito” y 0 para “No” o “Fracaso”.

    Aquí hay otro ejemplo (falso).

    EJEMPLO: Mesa 2x2

    Supongamos que tenemos los siguientes datos parciales (falsos) resumidos en una tabla bidireccional usando X = tratamiento e Y = mejoría significativa en los síntomas.

      Sin Mejoras Mejora Total
    Control     100
    Tratamiento     100
    Total 120 80 200

    A partir de nuestro estudio de probabilidad podemos determinar:

    • P (Sin Mejora) = 120/200 = 0.6
    • P (Mejora) = 80/200 = 0.4

    Dado que la probabilidad de “No Mejora” es 0.6 en todo el conjunto de datos y la probabilidad de “Mejora” es 0.4, si no hubiera diferencia obtendríamos la misma proporción en cada fila. Usando los totales de fila podemos encontrar los recuentos ESPERADOS de la siguiente manera.

      Sin Mejoras Mejora Total
    Control 100 (0.6) = 60 100 (0.4) = 40 100
    Tratamiento 100 (0.6) = 60 100 (0.4) = 40 100
    Total 120 80 200

    Supongamos que obtenemos los siguientes datos:

      Sin Mejoras Mejora Total
    Control 80 20 100
    Tratamiento 40 60 100
    Total 120 80 200

    En este ejemplo nos interesa la probabilidad de mejoría y los datos anteriores parecen indicar que el tratamiento brinda una mayor probabilidad de mejoría que el control.

    Usamos este ejemplo para mencionar dos formas de comparar probabilidad (a veces “riesgo”) en tablas 2×2. ¡Muchos de ustedes pueden recordar estos temas de Epidemiología o pueden volver a ver estos temas en los cursos de Epidemiología en el futuro!

    Diferencia de riesgo:

    Para estos datos, una mayor proporción de sujetos en el grupo de tratamiento mostró mejoría en comparación con el grupo control. De hecho, la probabilidad estimada de mejoría es 0.4 mayor para el grupo de tratamiento que para el grupo control.

    Este valor (0.4) se denomina riesgo-diferencia y es una medida común en tablas 2×2. Se pueden obtener estimaciones e intervalos de confianza.

    Para un tamaño de muestra fijo, cuanto mayor sea esta diferencia, más evidencia contra nuestra hipótesis nula (sin relación entre X e Y).

    La diferencia de riesgo poblacional a menudo se denota p 1 — p 2, y es la diferencia entre dos proporciones poblacionales. Estimamos estas proporciones de la misma manera que la Unidad 1, una vez por cada muestra.

    Para el ejemplo actual, obtenemos

    \(\hat{p}_{1}=\hat{p}_{\mathrm{TRT}}=\dfrac{60}{100}=0.60\)

    y

    \(\hat{p}_{2}=\hat{p}_{\text {Control }}=\dfrac{20}{100}=0.20\)

    de donde encontramos la diferencia de riesgo

    \(\hat{p}_{\text {TRT }}-\hat{p}_{\text {Control }}=0.60-0.20=0.40\)

    Ratio de probabilidades:

    Otra medida común en las tablas 2×2 es la razón de probabilidades, que se define como las probabilidades del evento que ocurre en un grupo dividido por las probabilidades del evento que ocurre en otro grupo.

    En este caso, las probabilidades de mejoría en el grupo de tratamiento son

    \(\mathrm{ODDS}_{\mathrm{TRT}}=\dfrac{P(\text { Improvement } \mid \mathrm{TRT})}{P(\text { No Improvement } \mid \mathrm{TRT})}=\dfrac{0.6}{0.4}=1.5\)

    y las probabilidades de mejora en el grupo control son

    \(\mathrm{ODDS}_{\text {Control }}=\dfrac{P(\text { Improvement } \mid \text { Control })}{P(\text { No Improvement } \mid \text { Control })}=\dfrac{0.2}{0.8}=0.25\)

    por lo que la razón de probabilidades para comparar el grupo de tratamiento con el grupo control es

    \(\text { Odds Ratio }=\dfrac{\text { ODDS }_{\mathrm{TRT}}}{\mathrm{ODDS}_{\mathrm{Control}}}=\dfrac{1.5}{0.25}=6\)

    Este valor significa que las probabilidades de mejoría son 6 veces mayores en el grupo de tratamiento que en el grupo control.

    Propiedades de Odds Ratios:

    • La relación de probabilidades es siempre mayor que 0.
    • Una razón de probabilidades de 1 implica que las probabilidades son iguales en los dos grupos.
    • Valores mucho mayores que 1 indican que el evento es más probable en el grupo de tratamiento (grupo numerador) que en el grupo control (grupo denominador). Esto daría evidencia de que nuestra hipótesis nula es falsa.
    • Valores mucho menores que 1 (más cercanos a cero) indicarían que el evento es mucho menos probable en el grupo de tratamiento que en el grupo control. Esto también daría evidencia de que nuestra hipótesis nula es falsa.
      • Nota: si comparamos el control con el tratamiento (en lugar de tratamiento con el control) obtendríamos una odds ratio de 1/6 lo que diría que las probabilidades de mejoría en el grupo control son 1/6 las probabilidades de mejoría en el grupo de tratamiento lo que nos lleva a exactamente la misma conclusión, redactada en un manera opuesta.

    Prueba de Chi-cuadrado para la independencia

    Objetivos de aprendizaje

    LO 4.43: En un contexto dado, determinar el método estándar apropiado para examinar la relación entre dos variables categóricas. Dada la salida de software adecuada, elija el valor p correcto y proporcione las conclusiones correctas en contexto.

    Objetivos de aprendizaje

    LO 4.44: En un contexto dado, establecer las hipótesis nulas y alternativas apropiadas para examinar la relación entre dos variables categóricas.

    Paso 1: Exponer las hipótesis Las hipótesis son:

    Ho: No hay relación entre las dos variables categóricas. (Son independientes.)

    Ha: Existe una relación entre las dos variables categóricas. (No son independientes.)

    Nota: para tablas 2×2, estas hipótesis pueden formularse de la misma manera que para medias poblacionales excepto usando proporciones poblacionales. Esto también se puede hacer para tablas RxC pero no es común ya que requiere más notación para comparar múltiples proporciones de grupos.

    • Ho: p 1 — p 2 = 0 (que es lo mismo que p 1 = p 2)
    • Ha: p 1 — p 2 ≠ 0 (que es lo mismo que p 1 ≠ p 2) (bilateral)

    Paso 2: Obtener datos, verificar condiciones y resumir datos

    (i) La muestra debe ser aleatoria con observaciones independientes (todas las observaciones son independientes de todas las demás observaciones).

    (ii) En general, cuanto mayor sea la muestra, más precisos y confiables son los resultados de las pruebas. Existen diferentes versiones de cuáles son las condiciones que garantizarán el uso confiable de la prueba, todas las cuales involucran los recuentos esperados. Una versión de las condiciones dice que todos los recuentos esperados deben ser mayores a 1, y al menos 80% de los recuentos esperados deben ser mayores a 5. Una versión más conservadora requiere que todos los recuentos esperados sean mayores a 5. Algunos paquetes de software proporcionarán una advertencia si el tamaño de la muestra es “demasiado pequeño”.

    Estadístico de Prueba de la Prueba de Chi-cuadrado para la Independencia:

    El único número que resume la diferencia general entre los recuentos observados y esperados es el estadístico chi-cuadrado, que nos dice de manera estandarizada qué tan lejos está lo que observamos (datos) de lo que se esperaría si Ho fuera cierto.

    Aquí está:

    \(\chi^{2}=\sum_{\text {all cells }} \dfrac{(\text { observed count }-\text { expected count })^{2}}{\text { expected count }}\)

    Paso 3: Encuentra el valor p de la prueba usando el estadístico de prueba de la siguiente manera Confiaremos en el software para obtener este valor para nosotros. También podemos solicitar los recuentos esperados utilizando software.

    Los valores p se calculan usando una distribución chi-cuadrada con (r-1) (c-1) grados de libertad (donde r = número de niveles de la variable fila y c = número de niveles de la variable de columna). Confiaremos en el software para obtener el valor p para esta prueba.

    NOTA IMPORTANTE

    • Usar Corrección de Continuidad para Tablas 2×2: Para tablas 2×2, se utiliza una corrección de continuidad para mejorar la aproximación del valor p. Este valor sólo será calculado por el software para tablas 2×2 donde ambas variables son binarias — tienen sólo dos niveles.

    Paso 4: Conclusión

    Como es habitual, utilizamos la magnitud del valor p para sacar nuestras conclusiones. Un pequeño valor p indica que la evidencia proporcionada por los datos es lo suficientemente fuerte como para rechazar Ho y concluir (más allá de una duda razonable) que las dos variables están relacionadas. En particular, si se usa un nivel de significancia de 0.05, rechazaremos Ho si el valor p es menor que 0.05.

    Alternativa no paramétrica: Prueba Exacta de Fisher

    Objetivos de aprendizaje

    LO 5.1: Para una situación de análisis de datos que involucre dos variables, determinar el método alternativo apropiado (no paramétrico) cuando no se cumplan los supuestos de nuestros métodos estándar.

    Veremos una prueba no paramétrica en el caso C→C. La prueba exacta de Fisher es un método exacto para obtener un valor p para las hipótesis probadas en una prueba estándar de chi-cuadrado para la independencia. Esta prueba se usa a menudo cuando no se satisface el requisito de tamaño de muestra de la prueba de chi-cuadrado y se puede usar para tablas 2×2 y RxC.

    Paso 1: Exponer las hipótesis Las hipótesis son:

    Ho: No hay relación entre las dos variables categóricas. (Son independientes.)

    Ha: Existe una relación entre las dos variables categóricas. (No son independientes, son dependientes.)

    Paso 2: Obtener datos, verificar condiciones y resumir datos

    La muestra debe ser aleatoria con observaciones independientes (todas las observaciones son independientes de todas las demás observaciones).

    Paso 3: Encuentre el valor p de la prueba usando el estadístico de prueba de la siguiente manera

    Los valores p se calculan utilizando una distribución específica para esta prueba. Confiaremos en el software para obtener el valor p para esta prueba. El valor p mide la probabilidad de obtener una tabla como o más extrema (contra la hipótesis nula) que nuestra tabla.

    Paso 4: Conclusión

    Como es habitual, utilizamos la magnitud del valor p para sacar nuestras conclusiones. Un pequeño valor p indica que la evidencia proporcionada por los datos es lo suficientemente fuerte como para rechazar Ho y concluir (más allá de una duda razonable) que las dos variables están relacionadas. En particular, si se usa un nivel de significancia de 0.05, rechazaremos Ho si el valor p es menor que 0.05.

    Ahora veamos algunos ejemplos con datos reales.

    EJEMPLO: Factor de riesgo para bajo peso al nacer

    El bajo peso al nacer es un resultado de preocupación debido a que las tasas de mortalidad infantil y las tasas de defectos congénitos son muy altas para los bebés con bajo peso al nacer. El comportamiento de una mujer durante el embarazo (incluyendo la dieta, los hábitos de fumar y la obtención de atención prenatal) puede alterar en gran medida sus posibilidades de llevar al bebé a término y, en consecuencia, de dar a luz a un bebé de peso normal al nacer.

    En este ejemplo, utilizaremos un estudio de 1986 (Hosmer y Lemeshow (2000), Regresión Logística Aplicada: Segunda Edición) en el que se recolectaron datos de 189 mujeres (de las cuales 59 tenían infantes de bajo peso al nacer) en el Baystate Medical Center en Springfield, MA. El objetivo del estudio fue identificar los factores de riesgo asociados con dar a luz a un bebé de bajo peso al nacer.

    Datos: formato SPSS, formato SAS, formato Excel

    Variable de respuesta:

    • BAJO — Bajo peso al nacer
      • 0=No (peso al nacer >= 2500 g)
      • 1=Sí (peso al nacer < 2500 g)

    Posibles variables explicativas (las variables que usaremos en este ejemplo están en negrita):

    • CARRERA — Raza de la madre (1=Blanco, 2=Negro, 3=Otro)
    • HUMO — Estado de tabaquismo durante el embarazo (0=No, 1=Sí)
    • PTL — Historia de parto prematuro (0=Ninguno, 1=Uno, etc.)
    • HT — Historia de hipertensión arterial (0=No, 1=Sí)
    • UI — Presencia de irritabilidad uterina (0=No, 1=Sí)
    • FTV — Número de visitas al médico durante el primer trimestre
    • BWT — El peso real al nacer (en gramos)
    • EDAD — Edad de la madre (en años)
    • LWT — Peso de la madre en el último periodo menstrual (en libras)

    Resultados:

    Paso 1: Exponer las hipótesis

    Las hipótesis son:

    Ho: No existe relación entre la variable explicativa categórica y la presencia de bajo peso al nacer. (Son independientes.)

    Ha: Existe una relación entre la variable explicativa categórica y la presencia de bajo peso al nacer. (No son independientes, son dependientes.)

    Pasos 2 y 3: Obtener datos, verificar condiciones, resumir datos y encontrar el valor p

    Variable explicativa ¿Qué Prueba es Apropiada? Valor P Decisión
    CARRERA Mín. Recuento esperado = 8.12 Mesa
    3×2

    Usar Chi-cuadrado Pearson (desde RxC)
    0.0819 (Chi-cuadrado — SAS)
    0.082 (Chi-cuadrado — SPSS)
    No Rechazar Ho
    HUMO Mín. Recuento esperado = 23.1 Tabla
    2×2
    Corrección de Continuidad de
    Uso (desde 2×2)
    0.040 (Corrección de Continuidad — SPSS)
    0.0396 (Continuidad Adj — SAS)
    Rechazar Ho
    PTL Mín. Recuento esperado = 0.31
    4×2 tabla La prueba exacta de
    Fisher es más apropiada
    3.106 E-04 = 0.0003106 (Fisher's — SAS)
    0.000 (Fisher's — SPSS)
    0.0008 (Chi-cuadrado — SAS)
    0.001 (Chi-cuadrado — SPSS)
    Rechazar Ho
    HT Mín. Recuento esperado = 3.75
    2×2 tabla La prueba exacta de
    Fisher puede ser más apropiada
    0.0516 (Fisher's — SAS)
    0.052 (Fisher's — SPSS)
    No Rechazar a Ho
    (Apenas)
    UI Mín. Recuento esperado = 8.74 Tabla
    2×2
    Corrección de Continuidad de
    Uso
    0.0355 (Continuidad Adj. — SAS)
    0.035 (Corrección de Continuidad — SPSS)
    Rechazar Ho

    Paso 4: Conclusión

    Cuando se consideran individualmente, la presencia de irritabilidad uterina, antecedentes de parto prematuro y tabaquismo durante el embarazo se asocian significativamente (valor p < 0.05) con la presencia/ausencia de un lactante de bajo peso al nacer, mientras que los antecedentes de hipertensión y raza fueron solo marginalmente significativos (0.05 ≤ p- valor < 0.10).

    Importancia práctica:

    Variable explicativa Comparación de los porcentajes condicionales de bajo peso al nacer
    CARRERA Carrera = Blancas: 23.96%
    Carrera = Negro: 42.31%
    Carrera = Otro: 37.31%
    HUMO Humo = No: 25.22%
    Humo = Si: 40.54%
    PTL Historia de Trabajo Prematuro = 0:25.79%
    Historia de Trabajo Prematuro = 1:66.67%
    Historia de Trabajo Prematuro = 2:40.00% (Tenga en cuenta tamaño de muestra pequeño de 5 para esta fila)
    Historia de Trabajo Prematuro = 3:0.00% (Nota tamaño de muestra pequeño de 1 para esta fila)
    HT Hipertensión = No: 29.38%
    Hipertensión = Sí: 58.33% (Tenga en cuenta el tamaño de muestra pequeño de 12 para esta fila)
    UI Presencia de irritabilidad uterina = No: 27.95%
    Presencia de irritabilidad uterina = Sí: 50.00%
    • A pesar de que no rechazamos el nulo en dos de las cinco pruebas, todos estos resultados parecen tener cierta significación práctica, aunque los pequeños tamaños de muestra para algunas partes de los resultados pueden estar produciendo información engañosa y probablemente requerirían más estudios para confirmar los resultados aquí vistos.

    Salida SPSS para pruebas

    Salida SAS, Código SAS

    EJEMPLO: Tabla 2x2 - Revisando “Looks vs Personalidad” con Respuesta Categorizada

    Si, en lugar de simplemente analizar la escala de calificación “looks vs. personalidad”, categorizamos las respuestas en grupos entonces estaríamos en el caso C→C en lugar del caso C→Q (ver ejemplo anterior en el Caso C-Q para Dos Muestras Independientes).

    Recordemos que la puntuación de calificación fue de 1 a 25 con 1 = personalidad más importante (parece no importante en absoluto) y 25 = se ve más importante (la personalidad no es importante en absoluto). Una puntuación de 13 sería igualmente importante y las puntuaciones alrededor de 13 deberían indicar que la apariencia y la personalidad son casi iguales en importancia.

    Para nuestros fines utilizaremos una calificación de 16 o mayor para indicar que las miradas eran efectivamente más importantes que la personalidad (por lo suficiente para importar).

    Datos: formato SPSS, formato SAS

    Variable de respuesta:

    • Looks — “¿Los looks eran (mucho) más importantes?”
      • 0=No (Menos de 16 en los looks vs. calificación de personalidad)
      • 1=Sí (16 o superior en los looks vs. calificación de personalidad)

    Resultados:

    Paso 1: Exponer las hipótesis

    Las hipótesis son:

    Ho: La proporción de estudiantes universitarios que encuentran miradas más importantes que la personalidad es la misma para hombres y mujeres. (Las dos variables son independientes)

    Ja: La proporción de estudiantes universitarios que encuentran miradas más importantes que la personalidad es diferente para hombres y mujeres. (Las dos variables son dependientes)

    Pasos 2 y 3: Obtener datos, verificar condiciones, resumir datos y f ind el valor p

    El recuento mínimo de celdas esperado es 13.38. Esta es una tabla 2×2 por lo que utilizaremos el estadístico chi-cuadrado corregido de continuidad.

    Se encuentra que el valor p es 0.001 (SPSS) o 0.0007 (SAS).

    Paso 4: Conclusión

    Existe una asociación significativa entre el género y si el individuo calificado parece o no más importante que la personalidad.

    Entre los hombres, la calificación de 27.1% parece superior a la personalidad mientras que entre las mujeres este valor fue de sólo 9.3%.

    Por diversión: La relación de probabilidades aquí es

    \(\text{Odds Ratio} = \dfrac{0.271/(1-0.271)}{0.093/(1-0.093)} = \dfrac{0.37174}{0.10254} = 3.63\)

    lo que significa que, con base en nuestros datos, estimamos que las probabilidades de calificación parecen más importantes que la personalidad es 3.6 veces mayor entre los hombres que entre las mujeres.

    Importancia práctica:

    Parece claro que la diferencia entre 27.1% y 9.3% es prácticamente significativa así como estadísticamente significativa. Esta diferencia es grande y probablemente representa una diferencia significativa en las opiniones de hombres y mujeres con respecto a la importancia de la apariencia en comparación con la personalidad.

    Salida SPSS

    Salida SAS, Código SAS


    Caso C→C is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by LibreTexts.