Saltar al contenido principal
LibreTexts Español

12.10: Resumen

  • Page ID
    151265
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Las ideas clave que se discuten en este capítulo son:

    • La prueba de bondad de ajuste chi-cuadrado (Sección 12.1) se utiliza cuando se tiene una tabla de frecuencias observadas de diferentes categorías; y la hipótesis nula le da un conjunto de probabilidades “conocidas” para compararlas. Puede usar la función GoodnessOffitTest () en el paquete lsr para ejecutar esta prueba, o la función chisq.test ().
    • La prueba chi-cuadrada de independencia (Sección 12.2) se utiliza cuando se tiene una tabla de contingencia (tabulación cruzada) de dos variables categóricas. La hipótesis nula es que no existe relación/asociación entre las variables. Puede usar la función associationTest () en el paquete lsr, o puede usar chisq.test ().
    • El tamaño del efecto para una tabla de contingencia se puede medir de varias maneras (Sección 12.4). En particular señalamos el estadístico V de Cramer, que puede calcularse usando CramerSV (). Esto también es parte de la salida producida por AssociationTest ().
    • Ambas versiones de la prueba de Pearson se basan en dos supuestos: que las frecuencias esperadas son suficientemente grandes, y que las observaciones son independientes (Sección 12.5). La prueba exacta de Fisher (Sección 12.7) se puede utilizar cuando las frecuencias esperadas son pequeñas, fisher.test (x = contingencia.tabla). La prueba McNemar (Sección 12.8) puede ser utilizada para algunos tipos de violaciones de la independencia, mcnemar.test (x = contingencia.tabla).

    Si estás interesado en aprender más sobre el análisis de datos categóricos, una buena primera opción sería Agresti (1996) que, como sugiere el título, proporciona una Introducción al Análisis de Datos Categóricos. Si el libro introductorio no es suficiente para ti (o no puedes resolver el problema en el que estás trabajando) podrías considerar Agresti (2002), Análisis de datos categóricos. Este último es un texto más avanzado, por lo que probablemente no sea prudente saltar directamente de este libro a ese.


    Referencias

    Pearson, K. 1900. “Sobre el Criterio De Que Un Sistema Dado De Desviaciones De Lo Probable En El Caso De Un Sistema Correlacionado De Variables Es Tal Que Se Puede Suponer Razonablemente Que Ha Surgido Del Muestreo Aleatorio”. Revista Filosófica 50:157—75.

    Fisher, R. A. 1922a. “Sobre la Interpretación de χ2 a partir de Tablas de Contingencia, y el Cálculo de p.” Revista de la Real Sociedad Estadística 84:87—94.

    Yates, F. 1934. “Tablas de contingencia que involucran números pequeños y la prueba χ2”. Suplemento a la Revista de la Real Sociedad Estadística 1:217—35.

    Cramér, H. 1946. Métodos Matemáticos de Estadística. Princeton: Prensa de la Universidad de Princeton.

    McNemar, Q. 1947. “Nota sobre el Error de Muestreo de la Diferencia Entre Proporciones Correlacionadas o Porcentajes”. Psicometrika 12:153—57.

    Agresti, A. 1996. Una introducción al análisis categórico de datos. Hoboken, Nueva Jersey: Wiley.

    Agresti, A. 2002. Análisis de Datos Categóricos. 2a ed. Hoboken, Nueva Jersey: Wiley.


    1. Debo señalar que este tema sí complica un poco la historia: no la voy a cubrir en este libro, pero hay un truco furtivo que puedes hacer para reescribir la ecuación por la bondad de la estadística de ajuste como una suma sobre k−1 cosas independientes. Cuando lo hacemos obtenemos la distribución de muestreo “adecuada”, que es chi-cuadrado con k−1 grados de libertad. De hecho, para que las matemáticas funcionen correctamente, en realidad hay que reescribir las cosas de esa manera. Pero está más allá del alcance de un libro introductorio para mostrar las matemáticas con tanto detalle: todo lo que quería hacer es darte una idea de por qué la bondad de la estadística de ajuste está asociada con la distribución chi-cuadrado.
    2. Me siento obligado a señalar que se trata de una simplificación excesiva. Funciona muy bien para bastantes situaciones; pero de vez en cuando nos encontraremos con valores de grados de libertad que no son números enteros. No dejes que esto te preocupe demasiado, cuando te encuentres con esto, solo recuerda que “grados de libertad” es en realidad un concepto un poco desordenado, y que la linda historia simple que te estoy contando aquí no es toda la historia. Para una clase introductoria, suele ser mejor ceñirse a la historia simple: pero me imagino que es mejor advertirte que esperes que esta sencilla historia se desmorone. Si no te di esta advertencia, podrías empezar a confundirte cuando veas df=3.4 o algo así; y (incorrectamente) pensando que habías entendido mal algo que te he enseñado, en lugar de (correctamente) darte cuenta de que hay algo que no te he dicho.
    3. En la práctica, el tamaño de la muestra no siempre es fijo... por ejemplo, podríamos ejecutar el experimento durante un período de tiempo fijo, y el número de personas que participan depende de cuántas personas aparezcan. Eso no importa para los propósitos actuales.
    4. Bueno, algo así como. Las convenciones sobre cómo deben reportarse las estadísticas tienden a diferir un poco de disciplina en disciplina; he tendido a apegarme a cómo se hacen las cosas en psicología, ya que eso es lo que hago. Pero el principio general de proporcionar suficiente información al lector para que le permita verificar tus resultados es bastante universal, creo.
    5. Para algunas personas, este consejo puede sonar extraño, o al menos en conflicto con los consejos “habituales” sobre cómo redactar un informe técnico. Muy típicamente, a los estudiantes se les dice que la sección de “resultados” de un informe es para describir los datos y reportar análisis estadísticos; y la sección de “discusión” es para proporcionar interpretación. Eso es cierto por lo que va, pero creo que la gente suele interpretarlo de manera demasiado literal. La forma en que suelo acercarlo es para proporcionar una interpretación rápida y sencilla de los datos en la sección de resultados, para que mi lector entienda lo que nos están diciendo los datos. Entonces, en la discusión, trato de contar una historia más grande; sobre cómo mis resultados encajan con el resto de la literatura científica. En definitiva; no dejes que el consejo de “interpretación va en la discusión” convierta tu sección de resultados en basura incomprensible. Ser entendido por tu lector es mucho más importante.
    6. Para complicar las cosas, la prueba G es un caso especial de toda una clase de pruebas que se conocen como pruebas de relación de verosimilitud. No cubro los LRTs en este libro, pero son cosas bastante útiles para conocer.
    7. Una nota técnica. La forma en que he descrito la prueba finge que los totales de las columnas son fijos (es decir, el investigador pretendía encuestar a 87 robots y 93 humanos) y los totales de fila son aleatorios (es decir, simplemente resultó que 28 personas eligieron al cachorro). Para usar la terminología de mi libro de texto de estadística matemática (Hogg, McKean y Craig 2005), técnicamente debo referirme a esta situación como una prueba de homogeneidad de chi-cuadrado; y reservar el término prueba chi-cuadrada de independencia para la situación en la que tanto los totales de fila como de columna son resultados aleatorios del experimento. En los borradores iniciales de este libro eso es exactamente lo que hice. No obstante, resulta que estas dos pruebas son idénticas; y así las he colapsado juntas.
    8. Técnicamente, E ij aquí hay una estimación, así que probablemente debería escribirla\(\hat{E}_{i j}\). Pero como nadie más lo hace, yo tampoco lo haré.
    9. Un problema por el que muchos de nosotros nos preocupamos en la vida real.
    10. Aunque sí siento que vale la pena mencionar la función assocstats () en el paquete vcd. Si instala y carga el paquete vcd, entonces un comando como assocstats (ChapekFrequencies) ejecutará la prueba χ2 así como la prueba de relación de verosimilitud (no discutida aquí); y luego reportará tres medidas diferentes de tamaño del efecto: 9 2, V de Cram'er y la contingencia coeficiente (no discutido aquí)
    11. En realidad no.
    12. Este ejemplo se basa en un artículo de broma publicado en el Journal of Irreproducible Results.
    13. Las funciones R para esta distribución son dhyper (), phyper (), qhyper () y rhyper (), aunque no las necesitas para este libro, y no te he dado suficiente información para utilizarlas para realizar la prueba exacta de Fisher a la larga.
    14. No es sorprendente que la prueba exacta de Fisher esté motivada por la interpretación de Fisher de un valor p, ¡no de Neyman!

    This page titled 12.10: Resumen is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Danielle Navarro via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.