Saltar al contenido principal
LibreTexts Español

18.3: Aprender lo básico y aprenderlos en R

  • Page ID
    151718
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Bien, eso fue... largo. E incluso ese listado está masivamente incompleto. Realmente hay muchas ideas grandes en las estadísticas que no he cubierto en este libro. Puede parecer bastante deprimente terminar un libro de texto de 600 páginas solo para que te digan que esto solo es el comienzo, sobre todo cuando empiezas a sospechar que la mitad de las cosas que te han enseñado están equivocadas. Por ejemplo, hay mucha gente en el campo que argumentaría fuertemente en contra del uso del modelo clásico ANOVA, ¡sin embargo, le he dedicado dos capítulos enteros! El ANOVA estándar puede ser atacado desde una perspectiva bayesiana, o desde una perspectiva estadística robusta, o incluso desde una perspectiva de “es simplemente incorrecta” (las personas usan con mucha frecuencia ANOVA cuando realmente deberían estar usando modelos mixtos). Entonces, ¿por qué aprenderlo en absoluto?

    Según lo veo, hay dos argumentos clave. En primer lugar, está el argumento del pragmatismo puro. Con razón o equivocadamente, el ANOVA es ampliamente utilizado. Si quieres entender la literatura científica, necesitas entender el ANOVA. Y en segundo lugar, está el argumento del “conocimiento incremental”. De la misma manera que fue útil haber visto ANOVA unidireccional antes de intentar aprender ANOVA factorial, comprender ANOVA es útil para comprender herramientas más avanzadas, porque muchas de esas herramientas se extienden o modifican la configuración básica del ANOVA de alguna manera. Por ejemplo, aunque los modelos mixtos son mucho más útiles que el ANOVA y la regresión, nunca he oído hablar de nadie aprendiendo cómo funcionan los modelos mixtos sin antes haber trabajado a través de ANOVA y regresión. Tienes que aprender a gatear antes de poder escalar una montaña.

    En realidad, quiero empujar un poco más este punto. Una cosa que he hecho mucho en este libro es hablar de fundamentos. Pasé mucho tiempo en la teoría de la probabilidad. Hablé sobre la teoría de la estimación y las pruebas de hipótesis con más detalle de lo que necesitaba. Al hablar de R, pasé mucho tiempo hablando de cómo funciona el lenguaje, y hablando de cosas como escribir tus propios guiones, funciones y programas. No solo te enseñé a dibujar un histograma usando hist (), intenté dar una visión básica de cómo funciona el sistema gráfico. ¿Por qué hice todo esto? Mirando hacia atrás, podría preguntarse si realmente necesitaba pasar todo ese tiempo hablando sobre qué es una distribución de probabilidad, o por qué había incluso una sección sobre densidad de probabilidad. Si el objetivo del libro era enseñarte a realizar una prueba t o un ANOVA, ¿era todo eso realmente necesario? O, ahora que lo pienso, ¿por qué molestarse con R en absoluto? Hay muchas alternativas gratuitas por ahí: PSPP, por ejemplo, es un clon similar a SPSS que es totalmente gratuito, tiene menús simples de “apuntar y hacer clic”, y puede (creo) hacer todos los análisis de los que he hablado en este libro. Y podrás aprender PSPP en aproximadamente 5 minutos. ¿Todo esto fue solo una enorme pérdida de tiempo de todos???

    La respuesta, espero que estés de acuerdo, es no. El objetivo de una estadística introductoria no es enseñar ANOVA. No es para enseñar pruebas t, o regresiones, o histogramas, o valores p. El objetivo es iniciarte en el camino hacia convertirte en un analista de datos calificado. Y para que te conviertas en un experto analista de datos, necesitas poder hacer más que ANOVA, más que pruebas t, regresiones e histogramas. Necesitas poder pensar correctamente sobre los datos. Es necesario poder conocer los modelos estadísticos más avanzados de los que hablé en la última sección, y comprender la teoría en la que se basan. Y necesitas tener acceso a un software que te permita usar esas herramientas avanzadas. Y aquí es donde —en mi opinión al menos— todo ese tiempo extra que he dedicado a los fundamentos vale la pena. Si entiendes el sistema gráfico en R, entonces puedes dibujar las parcelas que quieras, no solo las parcelas enlatadas que alguien más ha construido en R para ti. Si entiendes la teoría de la probabilidad, te resultará mucho más fácil pasar de los análisis frecuentistas a los bayesianos. Si entiendes la mecánica central de R, te resultará mucho más fácil generalizar desde regresiones lineales usando lm () hasta usar modelos lineales generalizados con glm () o modelos de efectos mixtos lineales usando lme () y lmer (). Incluso encontrarás que un conocimiento básico de R te ayudará en gran medida a enseñarte a usar otros lenguajes de programación estadística que se basan en él. Los bayesianos frecuentemente confían en herramientas como WinBugs y JAGS, que tienen una serie de similitudes con R, y de hecho pueden llamarse desde dentro de R. De hecho, debido a que R es la “lingua franca de la estadística”, lo que encontrarás es que la mayoría de las ideas en la literatura estadística se han implementado en alguna parte como un paquete que se puede descargar desde CRAN. No se puede decir lo mismo del PSPP, ni siquiera del SPSS.

    En definitiva, creo que el gran beneficio para aprender estadísticas de esta manera es la extensibilidad. Para un libro que solo cubre los conceptos básicos del análisis de datos, este libro tiene una sobrecarga masiva en términos de aprendizaje de R, teoría de probabilidad, etc. Hay muchas otras cosas que te empuja a aprender además de los análisis específicos que cubre el libro. Entonces, si tu objetivo hubiera sido aprender a ejecutar un ANOVA en el mínimo tiempo posible, bueno, este libro no fue una buena opción. Pero como digo, no creo que ese sea tu objetivo. Creo que quieres aprender a hacer análisis de datos. Y si ese es realmente tu objetivo, quieres asegurarte de que las habilidades que aprendes en tu clase introductoria de estadísticas sean naturalmente y limpiamente extensibles a los modelos más complicados que necesitas en el análisis de datos del mundo real. Quieres asegurarte de aprender a usar las mismas herramientas que usan los analistas de datos reales, para que aprendas a hacer lo que ellos hacen. Y entonces sí, bien, eres un principiante en este momento (o lo eras cuando empezaste este libro), pero eso no significa que te deban dar una historia simulada, una historia en la que no te cuente sobre la densidad de probabilidad, o una historia donde no te cuente sobre la pesadilla que es ANOVA factorial con diseños desequilibrados . Y no significa que debas darte juguetes para bebés en lugar de herramientas adecuadas de análisis de datos. Los principiantes no son tontos; simplemente carecen de conocimientos. Lo que necesitas es no tener ocultas las complejidades del análisis de datos del mundo real. Lo que necesitas son las habilidades y herramientas que te permitan manejar esas complejidades cuando inevitablemente te embosquen en el mundo real.

    Y lo que espero es que este libro —o el libro terminado en el que esto algún día se convertirá— pueda ayudarte con eso.


    Referencias

    Adair, G. 1984. “El efecto Hawthorne: una reconsideración del artefacto metodológico”. Revista de Psicología Aplicada 69:334—45.

    Agresti, A. 1996. Una introducción al análisis categórico de datos. Hoboken, Nueva Jersey: Wiley.

    ———. 2002. Análisis de Datos Categóricos. 2a ed. Hoboken, Nueva Jersey: Wiley.

    Akaike, H. 1974. “Una nueva mirada a la identificación del modelo estadístico”. IEEE Transacciones en Control Automático 19:716—23.

    Bickel, P. J., E. A. Hammel, y J. W. O'Connell. 1975. “Sesgo sexual en las admisiones de posgrado: datos de Berkeley”. Ciencia 187:398—404.

    Box, J. F. 1987. “Guinness, Gosset, Fisher y Muestras Pequeñas”. Ciencia Estadística 2:45—52.

    Braun, John, y Duncan J Murdoch. 2007. Un Primer Curso de Programación Estadística con R. Prensa de la Universidad de Cambridge Cambridge.

    Brown, M. B., y A. B. Forsythe. 1974. “Pruebas robustas para la igualdad de varianzas”. Revista de la Asociación Americana de Estadística 69:364—67.

    Campbell, D. T., y J. C. Stanley. 1963. Diseños Experimentales y Cuasi-Experimentales para la Investigación. Boston, MA: Houghton Mifflin.

    Cohen, J. 1988. Análisis Estadístico de Poder para las Ciencias del Comportamiento. 2a ed. Lawrence Erlbaum.

    Cook, R. D., y S. Weisberg. 1983. “Diagnóstico para Heterocedasticidad en Regresión”. Biometrika 70:1—10.

    Cramér, H. 1946. Métodos Matemáticos de Estadística. Princeton: Prensa de la Universidad de Princeton.

    Dunn, O.J. 1961. “Múltiples comparaciones entre medias”. Revista de la Asociación Americana de Estadística 56:52—64.

    Ellis, P. D. 2010. La Guía Esencial de Tamaños de Efecto: Poder Estadístico, MetaAnálisis e Interpretación de Resultados de Investigación. Cambridge, Reino Unido: Cambridge University Press.

    Ellman, Michael. 2002. “Estadísticas de represión soviética: algunos comentarios”. Estudios Europa-Asia 54 (7). Taylor y Francis: 1151—72.

    Evans, J. St. B. T., J. L. Barston, y P. Pollard. 1983. “Sobre el conflicto entre la lógica y la creencia en el razonamiento silogístico”. Memoria y Cognición 11:295—306.

    Evans, M., N. Hastings, y B. Peacock. 2011. Distribuciones Estadísticas (3ª Ed). Wiley.

    Fisher, R. A. 1922a. “Sobre la Interpretación de χ2 a partir de Tablas de Contingencia, y el Cálculo de p.” Revista de la Real Sociedad Estadística 84:87—94.

    ———. 1922b. “Sobre el fundamento matemático de la estadística teórica”. Transacciones filosóficas de la Real Sociedad A 222:309—68.

    ———. 1925. Métodos Estadísticos para Investigadores. Edimburgo, Reino Unido: Oliver; Boyd.

    Fox, J., y S. Weisberg. 2011. Un compañero R para la regresión aplicada. 2a ed. Los Ángeles: Sage.

    Gelman, A., y H. Stern. 2006. “La diferencia entre 'significativo' y 'no significativo' no es estadísticamente significativo en sí mismo”. El Estadístico Americano 60:328—31.

    Gunel, Erdogan, y James Dickey. 1974. “Factores Bayes para la Independencia en las Tablas de Contingencia”. Biometrika, 545—57.

    Hays, W. L. 1994. Estadísticas. 5ta ed. Fort Worth, TX: Brace Harcourt.

    Coberturas, L. V. 1981. “Teoría de Distribución para Estimador de Tamaño de Efecto de Vidrio y Estimadores Relacionados”. Revista de Estadística Educativa 6:107—28.

    Hedges, L. V., e I. Olkin. 1985. Métodos Estadísticos para MetaAnálisis. Nueva York: Prensa Académica.

    Hogg, R. V., J. V. McKean, y A. T. Craig. 2005. Introducción a la Estadística Matemática. 6ª ed. Upper Saddle River, Nueva Jersey: Pearson.

    Holm, S. 1979. “Un procedimiento de prueba múltiple de rechazo secuencial simple”. Revista Escandinava de Estadística 6:65—70.

    Hothersall, D. 2004. Historia de la Psicología. McGraw-Hill.

    Hsu, J. C. 1996. Comparaciones Múltiples: Teoría y Métodos. Londres, Reino Unido: Chapman; Hall.

    Ioannidis, John P. A. 2005. “Por qué la mayoría de los hallazgos de investigación publicados son falsos”. PLoS Med 2 (8). Biblioteca Pública de Ciencias: 697—701.

    Jeffreys, Harold. 1961. La Teoría de la Probabilidad. 3ª ed. Oxford.

    Johnson, Valen E. 2013. “Estándares revisados para la evidencia estadística”. Actas de la Academia Nacional de Ciencias, núm. 48:19313—7.

    Kahneman, D., y A. Tversky. 1973. “Sobre la Psicología de la Predicción”. Revisión Psicológica 80:237—51.

    Kass, Robert E., y Adrian E. Raftery. 1995. “Factores Bayes”. Revista de la Asociación Americana de Estadística 90:773—95.

    Keynes, John Maynard. 1923. Un Tratado de Reforma Monetaria. Londres: Macmillan; Empresa.

    Kruschke, J. K. 2011. Haciendo Análisis Bayesiano de Datos: Un Tutorial con R y BUG. Burlington, MA: Prensa Académica.

    Kruskal, W. H., y W. A. Wallis. 1952. “Uso de Rangos en Análisis de Varianza de un Criterio”. Revista de la Asociación Americana de Estadística 47:583—621.

    Kühberger, A, A Fritz, y T. Scherndl. 2014. “Sesgo de publicación en psicología: un diagnóstico basado en la correlación entre el tamaño del efecto y el tamaño de la muestra”. Biblioteca Pública de la Ciencia Uno 9:1—8.

    Lee, Michael D, y Erica-Jan Wagenmakers. 2014. Modelado Cognitivo Bayesiano: Un Curso Práctico. Prensa de la Universidad de Cambridge.

    Lehmann, Erich L. 2011. Fisher, Neyman, y la creación de estadísticas clásicas. Springer.

    Levene, H. 1960. “Pruebas robustas para la igualdad de varianzas”. En Contribuciones a Probabilidad y Estadística: Ensayos en Honor de Harold Hotelling, editado por I. Olkin et al, 278—92. Palo Alto, CA: Prensa de la Universidad de Stanford.

    Long, J.S., y L.H. Ervin. 2000. “Uso de Errores Estándar Consistente de Heterocedasticidad en el Modelo de Regresión Lineal”. El Estadístico Americano 54:217—24.

    Matloff, Norman, y Norman S Matloff. 2011. El arte de la programación R: un recorrido por el diseño de software estadístico. Prensa Sin Almidón.

    McGrath, R. E., y G. J. Meyer. 2006. “Cuando los tamaños de los efectos no están de acuerdo: El caso de r y d”. Métodos Psicológicos 11:386—401.

    McNemar, Q. 1947. “Nota sobre el Error de Muestreo de la Diferencia Entre Proporciones Correlacionadas o Porcentajes”. Psicometrika 12:153—57.

    Meehl, P. H. 1967. “Pruebas teóricas en psicología y física: una paradoja metodológica”. Filosofía de la Ciencia 34:103—15.

    Morey, Richard D., y Jeffrey N. Rouder. 2015. BayesFactor: Cálculo de Factores Bayes para Diseños Comunes. http://CRAN.R-project.org/package=BayesFactor.

    Pearson, K. 1900. “Sobre el Criterio De Que Un Sistema Dado De Desviaciones De Lo Probable En El Caso De Un Sistema Correlacionado De Variables Es Tal Que Se Puede Suponer Razonablemente Que Ha Surgido Del Muestreo Aleatorio”. Revista Filosófica 50:157—75.

    Pfungst, O. 1911. Clever Hans (el Caballo del Sr. von Osten): Una contribución a la Psicología Experimental Animal y Humana. Traducido por C. L. Rahn. Nueva York: Henry Holt.

    R Core Team. 2013. R: Un Lenguaje y Entorno para la Computación Estadística. Viena, Austria: Fundación R para la Computación Estadística.

    Rosenthal, R. 1966. Efectos del Experimentador en la Investigación Conductual. Nueva York: Appleton.

    Rouder, J. N., P. L. Speckman, D. Sun, R. D. Morey, y G. Iverson. 2009. “Pruebas T bayesianas para aceptar y rechazar la hipótesis nula”. Boletín y Revisión Psiconómica 16:225—37.

    Sahai, H., y M. I. Ageel. 2000. El Análisis de Varianza: Modelos Fijos, Aleatorios y Mixtos. Boston: Birkhauser.

    Shaffer, J. P. 1995. “Prueba de Hipótesis Múltiple”. Revisión Anual de Psicología 46:561—84.

    Shapiro, S. S., y M. B. Wilk. 1965. “Una Prueba de Análisis de Varianza para la Normalidad (Muestras Completas)”. Biometrika 52:591—611.

    Spector, P. 2008. Manipulación de Datos con R. Nueva York, NY: Springer.

    Stevens, S. S. 1946. “Sobre la Teoría de las Escalas de Medición”. Ciencia 103:677—80.

    Stigler, S. M. 1986. La Historia de la Estadística. Cambridge, MA: Prensa de la Universidad de Harvard.

    Estudiante, A. 1908. “El Error Probable de una Media”. Biometrika 6:1—2.

    Teetor, P. 2011. R Libro de cocina. Sebastopol, CA: O'Reilly.

    Welch, B. L. 1947. “La generalización del problema 'estudiantil' cuando se involucran varias varianzas poblacionales diferentes”. Biometrika 34:28—35.

    ———. 1951. “Sobre la comparación de varios valores medios: una aproximación alternativa”. Biometrika 38:330—36.

    Blanco, H. 1980. “Un Estimador de Matriz de Covarianza Consistente de Heteroscedaticidad-Consistente y una Prueba Directa de Heteroscaedasticidad”. Econometrika 48:817—38.

    Yates, F. 1934. “Tablas de contingencia que involucran números pequeños y la prueba χ2”. Suplemento a la Revista de la Real Sociedad Estadística 1:217—35.


    This page titled 18.3: Aprender lo básico y aprenderlos en R is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Danielle Navarro via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.