Materia Frontal

Última actualización
Guardar como PDF

Page ID: 150400

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Prefacio

El objetivo de este libro es contar la historia de la estadística tal como es utilizada hoy en día por investigadores de todo el mundo. Es una historia diferente a la que se cuenta en la mayoría de los libros introductorios de estadísticas, que se centran en enseñar a usar un conjunto de herramientas para alcanzar metas muy específicas. Este libro se centra en comprender las ideas básicas del pensamiento estadístico, una forma sistemática de pensar sobre cómo describimos el mundo y tomamos decisiones y predicciones, todo en el contexto de la incertidumbre inherente que existe en el mundo real. También trae a la luz métodos actuales que sólo se han hecho factibles a la luz de los asombrosos aumentos en el poder computacional que han ocurrido en las últimas décadas. Los análisis que habrían llevado años en la década de 1950 ahora se pueden completar en unos segundos en una computadora portátil estándar, y esta potencia desata la capacidad de usar la simulación por computadora para hacer preguntas de formas nuevas y poderosas.

El libro también está escrito a raíz de la crisis de reproducibilidad que ha envuelto muchas áreas de la ciencia desde 2010. Una de las raíces importantes de esta crisis se encuentra en la manera en que las pruebas de hipótesis estadísticas han sido utilizadas (y abusadas) por los investigadores (como detalle en los capítulos finales del libro), y esto se relaciona directamente con la educación estadística. Así, un objetivo del libro es resaltar las formas en que los métodos estadísticos actuales pueden ser problemáticos, y sugerir alternativas.

0.1 ¿Por qué existe este libro?

En 2018 comencé a impartir un curso de licenciatura en estadística en Stanford (Psych 10/Stats 60). Nunca antes había enseñado estadística, y esta era una oportunidad para sacudir las cosas. He estado cada vez más descontento con la educación de licenciatura en estadística en psicología, y quería aportar una serie de nuevas ideas y enfoques a la clase. En particular, he querido poner en juego los enfoques que cada vez se utilizan cada vez más en la práctica estadística real en el siglo XXI. Como Brad Efron y Trevor Hastie expusieron tan amablemente en su libro “Computer Age Statistical Inference: Algorithms, Evidence, and Data Science”, estos métodos aprovechan el aumento de la potencia informática actual para resolver problemas estadísticos de maneras que van mucho más allá de los métodos más estándar que suelen ser impartido en el curso de licenciatura en estadística para estudiantes de psicología.

El primer año que impartí la clase, utilicé el increíble libro de estadísticas de novela gráfica de Andy Field, “Una aventura en la estadística”, como libro de texto. Hay muchas cosas que realmente me gustan de este libro —en particular, me gusta la forma en que enmarca la práctica estadística en torno a la construcción de modelos, y trata las pruebas de hipótesis nulas con suficiente precaución (aunque insuficiente desdén, en mi opinión). Desafortunadamente, la mayoría de mis alumnos odiaban el libro, principalmente porque implicaba vadear mucha historia para llegar al conocimiento estadístico. También me pareció faltante porque hay una serie de temas (en particular los del campo de la inteligencia artificial conocidos como machine learning) que quería incluir pero que no fueron discutidos en su libro. Finalmente llegué a sentir que los estudiantes serían mejor atendidos por un libro que sigue muy de cerca mis conferencias, así que comencé a escribir mis conferencias en un conjunto de cuadernos computacionales que finalmente se convertirían en este libro. El esquema de este libro sigue aproximadamente el del libro de Field, ya que las conferencias se basaron originalmente en gran parte en el flujo de ese libro, pero el contenido es sustancialmente diferente (y también mucho menos divertido e inteligente).

0.2 ¿Por qué R?

En mi curso, los alumnos aprenden a analizar datos de forma práctica usando el lenguaje R. La pregunta “¿Por qué R?” podría interpretarse en el sentido de “¿Por qué R en lugar de un paquete de software gráfico como (inserte el nombre aquí)?”. Después de todo, la mayoría de los alumnos que se inscriben en mi clase nunca antes lo han programado, por lo que enseñarles a programar les va a quitar la instrucción en conceptos estadísticos. Mi respuesta es que pienso que la mejor manera de aprender herramientas estadísticas es trabajar directamente con datos, y que trabajar con paquetes gráficos aísla a uno de los datos y métodos de manera que impide la verdadera comprensión. Además, para muchos de los alumnos de mi clase este puede ser el único curso en el que están expuestos a la programación; dado que la programación es una habilidad esencial en un número creciente de campos académicos, creo que dotar a estos estudiantes de alfabetización básica de programación es fundamental para su éxito futuro, y ojalá inspire al menos a algunos de ellos para que aprendan más.

La pregunta también podría interpretarse en el sentido de “¿Por qué R en lugar de (inserte el lenguaje aquí)?”. Sobre esta pregunta estoy mucho más conflictiva, porque me disgusta profundamente R como lenguaje de programación (prefiero mucho usar Python para mi propio trabajo). ¿Por qué entonces utilizo R? La primera razón es que R se ha convertido en la “lengua franca” para el análisis estadístico. Hay una serie de herramientas que utilizo en este libro (como las herramientas de modelado lineal en el paquete lme4 y las herramientas de factor Bayes en el paquete BayesFactor) que simplemente no están disponibles en otros idiomas.

La segunda razón es que el software gratuito de Rstudio hace que el uso de R sea relativamente fácil para los nuevos usuarios. En particular, me gusta la función RMarkDown Notebook que permite mezclar código narrativo y ejecutable con salida integrada. Es similar en espíritu a los cuadernos de Jupyter que muchos de nosotros usamos para la programación Python, pero me resulta más fácil manejarlo porque lo editas como un archivo de texto plano, en lugar de a través de una interfaz HTML. En mi clase, les doy a los alumnos un archivo esqueleto RMarkDown para conjuntos de problemas, y ellos envían el archivo con su solución agregada, que luego puntuo usando un conjunto de scripts de calificación automatizados.

La tercera razón es práctica: casi todos los potenciales asistentes docentes (en su mayoría estudiantes graduados de nuestro departamento) tienen experiencia con R, ya que nuestro curso de posgrado en estadística usa R. De hecho, la mayoría de ellos tienen mucha mayor habilidad con R que yo! Por otro lado, relativamente pocos de ellos tienen experiencia en Python. Por lo tanto, si quiero un ejército de asistentes de enseñanza conocedores que puedan ayudarme cuando empiezo a agitarme durante mis demostraciones de codificación en vivo en clase, tiene sentido usar R.

0.3 La edad de oro de los datos

A lo largo de este libro he intentado en la medida de lo posible utilizar ejemplos a partir de datos reales. Esto ahora es muy fácil porque estamos nadando en conjuntos de datos abiertos, ya que los gobiernos, los científicos y las empresas están poniendo cada vez más datos a disposición de manera gratuita. Creo que el uso de conjuntos de datos reales es importante porque prepara a los estudiantes para trabajar con datos reales en lugar de conjuntos de datos de juguete, lo que creo que debería ser uno de los principales objetivos de la formación estadística. También nos ayuda a darnos cuenta (como veremos en varios puntos a lo largo del libro) que los datos no siempre nos llegan listos para analizar y, a menudo, necesitan disputas para ayudarlos a ponerlos en forma. El uso de datos reales también muestra que las distribuciones estadísticas idealizadas a menudo asumidas en los métodos estadísticos no siempre se mantienen en el mundo real; por ejemplo, como veremos en el Capítulo 4, las distribuciones de algunas cantidades del mundo real (como el número de amigos en Facebook) pueden tener colas muy largas que pueden romperse muchos supuestos estándar.

Pido disculpas de antemano que los conjuntos de datos están fuertemente centrados en Estados Unidos. Esto se debe principalmente a que el mejor conjunto de datos para muchas de las demostraciones es el conjunto de datos de las Encuestas Nacionales de Examen de Salud y Nutrición (NHANES) que está disponible como un paquete R, y porque muchos de los otros conjuntos de datos complejos incluidos en R (como los del paquete fivethirtyeight) también son con sede en Estados Unidos. Si tienes sugerencias para conjuntos de datos de otras regiones, ¡por favor pásame!

0.4 Un libro de código abierto

Este libro está destinado a ser un documento vivo, razón por la cual su fuente está disponible en línea en https://github.com/poldrack/psych10-book. Si encuentras algún error en el libro o quieres hacer una sugerencia sobre cómo mejorarlo, por favor abre un número en el sitio de Github. Aún mejor, envía una solicitud de extracción con tu cambio sugerido.

El libro tiene licencia de acuerdo con la Licencia Creative Commons Reconocimiento-NoComercial 2.0 Genérica (CC BY-NC 2.0). Consulte los términos de esa licencia para obtener más detalles.

0.5 Agradecimientos

Primero quiero agradecer a Susan Holmes, quien primero me inspiró a considerar escribir mi propio libro de estadísticas. Lucy King proporcionó comentarios detallados y ediciones sobre todo el libro, y ayudó a limpiar el código para que fuera consistente con el Tidyverse. Michael Henry Tessler brindó comentarios muy útiles sobre el capítulo de análisis bayesiano. Un agradecimiento particular también va a Yihui Xie, creador del paquete Bookdown, por mejorar el uso del libro de las funciones de Bookdown (incluida la capacidad de los usuarios de generar ediciones directamente a través del botón Editar).

También me gustaría agradecer a otros que proporcionaron comentarios y sugerencias útiles: Athanassios Protopapas, Wesley Tansey, Jack Van Horn, Thor Aspelund.

Gracias a los siguientes usuarios de Twitter por sugerencias útiles: @enoriverbend

Gracias a los siguientes individuos/nombres de usuario por enviar ediciones o números vía Github o correo electrónico: Mehdi Rahim, Shanaathanan Modchalingam, Alan He, Wenjin Tao, Martijn Stegeman, Dan Kessler, Philipp Kuhnke, James Kent, Michael Waskom, Alexander Wang, Isis Anderson, Albane Valenzuela, Chuanji Gao, Jassary Rico- Herrera, basicv8vc, jiamingkong, carlosivanr, hktang, ttaweel, epetsen, brettechutch.