18.4: Otras formas de hacer inferencia

Última actualización
Guardar como PDF

Page ID: 151717

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Un sentido diferente en el que este libro está incompleto es que se centra bastante en una visión muy estrecha y anticuada de cómo se deben hacer las estadísticas inferenciales. En el capítulo 10 hablé un poco sobre la idea de estimadores imparciales, distribuciones de muestreo, etc. En el capítulo 11 hablé sobre la teoría de las pruebas de significación de hipótesis nulas y los valores p. Estas ideas han existido desde principios del siglo XX, y las herramientas de las que he hablado en el libro dependen mucho de las ideas teóricas de esa época. Me he sentido obligado a ceñirme a esos temas porque la gran mayoría del análisis de datos en la ciencia también depende de esas ideas. Sin embargo, la teoría de la estadística no se restringe a esos temas, y —aunque todos deberían conocerlos por su importancia práctica— en muchos aspectos esas ideas no representan las mejores prácticas para el análisis contemporáneo de datos. Una de las cosas con las que estoy especialmente contento es que he podido ir un poco más allá de esto. El capítulo 17 presenta ahora la perspectiva bayesiana en una cantidad razonable de detalles, pero el libro en general todavía está bastante ponderado hacia la ortodoxia frecuentista. Adicionalmente, hay una serie de otros enfoques de inferencia que vale la pena mencionar:

Bootstrapping A lo largo del libro, cada vez que he introducido una prueba de hipótesis, he tenido una fuerte tendencia solo a hacer afirmaciones como “la distribución de muestreo para BLAH es una distribución t” o algo así. En algunos casos, en realidad he intentado justificar esta afirmación. Por ejemplo, al hablar de pruebas χ2 en el Capítulo 12, hice referencia a la relación conocida entre distribuciones normales y distribuciones χ2 (ver Capítulo 9) para explicar cómo terminamos asumiendo que la distribución muestral de la estadística de bondad de ajuste es χ2. Sin embargo, también es el caso de que muchas de estas distribuciones de muestreo son, bueno, equivocadas. La prueba χ2 es un buen ejemplo: se basa en una suposición sobre la distribución de sus datos, ¡una suposición que se sabe que es incorrecta para tamaños de muestra pequeños! A principios del siglo XX, no había mucho que pudieras hacer al respecto: los estadísticos habían desarrollado resultados matemáticos que decían que “bajo suposiciones BLAH sobre los datos, la distribución del muestreo es aproximadamente BLAH”, y eso era lo mejor que podías hacer. Muchas veces ni siquiera lo tenían: hay muchas situaciones de análisis de datos para las que nadie ha encontrado una solución matemática para las distribuciones de muestreo que necesitas. Y así hasta finales del siglo XX, las pruebas correspondientes no existían o no funcionaban. Sin embargo, las computadoras han cambiado todo eso ahora. Hay muchos trucos elegantes, y algunos no tan elegantes, que puedes usar para sortearlo. El más simple de estos es el bootstrapping, y en su forma más simple es increíblemente simple. Aquí está: simula los resultados de tu experimento mucho y mucho tiempo, bajo las suposiciones gemelas de que (a) la hipótesis nula es cierta y (b) la distribución de la población desconocida en realidad se ve bastante similar a tus datos brutos. En otras palabras, en lugar de suponer que los datos están (por ejemplo) distribuidos normalmente, solo asuma que la población se ve igual que tu muestra, y luego usa computadoras para simular la distribución de muestreo para tu estadística de prueba si esa suposición se mantiene. A pesar de confiar en una suposición algo dudosa (es decir, ¡la distribución de la población es la misma que la de la muestra!) bootstrapping es un método rápido y fácil que funciona notablemente bien en la práctica para muchos problemas de análisis de datos.
Validación cruzada Una pregunta que aparece en mis clases de estadísticas de vez en cuando, generalmente por parte de un estudiante que intenta ser provocativo, es “¿Por qué nos importan en absoluto las estadísticas inferenciales? ¿Por qué no simplemente describir tu muestra?” La respuesta a la pregunta suele ser algo así: “Debido a que nuestro verdadero interés como científicos no es la muestra específica que hemos observado en el pasado, queremos hacer predicciones sobre datos que podríamos observar en el futuro ”. Muchos de los problemas en la inferencia estadística surgen por el hecho de que siempre esperamos que el futuro sea similar pero un poco diferente al pasado. O, de manera más general, los datos nuevos no serán exactamente los mismos que los datos antiguos. Lo que hacemos, en muchas situaciones, es tratar de derivar reglas matemáticas que nos ayuden a trazar las inferencias que más probablemente sean correctas para los nuevos datos, en lugar de escoger las declaraciones que mejor describan los datos antiguos. Por ejemplo, dados dos modelos A y B, y un conjunto de datos X que recopilaste hoy, intenta elegir el modelo que mejor describa un nuevo conjunto de datos Y que vas a recopilar mañana. A veces es conveniente simular el proceso, y eso es lo que hace la validación cruzada. Lo que haces es dividir tu conjunto de datos en dos subconjuntos, X1 y X2. Usa el subconjunto X1 para entrenar el modelo (por ejemplo, estimar coeficientes de regresión, digamos), pero luego evaluar el rendimiento del modelo en el otro X2. Esto le da una medida de lo bien que el modelo generaliza de un conjunto de datos antiguo a uno nuevo, y a menudo es una mejor medida de lo bueno que es su modelo que si simplemente lo ajusta al conjunto de datos completo X.
Estadísticas robustas La vida es desordenada, y nada funciona realmente de la manera que se supone que debe hacerlo. Esto es tan cierto para las estadísticas como para cualquier otra cosa, y cuando tratamos de analizar datos a menudo estamos atrapados con todo tipo de problemas en los que los datos son simplemente más desordenados de lo que se supone que son. Las variables que se supone que se distribuyen normalmente no están realmente distribuidas normalmente, las relaciones que se supone que son lineales no son realmente lineales, y algunas de las observaciones en su conjunto de datos son casi seguramente basura (es decir, no miden lo que se supone que deben). Todo este desorden es ignorado en la mayor parte de la teoría estadística que desarrollé en este libro. Sin embargo, ignorar un problema no siempre lo resuelve. A veces, en realidad está bien ignorar el desorden, porque algunos tipos de herramientas estadísticas son “robustas”: si los datos no satisfacen tus suposiciones teóricas, siguen funcionando bastante bien. Otros tipos de herramientas estadísticas no son robustas: incluso pequeñas desviaciones de los supuestos teóricos hacen que se rompan. Las estadísticas robustas son una rama de las estadísticas preocupadas por esta pregunta, y hablan de cosas como el “punto de ruptura” de una estadística: es decir, ¿qué tan desordenados tienen que ser tus datos antes de que no se pueda confiar en la estadística? Toqué esto en algunos lugares. La media no es un estimador robusto de la tendencia central de una variable; la mediana es. Por ejemplo, suponga que te dije que las edades de mis cinco mejores amigos son 34, 39, 31, 43 y 4003 años. ¿Qué edad crees que tienen en promedio? Es decir, ¿qué significa aquí la verdadera población? Si usas la media muestral como tu estimador de la media poblacional, obtienes una respuesta de 830 años. Si usas la mediana muestral como estimador de la media poblacional, obtienes una respuesta de 39 años. Observe que, aunque esté “técnicamente” haciendo lo incorrecto en el segundo caso (¡usando la mediana para estimar la media!) en realidad estás obteniendo una mejor respuesta. El problema aquí es que una de las observaciones es claramente, obviamente una mentira. No tengo un amigo de 4003 años de edad. Probablemente sea un error tipográfico: probablemente quise escribir 43. Pero, ¿y si hubiera escrito 53 en lugar de 43, o 34 en lugar de 43? ¿Podrías estar seguro si esto fue un error tipográfico? A veces los errores en los datos son sutiles, por lo que no puedes detectarlos con solo mirar la muestra, sino que siguen siendo errores que contaminan tus datos, y siguen afectando tus conclusiones. Las estadísticas robustas se preocupan por cómo se pueden hacer inferencias seguras incluso cuando se enfrenta a una contaminación que no conoce. Es algo bastante genial.

Temas diversos

Datos faltantes Supongamos que estás haciendo una encuesta, y te interesa el ejercicio y el peso. Envías datos a cuatro personas. Adam dice que hace mucho ejercicio y no tiene sobrepeso. Briony dice que hace mucho ejercicio y no tiene sobrepeso. Carol dice que no hace ejercicio y tiene sobrepeso. Dan dice que no hace ejercicio y se niega a responder la pregunta sobre su peso. Elaine no devuelve la encuesta. Ahora tienes un problema de datos faltantes. Falta una encuesta completa, y falta una pregunta de otra, ¿qué haces al respecto? Apenas he tocado esta pregunta en este libro, en la Sección5.8, y en esa sección todo lo que hice fue contarte algunos comandos R que puedes usar para ignorar los datos faltantes. Pero ignorar los datos faltantes no es, en general, algo seguro que hacer. Pensemos aquí en la encuesta de Dan. En primer lugar, fíjate que, a partir de mis otras respuestas, parezco ser más similar a Carol (ninguno de nosotros ejercemos) que a Adam o Briony. Entonces, si te veías obligado a adivinar mi peso, adivinarías que estoy más cerca de ella que de ellos. A lo mejor harías alguna corrección por el hecho de que Adam y yo somos hombres y Briony y Carol son mujeres. El nombre estadístico para este tipo de adivinanzas es “imputación”. Hacer imputación de manera segura es difícil, pero importante, especialmente cuando faltan los datos faltantes de manera sistemática. Debido a que a menudo se presiona a las personas con sobrepeso para que se sientan mal por su peso (muchas veces gracias a campañas de salud pública), en realidad tenemos razones para sospechar que las personas que no responden tienen más probabilidades de tener sobrepeso que las personas que sí responden. Implantar un peso a Dan significa que el número de personas con sobrepeso en la muestra probablemente aumentará de 1 de 3 (si ignoramos a Dan), a 2 de 4 (si imputamos el peso de Dan). Claramente esto importa. Pero hacerlo con sensatez es más complicado de lo que parece. Antes, sugerí que me trataras como Carol, ya que dimos la misma respuesta a la pregunta del ejercicio. Pero eso no está del todo bien: hay una diferencia sistemática entre nosotros. Ella respondió a la pregunta, y yo no, dadas las presiones sociales que enfrentan las personas con sobrepeso, ¿no es probable que tenga más sobrepeso que Carol? Y claro esto sigue ignorando el hecho de que no es sensato imputarme un solo peso, como si realmente supieras mi peso. En cambio, lo que hay que hacer es imputar una serie de conjeturas plausibles (referidas como imputación múltiple), para captar el hecho de que estás más incierto sobre mi peso que sobre Carol's Y no empecemos con el problema que plantea el hecho de que Elaine no envió en la encuesta. Como probablemente puedas adivinar, lidiar con los datos faltantes es un tema cada vez más importante. De hecho, me han dicho que muchas revistas en algunos campos no aceptarán estudios que tengan datos faltantes a menos que se siga algún tipo de esquema sensible de imputación múltiple.
Análisis de potencia En el Capítulo 11 discutí el concepto de poder (es decir, qué tan probable es que puedas detectar un efecto si realmente existe), y me referí al análisis de potencia, una colección de herramientas que son útiles para evaluar cuánta potencia tiene tu estudio. El análisis de potencia puede ser útil para planificar un estudio (por ejemplo, averiguar qué tan grande es probable que necesite una muestra), pero también desempeña un papel útil en el análisis de datos que ya recopiló. Por ejemplo, supongamos que obtiene un resultado significativo, y tiene una estimación del tamaño de su efecto. Puedes usar esta información para estimar cuánta potencia tenía realmente tu estudio. Esto es algo útil, especialmente si el tamaño de tu efecto no es grande. Por ejemplo, supongamos que rechaza la hipótesis nula p<.05, pero usa el análisis de potencia para averiguar que su potencia estimada era de solo .08. El resultado significativo significa que, si la hipótesis nula era de hecho cierta, había un 5% de posibilidades de obtener datos como estos. Pero la baja potencia significa que, aunque la hipótesis nula sea falsa, el tamaño del efecto fue realmente tan pequeño como parece, solo había un 8% de posibilidades de obtener datos como el que hiciste. Esto sugiere que debes ser bastante cauteloso, porque la suerte parece haber jugado un papel importante en tus resultados, ¡de una manera u otra!
Análisis de datos usando modelos inspirados en la teoría En algunos lugares de este libro he mencionado los datos del tiempo de respuesta (RT), donde se registra cuánto tiempo le toma a alguien hacer algo (por ejemplo, tomar una decisión simple). He mencionado que los datos de RT son casi invariablemente no normales, y positivamente sesgados. Además, hay algo conocido como compensación de velocidad-precisión: si intentas tomar decisiones demasiado rápido (RT bajo), es probable que tomes decisiones más pobres (menor precisión). Entonces, si mides tanto la precisión de las decisiones de un participante como su RT, probablemente encontrarás que la velocidad y la precisión están relacionadas. Hay más en la historia que esto, claro, porque algunas personas toman mejores decisiones que otras independientemente de lo rápido que vayan. Además, la velocidad depende tanto de los procesos cognitivos (es decir, del tiempo de pensar) como de los fisiológicos (por ejemplo, qué tan rápido puedes mover tus músculos). Está empezando a sonar como analizar estos datos va a ser un proceso complicado. Y de hecho lo es, pero una de las cosas que encuentras cuando profundizas en la literatura psicológica es que ya existen modelos matemáticos (llamados “modelos de muestreo secuencial”) que describen cómo las personas toman decisiones simples, y estos modelos toman en cuenta muchos de los factores que mencioné anteriormente. No encontrarás ninguno de estos modelos inspirados teóricamente en un libro de texto de estadística estándar. Los libros de texto de estadísticas estándar describen herramientas estándar, herramientas que podrían aplicarse de manera significativa en muchas disciplinas diferentes, no solo en psicología. ANOVA es un ejemplo de herramienta estándar: es tan aplicable a la psicología como a la farmacología. Los modelos de muestreo secuencial no son: son específicos de psicología, más o menos. Esto no las convierte en herramientas menos poderosas: de hecho, si estás analizando datos donde la gente tiene que tomar decisiones rápidamente, realmente deberías estar usando modelos de muestreo secuencial para analizar los datos. Usar ANOVA o regresión o lo que sea no funcionará tan bien, porque los supuestos teóricos que los sustentan no están bien adaptados a tus datos. En contraste, los modelos de muestreo secuencial fueron diseñados explícitamente para analizar este tipo específico de datos, y sus supuestos teóricos están muy bien adaptados a los datos. Obviamente, es imposible cubrir este tipo de cosas adecuadamente, porque hay miles de modelos específicos de contexto en cada campo de la ciencia. Aun así, una cosa que me gustaría hacer en versiones posteriores del libro es dar algunos estudios de caso que son de particular relevancia para los psicólogos, sólo para dar un sentido de cómo se puede utilizar la teoría psicológica para hacer un mejor análisis estadístico de los datos psicológicos. Entonces, en versiones posteriores del libro probablemente hablaré sobre cómo analizar datos de tiempo de respuesta, entre otras cosas.