17.3: ¿Por qué ser bayesiano?
- Page ID
- 151352
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Hasta este punto me he centrado exclusivamente en la lógica que sustenta la estadística bayesiana. Hemos hablado de la idea de “la probabilidad como grado de creencia”, y de lo que implica sobre cómo un agente racional debe razonar sobre el mundo. La pregunta que tienes que responder por ti mismo es esta: ¿cómo quieres hacer tus estadísticas? ¿Quieres ser un estadístico ortodoxo, confiando en distribuciones de muestreo y valores p para guiar tus decisiones? ¿O quieres ser bayesiano, confiando en los factores Bayes y en las reglas para la revisión de creencias racionales? Y para ser perfectamente honesto, no puedo responder a esta pregunta por ti. En definitiva depende de lo que creas que es correcto. Es tu decisión, y tu llamada sola. Dicho esto, puedo hablar un poco sobre por qué prefiero el enfoque bayesiano.
Estadísticas que significan lo que piensas que significan
Sigues usando esa palabra. No creo que signifique lo que piensas que significa
— Inigo Montoya, La princesa novia 260
Para mí, una de las mayores ventajas del enfoque bayesiano es que responde a las preguntas correctas. Dentro del marco bayesiano, es perfectamente sensato y permisible referirse a “la probabilidad de que una hipótesis sea cierta”. Incluso puedes intentar calcular esta probabilidad. En definitiva, ¿no es eso lo que quieres que te digan tus pruebas estadísticas? Para un ser humano real, esto parecería ser el objetivo de hacer estadísticas: para determinar qué es verdad y qué no, cada vez que no estés exactamente seguro de cuál es la verdad, debes usar el lenguaje de la teoría de la probabilidad para decir cosas como “hay un 80% de probabilidad que la Teoría A es verdadera, pero un 20% de probabilidad de que la Teoría B sea verdadera en cambio”.
Esto le parece tan obvio a un humano, sin embargo, está explícitamente prohibido dentro del marco ortodoxo. Para un frecuentista, tales afirmaciones son una tontería porque “la teoría es cierta” no es un evento repetible. Una teoría es cierta o no lo es, y no se permiten declaraciones probabilísticas, por mucho que quieras hacerlas. Hay una razón por la que, allá por la Sección 11.5, le advertí repetidamente que no interpretara el valor p como la probabilidad de que la hipótesis nula sea cierta. Hay una razón por la que casi todos los libros de texto sobre estatística se ven obligados a repetir esa advertencia. Es porque la gente quiere desesperadamente que esa sea la interpretación correcta. A pesar del dogma frecuentista, toda una vida de experiencia de enseñar a estudiantes universitarios y de hacer análisis de datos a diario me sugiere que la mayoría de los humanos reales piensan que “la probabilidad de que la hipótesis sea cierta” no solo es significativa, es lo que más nos importa. Es una idea tan atractiva que incluso los estadísticos entrenados caen presa del error de intentar interpretar un valor p de esta manera. Por ejemplo, aquí hay una cita de un informe oficial de Periodil en 2013, explicando cómo interpretar su análisis de datos (frecuentista): 261
A lo largo del reporte, en su caso, se han observado cambios estadísticamente significativos. Todas las pruebas de significancia se han basado en el nivel de confianza del 95 por ciento. Esto significa que si se nota un cambio como estadísticamente significativo, existe una probabilidad del 95 por ciento de que se haya producido un cambio real, y no se debe simplemente a la variación casual. (énfasis agregado)
¡No! Eso no es lo que significa p<.05. Eso no es lo que significa 95% de confianza para un estadístico frecuentista. La sección en negrita es simplemente incorrecta. Los métodos ortodoxos no pueden decirle que “hay un 95% de posibilidades de que se haya producido un cambio real”, porque este no es el tipo de evento al que se pueden asignar probabilidades frecuentistas. Para un frecuentista ideológico, esta frase debería carecer de sentido. Incluso si eres un frecuentista más pragmático, sigue siendo la definición equivocada de un valor p. Simplemente no es algo permitido o correcto decir si quieres confiar en herramientas estadísticas ortodoxas.
Por otro lado, supongamos que eres bayesiano. Aunque el pasaje en negrita es la definición incorrecta de un valor p, es más o menos exactamente lo que quiere decir un bayesiano cuando dice que la probabilidad posterior de la hipótesis alternativa es mayor al 95%. Y aquí está la cosa. Si el posterior bayesiano es en realidad lo que quieres reportar, ¿por qué intentas usar métodos ortodoxos? Si quieres hacer reclamos bayesianos, todo lo que tienes que hacer es ser bayesiano y usar herramientas bayesianas.
Hablando por mí mismo, me pareció que esto era lo más liberador de cambiar a la visión bayesiana. Una vez que hayas dado el salto, ya no tienes que envolver tu cabeza alrededor de definiciones contranuitivas de valores p. No tienes que molestarte en recordar por qué no puedes decir que estás 95% seguro de que la verdadera media se encuentra dentro de algún intervalo. Todo lo que tienes que hacer es ser honesto sobre lo que creías antes de dirigir el estudio, y luego informar lo que aprendiste al hacerlo. Suena bien, ¿no? Para mí, esta es la gran promesa del enfoque bayesiano: haces el análisis que realmente quieres hacer, y expresas lo que realmente crees que los datos te están diciendo.