20.2: Teorema de Bayes e Inferencia Inversa

Última actualización
Guardar como PDF

Page ID: 150569

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

La razón por la que la estadística bayesiana tiene su nombre es porque aprovecha el teorema de Bayesian para hacer inferencias a partir de datos sobre el proceso subyacente que generó los datos. Digamos que queremos saber si una moneda es justa. Para probar esto, volteamos la moneda 10 veces y se nos ocurren 7 cabezas. Antes de esta prueba estábamos bastante seguros de que el $P_ {cabezas} =0.5$ ), pero encontrar 7 cabezas de cada 10 volteretas ciertamente nos daría una pausa si creyéramos que $P_ {cabezas} =0.5$ . Ya sabemos cómo calcular la probabilidad condicional de que voltearíamos 7 o más cabezas de 10 si la moneda es realmente justa ( $P (n\ ge7|p_ {cabezas} =0.5)$ ), utilizando la distribución binomial.

TBD: MOTIVAR EL INTERRUPTOR DE 7 A 7 O MÁS

La probabilidad resultante es 0.055. Ese es un número bastante pequeño, pero este número realmente no responde a la pregunta que nos estamos haciendo —nos está diciendo sobre la probabilidad de 7 o más cabezas dada alguna probabilidad particular de cabezas, mientras que lo que realmente queremos saber es la probabilidad de cabezas. Esto debería sonar familiar, ya que es exactamente la situación en la que nos encontramos con las pruebas de hipótesis nulas, que nos contaban sobre la probabilidad de datos más que sobre la probabilidad de hipótesis.

Recuerda que el teorema de Bayes nos proporciona la herramienta que necesitamos para invertir una probabilidad condicional:

$P (H|D) =\ frac {P (D|H) *P (H)} {P (D)}$

Podemos pensar en este teorema como que tiene cuatro partes:

anterior ( $P (Hipótesis)$ ): Nuestro grado de creencia sobre la hipótesis H antes de ver los datos D
verosimilitud ( $P (Datos|Hipótesis)$ ): ¿Cuán probables son los datos observados D bajo la hipótesis H?
probabilidad marginal ( $P (Datos)$ ): ¿Qué tan probables son los datos observados, combinando sobre todas las hipótesis posibles?
posterior ( $P (Hipótesis|Datos)$ ): Nuestra creencia actualizada sobre la hipótesis H, dados los datos D

En el caso de nuestro ejemplo de volteo de monedas: - prior ( $P$ ): Nuestro grado de creencia la probabilidad de voltear la cabeza, que era $P_ {cabezas} =0.5$ - verosimilitud ( $P (\ text {7 o más cabezas de 10 volteretas} |P_ {cabezas} =0.5)$ ): ¿Qué tan probables son 7 o más cabezas de cada 10 volteretas si $P_ {cabezas} =0.5)$ ? - probabilidad marginal ( $P (\ text {7 o más cabezas de 10 volteretas})$ ): ¿Qué probabilidades hay de observar 7 cabezas de cada 10 volteos de monedas, en general? - posterior ( $P_ {cabezas} |\ texto {7 o más cabezas de 10 volteos de moneda})$ ): Nuestra creencia actualizada sobre $P$ dadas las volteretas observadas

Aquí vemos una de las principales diferencias entre estadistas frecuentistas y bayesianas. Los frecuentistas no creen en la idea de una probabilidad de una hipótesis (es decir, nuestro grado de creencia sobre una hipótesis) —para ellos, una hipótesis es cierta o no lo es, otra forma de decirlo es que para el frecuentista, la hipótesis es fija y los datos son aleatorios, razón por la cual la inferencia frecuentista se centra en describir la probabilidad de datos dada una hipótesis (es decir, el valor p). Los bayesianos, por otro lado, se sienten cómodos haciendo declaraciones de probabilidad tanto sobre datos como hipótesis.