Search

Text Color

Margin Size

Font Type

Enable Dyslexic Font

1.S: Resumen

Última actualización

30 oct 2022
Guardar como PDF
- 1.5: Inferencia estadística bayesiana
- 2: Termodinámica

$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$

$\newcommand{\id}{\mathrm{id}}$ $\newcommand{\Span}{\mathrm{span}}$

( \newcommand{\kernel}{\mathrm{null}\,}\) $\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$ $\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$ $\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\id}{\mathrm{id}}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\kernel}{\mathrm{null}\,}$

$\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$

$\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$

$\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$ $\newcommand{\AA}{\unicode[.8,0]{x212B}}$

$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$

$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$

$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vectorC}[1]{\textbf{#1}}$

$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$

$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$

$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$

$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$

$\newcommand{\avec}{\mathbf a}$

$\newcommand{\bvec}{\mathbf b}$

$\newcommand{\cvec}{\mathbf c}$

$\newcommand{\dvec}{\mathbf d}$

$\newcommand{\dtil}{\widetilde{\mathbf d}}$

$\newcommand{\evec}{\mathbf e}$

$\newcommand{\fvec}{\mathbf f}$

$\newcommand{\nvec}{\mathbf n}$

$\newcommand{\pvec}{\mathbf p}$

$\newcommand{\qvec}{\mathbf q}$

$\newcommand{\svec}{\mathbf s}$

$\newcommand{\tvec}{\mathbf t}$

$\newcommand{\uvec}{\mathbf u}$

$\newcommand{\vvec}{\mathbf v}$

$\newcommand{\wvec}{\mathbf w}$

$\newcommand{\xvec}{\mathbf x}$

$\newcommand{\yvec}{\mathbf y}$

$\newcommand{\zvec}{\mathbf z}$

$\newcommand{\rvec}{\mathbf r}$

$\newcommand{\mvec}{\mathbf m}$

$\newcommand{\zerovec}{\mathbf 0}$

$\newcommand{\onevec}{\mathbf 1}$

$\newcommand{\real}{\mathbb R}$

$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$

$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$

$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$

$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$

$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$

$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$

$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$

$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$

$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$

$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$

$\newcommand{\bcal}{\cal B}$

$\newcommand{\ccal}{\cal C}$

$\newcommand{\scal}{\cal S}$

$\newcommand{\wcal}{\cal W}$

$\newcommand{\ecal}{\cal E}$

$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$

$\newcommand{\gray}[1]{\color{gray}{#1}}$

$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$

$\newcommand{\rank}{\operatorname{rank}}$

$\newcommand{\row}{\text{Row}}$

$\newcommand{\col}{\text{Col}}$

$\renewcommand{\row}{\text{Row}}$

$\newcommand{\nul}{\text{Nul}}$

$\newcommand{\var}{\text{Var}}$

$\newcommand{\corr}{\text{corr}}$

$\newcommand{\len}[1]{\left|#1\right|}$

$\newcommand{\bbar}{\overline{\bvec}}$

$\newcommand{\bhat}{\widehat{\bvec}}$

$\newcommand{\bperp}{\bvec^\perp}$

$\newcommand{\xhat}{\widehat{\xvec}}$

$\newcommand{\vhat}{\widehat{\vvec}}$

$\newcommand{\uhat}{\widehat{\uvec}}$

$\newcommand{\what}{\widehat{\wvec}}$

$\newcommand{\Sighat}{\widehat{\Sigma}}$

$\newcommand{\lt}{<}$

$\newcommand{\gt}{>}$

$\newcommand{\amp}{&}$

$\definecolor{fillinmathshade}{gray}{0.9}$

Template:MathJaxArovas

Referencias

C. Gardiner, Métodos estocásticos ( $4^{th}$ edición, Springer-Verlag, 2010) Texto muy claro y completo sobre métodos estocásticos con muchas aplicaciones.
J. M. Bernardo y A. F. M. Smith, Teoría Bayesiana (Wiley, 2000) Un minucioso libro de texto sobre métodos bayesianos.
D. Williams, Pesando las probabilidades: un curso en probabilidad y estadística (Cambridge, 2001) Un buen libro de texto de estadísticas generales, según un colega matemático.
E. T. Jaynes, Probability Theory (Cambridge, 2007) Una presentación extensa, descriptiva y altamente opinionada, con un enfoque fuertemente bayesiano.
A. N. Kolmogorov, Fundamentos de la Teoría de la Probabilidad (Chelsea, 1956) El Urtext de la teoría matemática de probabilidad.

Resumen

$\bullet$ Distribuciones discretas: Permite $n$ etiquetar los distintos resultados posibles de un proceso aleatorio discreto, y dejar que $p\ns_n$ sea la probabilidad de resultado $n$ . Dejar $A$ ser una cantidad que toma valores de los que dependen $n$ , $A\ns_n$ siendo el valor de $A$ debajo del resultado $n$ . Entonces el valor esperado de $A$ es $\langle A \rangle = \sum_n p\ns_n\,A\ns_n$ , donde la suma es sobre todos los posibles valores permitidos de $n$ . Debemos tener que que la distribución esté normalizada, $\langle 1 \rangle = \sum_n p\ns_n=1$ .

$\bullet$ Distribuciones continuas: Cuando la variable aleatoria $\Bvphi$ toma un continuo de valores, definimos que la densidad de probabilidad $P(\Bvphi)$ sea tal que $P(\Bvphi)\,d\mu$ sea la probabilidad de que el resultado se encuentre dentro de un volumen diferencial $d\mu$ de $\Bvphi$ , donde $d\mu = W(\Bvphi)\prod_{i=1}^n d\vphi\ns_i$ , were $\Bvphi$ es un vector $n$ -componente en el espacio de configuración $\ROmega$ , y donde la función da $W(\Bvphi)$ cuenta de la posibilidad de diferentes medidas de espacio de configuración. Entonces si $A(\Bvphi)$ hay alguna función encendida $\ROmega$ , el valor esperado de $A$ es $\langle A\rangle=\int\limits_\ROmega\!d\mu\>P(\Bvphi)\,A(\Bvphi)$ .

$\bullet$ Teorema del límite central: Si cada uno $\{x\ns_1,\ldots,x\ns_N\}$ se distribuye independientemente según $P(x)$ , entonces la distribución de la suma $X=\sum_{i=1}^N x\ns_i$ es $\CP\ns_N(X)=\!\!\impi dx\ns_1\cdots\!\!\impi dx\ns_N\,P(x\ns_1)\cdots P(x\ns_N)\> \delta\Big(X-\sum_{i=1}^N x\ns_i\Big)=\!\!\impi {dk\over 2\pi}\> \left[ \HP(k) \right]^N \! e^{ikX}\ ,$ donde $\HP(k)=\int\!dx\>P(x)\,e^{-ikx}$ está la transformada de Fourier de $P(x)$ . Suponiendo que los momentos más bajos de $P(x)$ existir $\ln\!\big[\HP(k)\big]=-i\mu k -\half\sigma^2 k^2 + \CO(k^3)$ ,, donde $\mu=\langle x\rangle$ y $\sigma^2=\langle x^2\rangle - \langle x\rangle^2$ son la media y la desviación estándar. Entonces para $N\to\infty$ , $P\ns_N(X)=(2\pi N\sigma^2)^{-1/2}\,e^{-(X-N\mu)^2/ 2N\sigma^2}\ ,$ que es un gaussiano con media $\langle X\rangle = N\mu$ y desviación estándar $\sqrt{\langle X^2\rangle - \langle X\rangle^2}=\sqrt{N}\,\sigma$ . Así, $X$ se distribuye como un gaussiano, aunque no $P(x)$ sea un gaussiano en sí mismo.

$\bullet$ Entropía: La entropía de una distribución estadística $\{p\ns_n\}$ es $S=-\sum_n p\ns_n \ln p\ns_n$ . (A veces se usa el logaritmo base 2, en cuyo caso la entropía se mide en bits). Esto tiene la interpretación del contenido de información por elemento de una secuencia aleatoria.

$\bullet$ Distribuciones de máxima entropía: Dada una distribución $\{p\ns_n\}$ sujeta a $(K+1)$ restricciones de la forma $\CX^a=\sum_n X^a_n \, p\ns_n$ con $a\in\{0,\ldots,K\}$ , donde $\CX^0=X^0_n=1$ (normalización), la distribución consistente con estas restricciones que maximiza la función de entropía es obtenidos al extremar la función multivariable $S^*\big(\{p\ns_n\},\{\lambda\ns_a\}\big)=-\sum_n p\ns_n \ln p\ns_n - \sum_{a=0}^K \lambda\ns_a \Big(\sum_n X^a_n\,p\ns_n - \CX^a\Big) \ ,$ con respecto a las probabilidades $\{p\ns_n\}$ y los multiplicadores Lagrange $\{\lambda\ns_a\}$ . Esto da como resultado una distribución de Gibbs, $p\ns_n={1\over Z}\exp\!\left\{-\sum_{a=1}^K \lambda\ns_a X^a_n\right\}\ ,$ donde $Z=e^{1+\lambda\ns_0}$ está determinada por la normalización, $\sum_n p\ns_n = 1$ (la $a=0$ restricción) y los multiplicadores $K$ restantes determinados por las restricciones $K$ adicionales.

$\bullet$ Integral gaussiana multidimensional: $\impi dx\ns_1\cdots\!\impi dx\ns_n \> \exp\Big(\!-\half \, x\ns_i \, A\ns_{ij} \, x\ns_j + b\ns_i\,x\ns_i\Big)= \bigg({(2\pi)^n\over \det\!A}\bigg)^{\!1/2}\exp\Big(\half \, b\ns_i\,A^{-1}_{ij}\,b\ns_j\Big)\ .$

$\bullet$ Teorema de Bayes: Que $A$ sea la probabilidad condicional para $B$ dado $P(B|A)$ . Entonces dice el teorema de Bayes $P(A|B)=P(A)\cdot P(B|A) \, / \, P(B)$ . Si el 'espacio de eventos' se particiona como $\{A\ns_i\}$ , entonces tenemos la forma extendida, $P(A\ns_i|B)={P(B|A\ns_i)\cdot P(A\ns_i)\over\sum_j P(B|A\ns_j)\cdot P(A\ns_j)}\ .$ Cuando el espacio de eventos es una 'partición binaria' $\{A,\neg A\}$ , como suele ser el caso en campos como epidemiología (test positivo o test negativo), tenemos $P(A|B)={P(B|A)\cdot P(A)\over P(B|A)\cdot P(A) + P(B|\neg A)\cdot P(\neg A)}\ . \label{Bayesbinary}$ Note que $P(A|B)+P(\neg A|B)=1$ (que se desprende de $\neg\neg A = A$ ).

$\bullet$ Actualización de los antecedentes bayesianos: Dados datos en forma de valores observados $\Bx=\{x\ns_1,\ldots,x\ns_N\}\in\CX$ y una hipótesis en forma de parámetros $\Btheta=\{\theta\ns_1,\ldots,\theta\ns_K\}\in\Theta$ , escribimos la probabilidad condicional (densidad) para observar $\Bx$ dada $\Btheta$ como $f(\Bx|\Btheta)$ . El teorema de Bayes dice que la distribución correspondiente $\pi(\Btheta|\Bx)$ para $\Btheta$ condicionado $\Bx$ es $\pi(\Btheta|\Bx)={f(\Bx|\Btheta)\,\pi(\Btheta)\over\int\limits_\Theta\!d\Btheta'\> f(\Bx|\Btheta')\,\pi(\Btheta')}\ ,$ Llamamos $\pi(\Btheta)$ al previo para $\Btheta$ , $f(\Bx|\Btheta)$ la probabilidad de $\Bx$ dado $\Btheta$ , y $\pi(\Btheta|\Bx)$ el posterior para $\Btheta$ dado $\Bx$ . Podemos utilizar la posterior para encontrar la distribución de nuevos puntos de datos $\By$ , denominada distribución predictiva posterior, $f(\By|\Bx)=\int\limits_\Theta\!d\Btheta\,f(\By|\Btheta)\,\pi(\Btheta|\Bx)\,.$ Esta es la actualización de la distribución predictiva previa, $f(\Bx)=\int\limits_\Theta\!d\Btheta\,f(\Bx|\Btheta)\,\pi(\Btheta)$ . Como ejemplo, considere la moneda volteando con $f(\Bx|\Btheta)=\theta^X\,(1-\theta)^{N-X}$ , dónde $N$ está el número de volteretas, y $X=\sum_{j=1}^N x\ns_j$ con $x\ns_j$ una variable discreta que es $0$ para colas y $1$ para cabezas. El parámetro $\theta\in[0,1]$ es la probabilidad de voltear cabezas. Elegimos un previo $\pi(\theta)=\theta^{\alpha-1}\,(1-\theta)^{\beta-1}/\SB(\alpha,\beta)$ donde $\SB(\alpha,\beta)=\RGamma(\alpha)\,\RGamma(\beta)/\RGamma(\alpha+\beta)$ se encuentra la distribución Beta. Esto da como resultado un previo normalizado $\int\limits_0^1 \!d\theta\,\pi(\theta)=1$ . La distribución posterior para $\theta$ es entonces $\pi(\theta|x\ns_1,\ldots,x\ns_N)={f(x\ns_1,\ldots,x\ns_N|\theta)\,\pi(\theta)\over\int_0^1\!d\theta'\, f(x\ns_1,\ldots,x\ns_N|\theta')\,\pi(\theta')} ={\theta^{X+\alpha-1} (1-\theta)^{N-X+\beta-1}\over\SB(X+\alpha,N-X+\beta)}\ .$ El predictivo previo es $f(\Bx)=\int\limits_0^1\!d\theta f(\Bx|\theta)\,\pi(\theta)=\SB(X+\alpha,N-X+\beta)/\SB(\alpha,\beta)$ , y el predictivo posterior para el número total de cabezas $Y$ en $M$ volteretas es $f(\By|\Bx)=\!\!\int\limits_0^1\!d\theta\,f(\By|\theta)\,\pi(\theta|\Bx)= {\SB(X+Y+\alpha,N-X+M-Y+\beta)\over\SB(X+\alpha,N-X+\beta)}\quad.$

Referencias

Resumen

Support Center

How can we help?