Saltar al contenido principal
LibreTexts Español

1.S: Resumen

  • Page ID
    126475
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Template:MathJaxArovas

    Referencias

    • C. Gardiner, Métodos estocásticos (\(4^{th}\)edición, Springer-Verlag, 2010) Texto muy claro y completo sobre métodos estocásticos con muchas aplicaciones.
    • J. M. Bernardo y A. F. M. Smith, Teoría Bayesiana (Wiley, 2000) Un minucioso libro de texto sobre métodos bayesianos.
    • D. Williams, Pesando las probabilidades: un curso en probabilidad y estadística (Cambridge, 2001) Un buen libro de texto de estadísticas generales, según un colega matemático.
    • E. T. Jaynes, Probability Theory (Cambridge, 2007) Una presentación extensa, descriptiva y altamente opinionada, con un enfoque fuertemente bayesiano.
    • A. N. Kolmogorov, Fundamentos de la Teoría de la Probabilidad (Chelsea, 1956) El Urtext de la teoría matemática de probabilidad.

    Resumen

    \(\bullet\)Distribuciones discretas: Permite\(n\) etiquetar los distintos resultados posibles de un proceso aleatorio discreto, y dejar que\(p\ns_n\) sea la probabilidad de resultado\(n\). Dejar\(A\) ser una cantidad que toma valores de los que dependen\(n\),\(A\ns_n\) siendo el valor de\(A\) debajo del resultado\(n\). Entonces el valor esperado de\(A\) es\(\langle A \rangle = \sum_n p\ns_n\,A\ns_n\), donde la suma es sobre todos los posibles valores permitidos de\(n\). Debemos tener que que la distribución esté normalizada,\(\langle 1 \rangle = \sum_n p\ns_n=1\).

    \(\bullet\)Distribuciones continuas: Cuando la variable aleatoria\(\Bvphi\) toma un continuo de valores, definimos que la densidad de probabilidad\(P(\Bvphi)\) sea tal que\(P(\Bvphi)\,d\mu\) sea la probabilidad de que el resultado se encuentre dentro de un volumen diferencial \(d\mu\)de\(\Bvphi\), donde\(d\mu = W(\Bvphi)\prod_{i=1}^n d\vphi\ns_i\), were\(\Bvphi\) es un vector\(n\) -componente en el espacio de configuración\(\ROmega\), y donde la función da\(W(\Bvphi)\) cuenta de la posibilidad de diferentes medidas de espacio de configuración. Entonces si\(A(\Bvphi)\) hay alguna función encendida\(\ROmega\), el valor esperado de\(A\) es\(\langle A\rangle=\int\limits_\ROmega\!d\mu\>P(\Bvphi)\,A(\Bvphi)\).

    \(\bullet\)Teorema del límite central: Si cada uno\(\{x\ns_1,\ldots,x\ns_N\}\) se distribuye independientemente según\(P(x)\), entonces la distribución de la suma\(X=\sum_{i=1}^N x\ns_i\) es\[\CP\ns_N(X)=\!\!\impi dx\ns_1\cdots\!\!\impi dx\ns_N\,P(x\ns_1)\cdots P(x\ns_N)\> \delta\Big(X-\sum_{i=1}^N x\ns_i\Big)=\!\!\impi {dk\over 2\pi}\> \left[ \HP(k) \right]^N \! e^{ikX}\ ,\] donde\(\HP(k)=\int\!dx\>P(x)\,e^{-ikx}\) está la transformada de Fourier de\(P(x)\). Suponiendo que los momentos más bajos de\(P(x)\) existir\(\ln\!\big[\HP(k)\big]=-i\mu k -\half\sigma^2 k^2 + \CO(k^3)\),, donde\(\mu=\langle x\rangle\) y\(\sigma^2=\langle x^2\rangle - \langle x\rangle^2\) son la media y la desviación estándar. Entonces para\(N\to\infty\),\[P\ns_N(X)=(2\pi N\sigma^2)^{-1/2}\,e^{-(X-N\mu)^2/ 2N\sigma^2}\ ,\] que es un gaussiano con media\(\langle X\rangle = N\mu\) y desviación estándar\(\sqrt{\langle X^2\rangle - \langle X\rangle^2}=\sqrt{N}\,\sigma\). Así,\(X\) se distribuye como un gaussiano, aunque no\(P(x)\) sea un gaussiano en sí mismo.

    \(\bullet\)Entropía: La entropía de una distribución estadística\(\{p\ns_n\}\) es\(S=-\sum_n p\ns_n \ln p\ns_n\). (A veces se usa el logaritmo base 2, en cuyo caso la entropía se mide en bits). Esto tiene la interpretación del contenido de información por elemento de una secuencia aleatoria.

    \(\bullet\)Distribuciones de máxima entropía: Dada una distribución\(\{p\ns_n\}\) sujeta a\((K+1)\) restricciones de la forma\(\CX^a=\sum_n X^a_n \, p\ns_n\) con\(a\in\{0,\ldots,K\}\), donde\(\CX^0=X^0_n=1\) (normalización), la distribución consistente con estas restricciones que maximiza la función de entropía es obtenidos al extremar la función multivariable\[S^*\big(\{p\ns_n\},\{\lambda\ns_a\}\big)=-\sum_n p\ns_n \ln p\ns_n - \sum_{a=0}^K \lambda\ns_a \Big(\sum_n X^a_n\,p\ns_n - \CX^a\Big) \ ,\] con respecto a las probabilidades\(\{p\ns_n\}\) y los multiplicadores Lagrange\(\{\lambda\ns_a\}\). Esto da como resultado una distribución de Gibbs,\[p\ns_n={1\over Z}\exp\!\left\{-\sum_{a=1}^K \lambda\ns_a X^a_n\right\}\ ,\] donde\(Z=e^{1+\lambda\ns_0}\) está determinada por la normalización,\(\sum_n p\ns_n = 1\) (la\(a=0\) restricción) y los multiplicadores\(K\) restantes determinados por las restricciones\(K\) adicionales.

    \(\bullet\)Integral gaussiana multidimensional:\[\impi dx\ns_1\cdots\!\impi dx\ns_n \> \exp\Big(\!-\half \, x\ns_i \, A\ns_{ij} \, x\ns_j + b\ns_i\,x\ns_i\Big)= \bigg({(2\pi)^n\over \det\!A}\bigg)^{\!1/2}\exp\Big(\half \, b\ns_i\,A^{-1}_{ij}\,b\ns_j\Big)\ .\]

    \(\bullet\)Teorema de Bayes: Que\(A\) sea la probabilidad condicional para\(B\) dado\(P(B|A)\). Entonces dice el teorema de Bayes\(P(A|B)=P(A)\cdot P(B|A) \, / \, P(B)\). Si el 'espacio de eventos' se particiona como\(\{A\ns_i\}\), entonces tenemos la forma extendida,\[P(A\ns_i|B)={P(B|A\ns_i)\cdot P(A\ns_i)\over\sum_j P(B|A\ns_j)\cdot P(A\ns_j)}\ .\] Cuando el espacio de eventos es una 'partición binaria'\(\{A,\neg A\}\), como suele ser el caso en campos como epidemiología (test positivo o test negativo), tenemos\[P(A|B)={P(B|A)\cdot P(A)\over P(B|A)\cdot P(A) + P(B|\neg A)\cdot P(\neg A)}\ . \label{Bayesbinary}\] Note que\(P(A|B)+P(\neg A|B)=1\) (que se desprende de \(\neg\neg A = A\)).

    \(\bullet\)Actualización de los antecedentes bayesianos: Dados datos en forma de valores observados\(\Bx=\{x\ns_1,\ldots,x\ns_N\}\in\CX\) y una hipótesis en forma de parámetros\(\Btheta=\{\theta\ns_1,\ldots,\theta\ns_K\}\in\Theta\), escribimos la probabilidad condicional (densidad) para observar\(\Bx\) dada\(\Btheta\) como\(f(\Bx|\Btheta)\). El teorema de Bayes dice que la distribución correspondiente\(\pi(\Btheta|\Bx)\) para\(\Btheta\) condicionado\(\Bx\) es\[\pi(\Btheta|\Bx)={f(\Bx|\Btheta)\,\pi(\Btheta)\over\int\limits_\Theta\!d\Btheta'\> f(\Bx|\Btheta')\,\pi(\Btheta')}\ ,\] Llamamos\(\pi(\Btheta)\) al previo para\(\Btheta\),\(f(\Bx|\Btheta)\) la probabilidad de\(\Bx\) dado\(\Btheta\), y \(\pi(\Btheta|\Bx)\)el posterior para\(\Btheta\) dado\(\Bx\). Podemos utilizar la posterior para encontrar la distribución de nuevos puntos de datos\(\By\), denominada distribución predictiva posterior,\(f(\By|\Bx)=\int\limits_\Theta\!d\Btheta\,f(\By|\Btheta)\,\pi(\Btheta|\Bx)\,.\) Esta es la actualización de la distribución predictiva previa,\(f(\Bx)=\int\limits_\Theta\!d\Btheta\,f(\Bx|\Btheta)\,\pi(\Btheta)\). Como ejemplo, considere la moneda volteando con\(f(\Bx|\Btheta)=\theta^X\,(1-\theta)^{N-X}\), dónde\(N\) está el número de volteretas, y\(X=\sum_{j=1}^N x\ns_j\) con\(x\ns_j\) una variable discreta que es\(0\) para colas y\(1\) para cabezas. El parámetro\(\theta\in[0,1]\) es la probabilidad de voltear cabezas. Elegimos un previo\(\pi(\theta)=\theta^{\alpha-1}\,(1-\theta)^{\beta-1}/\SB(\alpha,\beta)\) donde\(\SB(\alpha,\beta)=\RGamma(\alpha)\,\RGamma(\beta)/\RGamma(\alpha+\beta)\) se encuentra la distribución Beta. Esto da como resultado un previo normalizado\(\int\limits_0^1 \!d\theta\,\pi(\theta)=1\). La distribución posterior para\(\theta\) es entonces\[\pi(\theta|x\ns_1,\ldots,x\ns_N)={f(x\ns_1,\ldots,x\ns_N|\theta)\,\pi(\theta)\over\int_0^1\!d\theta'\, f(x\ns_1,\ldots,x\ns_N|\theta')\,\pi(\theta')} ={\theta^{X+\alpha-1} (1-\theta)^{N-X+\beta-1}\over\SB(X+\alpha,N-X+\beta)}\ .\] El predictivo previo es\(f(\Bx)=\int\limits_0^1\!d\theta f(\Bx|\theta)\,\pi(\theta)=\SB(X+\alpha,N-X+\beta)/\SB(\alpha,\beta)\), y el predictivo posterior para el número total de cabezas\(Y\) en\(M\) volteretas es\[f(\By|\Bx)=\!\!\int\limits_0^1\!d\theta\,f(\By|\theta)\,\pi(\theta|\Bx)= {\SB(X+Y+\alpha,N-X+M-Y+\beta)\over\SB(X+\alpha,N-X+\beta)}\quad.\]


    This page titled 1.S: Resumen is shared under a CC BY-NC-SA license and was authored, remixed, and/or curated by Daniel Arovas.