Saltar al contenido principal

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$

( \newcommand{\kernel}{\mathrm{null}\,}\) $$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\id}{\mathrm{id}}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\kernel}{\mathrm{null}\,}$$

$$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$

$$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$

$$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

$$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$$

$$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$$

$$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vectorC}[1]{\textbf{#1}}$$

$$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$$

$$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$$

$$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$$

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\avec}{\mathbf a}$$ $$\newcommand{\bvec}{\mathbf b}$$ $$\newcommand{\cvec}{\mathbf c}$$ $$\newcommand{\dvec}{\mathbf d}$$ $$\newcommand{\dtil}{\widetilde{\mathbf d}}$$ $$\newcommand{\evec}{\mathbf e}$$ $$\newcommand{\fvec}{\mathbf f}$$ $$\newcommand{\nvec}{\mathbf n}$$ $$\newcommand{\pvec}{\mathbf p}$$ $$\newcommand{\qvec}{\mathbf q}$$ $$\newcommand{\svec}{\mathbf s}$$ $$\newcommand{\tvec}{\mathbf t}$$ $$\newcommand{\uvec}{\mathbf u}$$ $$\newcommand{\vvec}{\mathbf v}$$ $$\newcommand{\wvec}{\mathbf w}$$ $$\newcommand{\xvec}{\mathbf x}$$ $$\newcommand{\yvec}{\mathbf y}$$ $$\newcommand{\zvec}{\mathbf z}$$ $$\newcommand{\rvec}{\mathbf r}$$ $$\newcommand{\mvec}{\mathbf m}$$ $$\newcommand{\zerovec}{\mathbf 0}$$ $$\newcommand{\onevec}{\mathbf 1}$$ $$\newcommand{\real}{\mathbb R}$$ $$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$$ $$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$$ $$\newcommand{\bcal}{\cal B}$$ $$\newcommand{\ccal}{\cal C}$$ $$\newcommand{\scal}{\cal S}$$ $$\newcommand{\wcal}{\cal W}$$ $$\newcommand{\ecal}{\cal E}$$ $$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$$ $$\newcommand{\gray}[1]{\color{gray}{#1}}$$ $$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$$ $$\newcommand{\rank}{\operatorname{rank}}$$ $$\newcommand{\row}{\text{Row}}$$ $$\newcommand{\col}{\text{Col}}$$ $$\renewcommand{\row}{\text{Row}}$$ $$\newcommand{\nul}{\text{Nul}}$$ $$\newcommand{\var}{\text{Var}}$$ $$\newcommand{\corr}{\text{corr}}$$ $$\newcommand{\len}[1]{\left|#1\right|}$$ $$\newcommand{\bbar}{\overline{\bvec}}$$ $$\newcommand{\bhat}{\widehat{\bvec}}$$ $$\newcommand{\bperp}{\bvec^\perp}$$ $$\newcommand{\xhat}{\widehat{\xvec}}$$ $$\newcommand{\vhat}{\widehat{\vvec}}$$ $$\newcommand{\uhat}{\widehat{\uvec}}$$ $$\newcommand{\what}{\widehat{\wvec}}$$ $$\newcommand{\Sighat}{\widehat{\Sigma}}$$ $$\newcommand{\lt}{<}$$ $$\newcommand{\gt}{>}$$ $$\newcommand{\amp}{&}$$ $$\definecolor{fillinmathshade}{gray}{0.9}$$

Template:MathJaxArovas

## Frecuentistas y Bayesianos

Allí campo de inferencia estadística se divide aproximadamente en dos escuelas de práctica: el frecuentismo y el bayesianismo. Se pueden encontrar varios artículos en la web que discuten las diferencias en estos dos enfoques. En ambos casos nos gustaría modelar datos observables$$\Bx$$ por una distribución. La distribución en general depende de uno o más parámetros$$\Btheta$$. Las cosmovisiones básicas de los dos enfoques son las siguientes:

Frecuentismo:$$\Bx$$ Los datos son una muestra aleatoria extraída de un charco infinito con alguna frecuencia. Los parámetros subyacentes$$\Btheta$$, que se van a estimar, permanecen fijos durante este proceso. No hay información previa a la especificación del modelo. Se presume que las condiciones experimentales bajo las cuales se recogen los datos son controladas y repetibles. Los resultados se expresan generalmente en términos de intervalos de confianza y niveles de confianza, obtenidos a través de pruebas de hipótesis estadísticas. Las probabilidades tienen significado solo para los datos que aún no se han recopilado. Los cálculos generalmente son computacionalmente sencillos.

Bayesianismo: Los únicos datos$$\Bx$$ que importan son los que se han observado. Los parámetros$$\Btheta$$ son desconocidos y se describen probabilísticamente utilizando una distribución previa, que generalmente se basa en alguna información disponible pero que también puede ser al menos parcialmente subjetiva. Posteriormente, los antecedentes deben actualizarse con base en los datos observados$$\Bx$$. Los resultados se expresan en términos de distribuciones posteriores e intervalos creíbles. Los cálculos pueden ser computacionalmente intensivos.

En esencia, los frecuentistas dicen que los datos son aleatorios y los parámetros son fijos. mientras que los bayesianos dicen que los datos son fijos y los parámetros son aleatorios 11. En general, el frecuentismo ha dominado en los últimos cientos de años, pero el bayesianismo ha venido cobrando fuerza en los últimos tiempos, y muchos físicos parecen naturalmente atraídos por la perspectiva bayesiana.

## Actualización de los antecedentes bayesianos

Dados los datos$$D$$ y una hipótesis$$H$$, el teorema de Bayes nos dice$P(H|D)={P(D|H)\,P(H)\over P(D)}\ .$ Típicamente los datos están en la forma de un conjunto de valores$$\Bx=\{x\ns_1,\ldots,x\ns_N\}$$, y la hipótesis en la forma de un conjunto de parámetros$$\Btheta=\{\theta\ns_1,\ldots,\theta\ns_K\}$$. Es notacionalmente útil expresar distribuciones$$\Bx$$ y distribuciones de$$\Bx$$ condicionado al$$\Btheta$$ uso del símbolo$$f$$, y distribuciones y distribuciones de$$\Btheta$$$$\Btheta$$ condicionado al$$\Bx$$ uso del símbolo$$\pi$$, en lugar de usar el símbolo$$P$$ en todas partes. Entonces tenemos$\pi(\Btheta|\Bx)={f(\Bx|\Btheta)\,\pi(\Btheta)\over\int\limits_\Theta\!d\Btheta'\> f(\Bx|\Btheta')\,\pi(\Btheta')}\ , \label{BayesPost}$ donde$$\Theta\ni\Btheta$$ está el espacio de parámetros. Tenga en cuenta que$$\int_\Theta\!d\Btheta \>\pi(\Btheta|\Bx)=1$$. El denominador del RHS es simplemente$$f(\Bx)$$, que es independiente de$$\Btheta$$, de ahí$$\pi(\Btheta|\Bx)\propto f(\Bx|\Btheta)\,\pi(\Btheta)$$. Llamamos$$\pi(\Btheta)$$ al anterior para$$\Btheta$$,$$f(\Bx|\Btheta)$$ la probabilidad de$$\Bx$$ dado$$\Btheta$$, y$$\pi(\Btheta|\Bx)$$ el posterior para$$\Btheta$$ dado$$\Bx$$. La idea aquí es que si bien nuestra suposición inicial sobre la$$\Btheta$$ distribución viene dada por la previa$$\pi(\Btheta)$$, después de tomar datos, debemos actualizar esta distribución a la posterior$$\pi(\Btheta|\Bx)$$. La probabilidad$$f(\Bx|\Btheta)$$ está implicada por nuestro modelo para el fenómeno que produce los datos. Podemos utilizar la posterior para encontrar la distribución de nuevos puntos de datos$$\By$$, llamada distribución predictiva posterior,$f(\By|\Bx)=\int\limits_\Theta\!\!d\Btheta\,f(\By|\Btheta)\,\pi(\Btheta|\Bx)\ .$ Esta es la actualización de la distribución predictiva previa,$f(\Bx)=\int\limits_\Theta\!\!d\Btheta\,f(\Bx|\Btheta)\,\pi(\Btheta)\ .$

Ejemplo$$\PageIndex{1}$$: Volteo de monedas

Considere un modelo de volteo de monedas basado en una distribución estándar de Bernoulli, donde$$\theta\in [0,1]$$ está la probabilidad de cabezas ($$x=1$$) y$$1-\theta$$ la probabilidad para colas ($$x=0$$). Es decir,$\begin{split} f(x\ns_1,\ldots,x\ns_N|\theta)&=\prod_{j=1}^N \Big[(1-\theta)\,\delta\ns_{x_j,0} + \theta\,\delta\ns_{x_j,1}\Big]\\ &=\theta^X (1-\theta)^{N-X}\ , \end{split}$ dónde$$X=\sum_{j=1}^N x\ns_j$$ está el número total observado de cabezas, y$$N-X$$ el número correspondiente de colas. Ahora necesitamos un previo$$\pi(\theta)$$. Elegimos la distribución Beta,$\pi(\theta)={\theta^{\alpha-1}(1-\theta)^{\beta-1}\over \SB(\alpha,\beta)}\ ,$ donde$$\SB(\alpha,\beta)=\RGamma(\alpha)\,\RGamma(\beta)/\RGamma(\alpha+\beta)$$ está la función Beta. Se puede verificar que$$\pi(\theta)$$ esté normalizado en el intervalo unitario:$$\int_0^1\!d\theta\,\pi(\theta)=1$$ para todos los positivos$$\alpha,\beta$$. Incluso si nos limitamos a esta forma de lo anterior, diferentes bayesianos podrían traer diferentes suposiciones sobre los valores de$$\alpha$$ y$$\beta$$. Tenga en cuenta que si elegimos$$\alpha=\beta=1$$, la distribución previa para$$\theta$$ es plana, con$$\pi(\theta)=1$$.

Ahora calculamos la distribución posterior para$$\theta$$:$\pi(\theta|x\ns_1,\ldots,x\ns_N)={f(x\ns_1,\ldots,x\ns_N|\theta)\,\pi(\theta)\over\int_0^1\!d\theta'\, f(x\ns_1,\ldots,x\ns_N|\theta')\,\pi(\theta')} ={\theta^{X+\alpha-1} (1-\theta)^{N-X+\beta-1}\over\SB(X+\alpha,N-X+\beta)}\ .$ Así, conservamos la forma de la distribución Beta, pero con parámetros actualizados,$\begin{split} \alpha'&=X+\alpha\\ \beta'&=N-X+\beta\ . \end{split}$ El hecho de que la forma funcional del anterior sea retenida por la posterior generalmente no es el caso en la actualización bayesiana. También podemos calcular el predictivo previo,$\begin{split} f(x\ns_1,\ldots,x\ns_N)&=\int\limits_0^1\!d\theta\>f(x\ns_1,\ldots,x\ns_N|\theta)\,\pi(\theta)\\ &={1\over\SB(\alpha,\beta)}\int\limits_0^1\!d\theta\>\theta^{X+\alpha-1}(1-\theta)^{N-X+\beta-1} ={\SB(X+\alpha,N-X+\beta)\over\SB(\alpha,\beta)}\ . \end{split}$ El predictivo posterior es entonces$\begin{split} f(y\ns_1,\ldots,y\ns_M | x\ns_1,\ldots,x\ns_N) &= \int\limits_0^1\!\!d\theta\>f(y\ns_1,\ldots,y\ns_M|\theta)\, \pi(\theta|x\ns_1,\ldots,x\ns_N) \\ &={1\over\SB(X+\alpha,N-X+\beta)}\int\limits_0^1\!\!d\theta\>\theta^{X+Y+\alpha-1}(1-\theta)^{N-X+M-Y+\beta-1}\\ &={\SB(X+Y+\alpha,N-X+M-Y+\beta)\over\SB(X+\alpha,N-X+\beta)}\ . \end{split}$

En Ejemplo$$\PageIndex{1}$$,$$\theta$$ es un parámetro de la distribución de Bernoulli, la verosimilitud, mientras que las cantidades$$\alpha$$ y$$\beta$$ son hiperparámetros que ingresan al anterior$$\pi(\theta)$$. En consecuencia, podríamos haber escrito$$\pi(\theta|\alpha,\beta)$$ para el previo. Tenemos entonces para la ecuación de$\pi(\Btheta|\Bx,\Balpha)={f(\Bx|\Btheta)\,\pi(\Btheta|\Balpha)\over\int\limits_\Theta\!d\Btheta'\> f(\Bx|\Btheta')\,\pi(\Btheta'|\Balpha)}\ ,$ sustitución posterior [BayesPost], donde$$\Balpha\in A$$ está el vector de hiperparámetros. Los hiperparámetros también se pueden distribuir, de acuerdo con un hiperprevio$$\rho(\Balpha)$$, y los hiperpriores se pueden parametrizar adicionalmente por hiperhiperparámetros, que pueden tener sus propias distribuciones, hasta la saciedad.

¿De qué sirve todo esto? Ya hemos visto un ejemplo convincente: cuando la posterior es de la misma forma que la anterior, la actualización bayesiana puede verse como un automorfismo del espacio hiperparamétrico$$A$$, un conjunto de hiperparámetros$$\Balpha$$ se mapea a un nuevo conjunto de hiperparámetros$${\widetilde\Balpha}$$.

Definición: Una familia paramétrica de distribuciones$$\CP=\big\{\pi(\Btheta|\Balpha) \,|\, \Btheta\in\Theta,\, \Balpha\in A\big\}$$ se denomina familia conjugada para una familia de distribuciones$$\big\{f(\Bx|\Btheta)\,|\, \Bx\in\CX,\,\Btheta\in\Theta\big\}$$ si, para todos$$\Bx\in\CX$$ y$$\Balpha\in A$$, Es$\pi(\Btheta|\Bx,\Balpha)\equiv{f(\Bx|\Btheta)\,\pi(\Btheta|\Balpha)\over\int\limits_\Theta\!d\Btheta'\,f(\Bx|\Btheta')\, \pi(\Btheta'|\Balpha)}\in\CP\ .$ decir,$$\pi(\Btheta|\Bx,\Balpha)=\pi(\Btheta|{\widetilde\Balpha})$$ para algunos$${\widetilde\Balpha}\in A$$, con$${\widetilde\Balpha}={\widetilde\Balpha}(\Balpha,\Bx)$$.

Como ejemplo, considere el análisis bayesiano conjugado de la distribución gaussiana. Asumimos una probabilidad$f(\Bx|u,s)=(2\pi s^2)^{-N/2}\exp\!\Bigg\{\!-{1\over 2s^2}\sum_{j=1}^N (x\ns_j-u)^2\Bigg\}\ .$ Los parámetros aquí son$$\Btheta=\{u,s\}$$. Ahora considere la distribución anterior$\pi(u,s|\mu\ns_0,\sigma\ns_0)=(2\pi\sigma_0^2)^{-1/2}\,\exp\!\Bigg\{\!-{(u-\mu_0)^2\over 2\sigma_0^2}\Bigg\}\ .$ Tenga en cuenta que la distribución anterior es independiente del parámetro$$s$$ y solo depende de$$u$$ y los hiperparámetros$$\Balpha=(\mu\ns_0,\sigma\ns_0)$$. Ahora calculamos el posterior:$\begin{split} \pi(u,s|\Bx,\mu\ns_0,\sigma\ns_0)&\propto f(\Bx|u,s)\,\pi(u,s|\mu\ns_0,\sigma\ns_0)\\ &=\exp\Bigg\{\!-\bigg({1\over2\sigma_0^2}+{N\over2 s^2}\bigg) u^2 + \bigg({\mu\ns_0\over\sigma_0^2} + {N\langle x\rangle\over s^2}\bigg) u - \bigg({\mu_0^2\over 2\sigma_0^2} + {N\langle x^2\rangle\over 2s^2}\bigg)\Bigg\}\ , \end{split}$ con$$\langle x\rangle={1\over N}\sum_{j=1}^N x\ns_j$$ y$$\langle x^2\rangle={1\over N}\sum_{j=1}^N x^2_j$$. Esta es también una distribución gaussiana para$$u$$, y después de suministrar la normalización apropiada se encuentra$\pi(u,s|\Bx,\mu\ns_0,\sigma\ns_0)=(2\pi\sigma_1^2)^{-1/2} \exp\Bigg\{\!-{(u-\mu\ns_1)^2\over2\sigma_1^2}\Bigg\} \quad ,$ con$\begin{split} \mu\ns_1&=\mu\ns_0+{N\big(\langle x\rangle-\mu\ns_0\big)\sigma_0^2\over s^2 + N\sigma_0^2} \\ \sigma_1^2&={s^2\sigma_0^2\over s^2+N\sigma_0^2}\quad . \end{split}$ Así, la posterior se encuentra entre la misma familia que la anterior, y hemos derivado la regla de actualización para los hiperparámetros$$(\mu\ns_0,\sigma\ns_0)\to (\mu\ns_1,\sigma\ns_1)$$. Tenga en cuenta que$$\sigma\ns_1 < \sigma\ns_0$$, por lo que el previo gaussiano actualizado es más nítido que el original. La media actualizada$$\mu\ns_1$$ cambia en la dirección de la$$\langle x\rangle$$ obtenida a partir del conjunto de datos.

## El problema con los antecedentes

Podríamos pensar que para el problema del volteo de monedas, el plano previo$$\pi(\theta)=1$$ es una inicial apropiada, ya que no privilegia ningún valor de$$\theta$$. Este previo, por lo tanto, parece 'objetivo' o 'imparcial', también llamado 'no informativo'. Pero supongamos que hacemos un cambio de variables, mapeando el intervalo$$\theta\in [0,1]$$ a toda la línea real según$$\zeta=\ln\big[\theta/(1-\theta)\big]$$. En cuanto al nuevo parámetro$$\zeta$$, escribimos el anterior como$${\tilde\pi}(\zeta)$$. Claramente$$\pi(\theta)\,d\theta = {\tilde\pi}(\zeta)\,d\zeta$$, así$${\tilde\pi}(\zeta)=\pi(\theta)\,d\theta/d\zeta$$. Para nuestro ejemplo, find$${\tilde\pi}(\zeta)= \fourth{sech}^2\!(\zeta/2)$$, que no es plano. De esta manera lo poco informativo en términos de se$$\theta$$ ha vuelto muy informativo en cuanto al nuevo parámetro$$\zeta$$. ¿Hay alguna manera verdaderamente imparcial de seleccionar a un prior bayesiano?

Un enfoque, defendido por E. T. Jaynes, es elegir la distribución previa de$$\pi(\Btheta)$$ acuerdo con el principio de máxima entropía. Para espacios de parámetros continuos, primero debemos definir una métrica de espacio de parámetros para poder 'contar' el número de diferentes estados de parámetros. La entropía de una distribución$$\pi(\Btheta)$$ depende entonces de esta métrica:$$S=-\int\!d\mu(\Btheta)\, \pi(\Btheta)\,\ln\pi(\Btheta)$$.

Otro enfoque, debido a Jeffreys, es derivar un previo independiente de la parametrización a partir de la verosimilitud$$f(\Bx|\Btheta)$$ utilizando la llamada matriz de información de Fisher,$\begin{split} I\ns_{ij}(\Btheta)&=-\ME\ns_\theta \bigg(\!{\pz^2 \ln\! f(\Bx|\Btheta)\over\pz\theta\ns_i\,\pz\theta\ns_j}\bigg)\\ &=-\!\int\!\! d\Bx\> f(\Bx|\Btheta)\>{\pz^2 \ln\! f(\Bx|\Btheta)\over\pz\theta\ns_i\,\pz\theta\ns_j}\ . \end{split}$ El anterior de Jeffreys$$\pi\ns_\ssr{J}(\Btheta)$$ se define como$\pi\ns_\ssr{J}(\Btheta)\propto\sqrt{\det\! I(\Btheta)}\ .$ Uno puede verificar que el Jeffries prior es invariante bajo reparameterización. Como ejemplo, consideremos el proceso de Bernoulli, para el cual$$\ln f(\Bx|\theta)=X\ln\theta + (N-X)\ln (1-\theta)$$, donde$$X=\sum_{j=1}^N x\ns_j$$. Entonces$-{d^2 \ln p(\Bx|\theta)\over d\theta^2}={X\over\theta^2}+{N-X\over (1-\theta)^2}\ ,$ y desde entonces$$\ME\ns_\theta\, X=N\theta$$, tenemos$I(\theta)={N\over\theta(1-\theta)}\qquad\Rightarrow\qquad \pi\ns_\ssr{J}(\theta)={1\over\pi}\,{1\over\sqrt{\theta(1-\theta)}}\ ,$ lo que felicituosamente corresponde a una distribución Beta con$$\alpha=\beta=\half$$. En este ejemplo el prior Jeffries resultó ser un prior conjugado, pero en general este no es el caso.

Podemos intentar implementar el procedimiento Jeffreys para una familia de dos parámetros donde cada uno$$x\ns_j$$ se distribuye normalmente con media$$\mu$$ y desviación estándar$$\sigma$$. Deja que los parámetros sean$$(\theta\ns_1,\theta\ns_2)=(\mu,\sigma)$$. Entonces$-\ln f(\Bx|\Btheta)=N\ln\sqrt{2\pi} + N\ln\sigma + {1\over 2\sigma^2}\sum_{j=1}^N(x\ns_j-\mu)^2\ ,$ y la matriz de información de Fisher está$I(\Btheta)=-{\pz^2\ln\!f(\Bx|\Btheta)\over\pz\theta\ns_i\,\pz\theta\ns_j} = \begin{pmatrix} N\sigma^{-2} & \sigma^{-3}\sum_j (x\ns_j-\mu) \\ & \\ \sigma^{-3}\sum_j (x\ns_j-\mu) & -N\sigma^{-2} + 3\sigma^{-4}\sum_j (x\ns_j-\mu)^2\end{pmatrix}\ .$ tomando el valor de expectativa, tenemos$$\ME\, (x\ns_j-\mu)=0$$ y$$\ME\,(x\ns_j-\mu)^2=\sigma^2$$, de ahí$\ME\, I(\Btheta)=\begin{pmatrix} N\sigma^{-2} & 0 \\ 0 & 2N\sigma^{-2} \end{pmatrix}$ y la Jeffries previa es$$\pi\ns_\ssr{J}(\mu,\sigma)\propto \sigma^{-2}$$. Esto es problemático porque si elegimos una métrica plana en el medio plano$$(\mu,\sigma)$$ superior, el Jeffries prior no es normalizable. Obsérvese también que el anterior Jeffreys ya no se parece a un gaussiano, y por lo tanto no es un previo conjugado.

1. La excepción es el caso imparcial$$p=q=\half$$, donde$$\langle X\rangle=0$$.
2. El origen de$$\CC$$ radica en los$$\CO(N^0)$$ términos$$\CO(\ln N)$$ y en la expansión asintótica de$$\ln N!$$. Aquí hemos ignorado estos términos. Contabilizarlos reproduce cuidadosamente el valor correcto de$$\CC$$ en Ecuación [NorMc].
3. La función$$s(x)$$ es la entropía específica.
4. Una función$$g(x)$$ es cóncava si$$-g(x)$$ es convexa.
5. Ver 'Una introducción a la teoría de la información y la entropía' de T. Carter, Escuela de Verano de Sistemas Complejos de Santa Fe, junio de 2011. Disponible en línea en astarte.csustan.edu/$\ sim$tom/sfi-csss/info-teory/info-lec.pdf.
6. Mi colega John McGreevy se refiere$$I(p)$$ como la sorpresa de observar un evento que ocurre con probabilidad$$p$$. Esto me gusta mucho.
7. Ver §10 de Una indagación concerniente a la comprensión humana de David Hume (1748).
8. Tal medida es invariante con respecto a las transformaciones canónicas, que son la amplia clase de transformaciones entre coordenadas y momentos que dejan invariantes las ecuaciones de movimiento de Hamilton, y que preservan los volúmenes del espacio de fase bajo la evolución hamiltoniana. Por esta razón$$d\mu$$ se denomina medida de espacio de fase invariante.
9. ¡Memoriza esto!