Saltar al contenido principal
LibreTexts Español

1.3: Entropía y Probabilidad

  • Page ID
    126462
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Template:MathJaxArovas

    Entropía y Teoría de la Información

    Se demostró en la obra clásica de Claude Shannon de 1948 que la entropía es de hecho una medida de información 5. Supongamos que observamos que un evento particular ocurre con probabilidad\(p\). Asociamos a esta observación una cantidad de información\(I(p)\). La información\(I(p)\) debe satisfacer ciertos desiderata:

    • La información no es negativa,\(I(p)\ge 0\).
    • Si dos eventos ocurren independientemente por lo que su probabilidad conjunta es\(p\ns_1\,p\ns_2\), entonces su información es aditiva,\(I(p\ns_1 p\ns_2)=I(p\ns_1)+I(p\ns_2)\).
    • \(I(p)\)es una función continua de\(p\).
    • No hay contenido de información a un evento que siempre se observa,\(I(1)=0\).

    A partir de estas cuatro propiedades, es fácil demostrar que la única función posible\(I(p)\) es\[I(p)=-A\,\ln p\ ,\] donde se\(A\) encuentra una constante arbitraria que puede ser absorbida en la base del logaritmo, ya que\(\log\ns_b x = \ln x / \ln b\). Tomaremos\(A=1\) y usaremos\(e\) como base, entonces\(I(p)=-\ln p\). Otra opción común es tomar la base del logaritmo para ser\(2\), así\(I(p)=-\log\ns_2 p\). En este último caso, las unidades de información se conocen como bits. Tenga en cuenta que\(I(0)=\infty\). Esto significa que la observación de un evento extremadamente raro conlleva una gran cantidad de información 6

    Ahora supongamos que tenemos un conjunto de eventos etiquetados por un entero\(n\) que ocurren con probabilidades\(\{p\ns_n\}\). ¿Cuál es la cantidad esperada de información en\(N\) las observaciones? Dado que el evento\(n\) ocurre un promedio de\(N p\ns_n\) veces, y el contenido de información en\(p\ns_n\) es\(-\ln p\ns_n\), tenemos que la información promedio por observación es la\[S={\langle I\ns_N\rangle\over N} = -\sum_n p\ns_n\ln p\ns_n \ ,\] que se conoce como la entropía de la distribución. Así, maximizar\(S\) equivale a maximizar el contenido de información por observación.

    Consideremos, por ejemplo, el contenido de información de las calificaciones del curso. Como veremos, si la única restricción en la distribución de probabilidad es la de normalización general, entonces\(S\) se maximiza cuando todas las probabilidades\(p\ns_n\) son iguales. La entropía binaria es entonces\(S=\log\ns_2\Gamma\), ya que\(p\ns_n=1/\Gamma\). Por lo tanto, para la calificación aprobado/no aprobado, la información promedio máxima por calificación es\(-\log\ns_2 (\frac{1}{2})=\log\ns_2 2 =1\) bit. Si solo se asignan calificaciones A, B, C, D y F, entonces la información promedio máxima por grado es\(\log\ns_2 5= 2.32\) bits. Si ampliamos las opciones de calificación para incluir {A+, A, A-, B+, B, B-, C+, C, C-, D, F}, entonces la información promedio máxima por grado es\(\log\ns_2 11 = 3.46\) bits.

    Equivalentemente, consideremos, siguiendo la discusión en el vol. 1 de Kardar, una secuencia aleatoria\(\{n\ns_1,n\ns_2,\ldots,n\ns_N\}\) donde cada elemento\(n\ns_j\) toma uno de los valores\(K\) posibles. Entonces existen\(K^N\) tales secuencias posibles, y para especificar una de ellas se requieren\(\log\ns_2 (K^N)=N\log\ns_2 K\) bits de información. Sin embargo, si el valor\(n\) ocurre con probabilidad\(p\ns_n\), entonces en promedio ocurrirá\(N\ns_n=N p\ns_n\) veces en una secuencia de longitud\(N\), y el número total de tales secuencias será\[g(N)={N!\over\prod_{n=1}^K N\ns_n !}\ .\] En general, esto es mucho menor que el número total posible\(K^N\), y el número de bits necesario precisar una de entre estas\(g(N)\) posibilidades es\[\log\ns_2 g(N)=\log\ns_2 (N!)- \sum_{n=1}^K \log\ns_2 (N\ns_n! )\approx -N\sum_{n=1}^K p\ns_n \log\ns_2 p\ns_n\ ,\] hasta términos de orden unidad. Aquí hemos invocado la aproximación de Stirling. Si la distribución es uniforme, entonces tenemos\(p\ns_n={1\over K}\) para todos\(n\in\{1,\ldots,K\}\), y\(\log\ns_2 g(N)=N\log\ns_2 K\).

    Distribuciones de probabilidad a partir de la entropía máxima

    Hemos demostrado cómo se puede proceder a partir de una distribución de probabilidad y calcular varios promedios. Ahora buscamos ir en la otra dirección, y determinar la distribución de probabilidad completa con base en un conocimiento de ciertos promedios.

    Al principio, esto parece imposible. Supongamos que queremos reproducir la distribución de probabilidad completa para una caminata aleatoria de\(N\) -step a partir del conocimiento del promedio\(\langle X \rangle = (2p-1)N\), donde\(p\) está la probabilidad de moverse hacia la derecha en cada paso (ver § 1 anterior). El problema parece ridículamente subdeterminado, ya que existen\(2^N\) posibles configuraciones para una caminata aleatoria\(N\) -step:\(\sigma\ns_j=\pm 1\) for\(j=1,\ldots,N\). La normalización general requiere\[\sum_{\{\sigma\ns_j\}}P(\sigma\ns_1,\ldots,\sigma\ns_N)=1\ ,\] pero esto solo impone una restricción a\(2^N\) las probabilidades\(P(\sigma\ns_1,\ldots,\sigma\ns_N)\), dejando parámetros\(2^N-1\) generales. ¿Qué principio nos permite reconstruir la distribución de probabilidad completa\[P(\sigma\ns_1,\ldots,\sigma\ns_N)=\prod_{j=1}^N \big( p\,\delta\ns_{\sigma\ns_j,1} + q \, \delta\ns_{\sigma\ns_j,-1}\big) = \prod_{j=1}^N p^{(1+\sigma\ns_j)/2}\,q^{(1-\sigma\ns_j)/2}\ ,\] correspondiente a pasos\(N\) independientes?

    El principio de máxima entropía

    La entropía de una distribución discreta de probabilidad\(\{p\ns_n\}\) se define como\[S=-\sum_n p\ns_n\ln p\ns_n\ ,\] donde aquí tomamos\(e\) como base del logaritmo. Por lo tanto, la entropía puede considerarse como una función de la distribución de probabilidad:\(S=S\big(\{p\ns_n\}\big)\). Una propiedad especial de la entropía es la siguiente. Supongamos que tenemos dos distribuciones normalizadas independientes\(\big\{p^\SA_a\big\}\) y\(\big\{p^\SB_b\big\}\). La probabilidad conjunta para eventos\(a\) y\(b\) es entonces\(P\ns_{a,b}=p^\SA_a\,p^\SB_b\). La entropía de la distribución conjunta es entonces\[\begin{aligned} S&=-\sum_a\sum_b P\ns_{a,b}\ln P\ns_{a,b} = -\sum_a\sum_b p^\SA_a\, p^\SB_b \ln \big(p^\SA_a\,p^\SB_b\big) = -\sum_a\sum_b p^\SA_a\, p^\SB_b \big(\ln p^\SA_a + \ln p^\SB_b\big) \nonumber \\ &= -\sum_a p^\SA_a \ln p^\SA_a \cdot \sum_b p^\SB_b -\sum_b p^\SB_b \ln p^\SB_b \cdot \sum_a p^\SA_a =-\sum_a p^\SA_a \ln p^\SA_a - \sum_b p^\SB_b \ln p^\SB_b \nonumber \\ &= S^\SA+S^\SB\ .\nonumber\end{aligned}\] Así, la entropía de una distribución conjunta formada a partir de dos distribuciones independientes es aditiva.

    Supongamos que todo lo que sabíamos\(\{p\ns_n\}\) era que estaba normalizado. Entonces\(\sum_n p\ns_n=1\). Esto es una restricción en los valores\(\{p\ns_n\}\). Ahora vamos a extremizar la entropía\(S\) con respecto a la distribución\(\{p\ns_n\}\), pero sujetos a la restricción de normalización. Esto lo hacemos usando el método de Lagrange de multiplicadores indeterminados. Definimos\[S^*\big(\{p\ns_n\},\lambda\big)=-\sum_n p\ns_n \ln p\ns_n - \lambda\Big(\sum_n p\ns_n -1 \Big)\] y extremizamos libremente\(S^*\) sobre todos sus argumentos. Así, para todos\(n\) tenemos\[\begin{split} 0&={\pz S^*\over\pz p\ns_n}=-\big(\ln p\ns_n + 1 + \lambda\big)\\ 0&={\pz S^*\over\pz\lambda}=\sum_n p\ns_n-1 \ . \end{split}\] A partir de la primera de estas ecuaciones, obtenemos\(p\ns_n=e^{-(1+\lambda)}\), y a partir de la segunda obtenemos\[\sum_n p\ns_n=e^{-(1+\lambda)}\cdot\sum_n 1 = \Gamma\, e^{-(1+\lambda)}\ ,\] donde\(\Gamma\equiv \sum_n 1\) está el número total de eventos posibles. Así,\(p\ns_n=1/\Gamma\), que dice que todos los eventos son igualmente probables.

    Ahora supongamos que conocemos otra pieza de información, que es el valor promedio\(X=\sum_n X\ns_n\,p\ns_n\) de alguna cantidad. Ahora extremizamos\(S\) sujeto a dos restricciones, y así\[S^*\big(\{p\ns_n\},\lambda\ns_0,\lambda\ns_1\big)=-\sum_n p\ns_n \ln p\ns_n - \lambda\ns_0\Big(\sum_n p\ns_n -1 \Big) -\lambda\ns_1\Big(\sum_n X\ns_n \,p\ns_n - X\Big)\ .\] definimos Tenemos entonces\[{\pz S^*\over\pz p\ns_n}=-\big(\ln p\ns_n + 1 + \lambda\ns_0 + \lambda\ns_1\,X\ns_n\big) = 0\ ,\] que arroja la distribución de dos parámetros\[p\ns_n=e^{-(1+\lambda\ns_0)}\,e^{-\lambda\ns_1 X\ns_n}\ .\] Para determinar completamente la distribución\(\{p\ns_n\}\) necesitamos invocar las dos ecuaciones\(\sum_n p\ns_n=1\) y\(\sum_n X\ns_n\,p\ns_n=X\), que provienen de extremizar \(S^*\)con respecto a\(\lambda\ns_0\) y\(\lambda\ns_1\), respectivamente:\[\begin{split} 1&=e^{-(1+\lambda\ns_0)}\sum_n e^{-\lambda\ns_1 X\ns_n} \\ X&=e^{-(1+\lambda\ns_0)}\sum_n X\ns_n\, e^{-\lambda\ns_1 X\ns_n} \ . \end{split}\]

    Formulación general

    La generalización a piezas\(K\) adicionales de información (más normalización) es inmediatamente evidente. Tenemos\[X^a=\sum_n X^a_n\,p\ns_n\ , \label{Kpoc}\] y por lo tanto definimos\[S^*\big(\{p\ns_n\},\{\lambda\ns_a\}\big)=-\sum_n p\ns_n \ln p\ns_n - \sum_{a=0}^K \lambda\ns_a \Big(\sum_n X^a_n\,p\ns_n - X^a\Big) \ ,\] con\(X^{(a=0)}_n\equiv X^{(a=0)}=1\). Entonces la distribución óptima que extremiza\(S\) sujeta a las\(K+1\) restricciones es\[\begin{split} p\ns_n&=\exp\Bigg\{\!-1-\sum_{a=0}^K \lambda\ns_a\,X^a_n \Bigg\}\\ &={1\over Z}\exp\Bigg\{\!-\sum_{a=1}^K \lambda\ns_a\,X^a_n \Bigg\}\ , \end{split}\] donde\(Z=e^{1+\lambda\ns_0}\) está determinada por la normalización:\(\sum_n p\ns_n=1\). Esta es una distribución\((K+1)\) -parámetro, con\(\{\lambda\ns_0,\lambda\ns_1,\ldots,\lambda\ns_K\}\) determinada por las\(K+1\) restricciones en la Ecuación [Kpoc].

    Ejemplo

    Como ejemplo, considere el problema de la caminata aleatoria. Tenemos dos piezas de información:\[\begin{split} \sum_{\sigma\ns_1}\cdots\sum_{\sigma\ns_N} P(\sigma\ns_1,\ldots,\sigma\ns_N) &= 1 \\ \sum_{\sigma\ns_1}\cdots\sum_{\sigma\ns_N} P(\sigma\ns_1,\ldots,\sigma\ns_N) \sum_{j=1}^N \sigma\ns_j &= X\ . \end{split}\] Aquí la etiqueta discreta\(n\) de § 3.2 oscila sobre\(2^N\) posibles valores, y puede escribirse como un número binario\(N\) dígito\(r\ns_N\cdots r\ns_1\), donde\(r\ns_j=\half(1+\sigma\ns_j)\) es\(0\) o\(1\). Extremizando\(S\) sujeto a estas limitaciones, obtenemos\[P(\sigma\ns_1,\ldots,\sigma\ns_N) = \CC\,\exp\Bigg\{\!-\lambda\sum_j \sigma\ns_j\Bigg\}= \CC\prod_{j=1}^N e^{-\lambda\,\sigma\ns_j}\ ,\] dónde\(\CC\equiv e^{-(1+\lambda\ns_0)}\) y\(\lambda\equiv\lambda\ns_1\). Entonces, la normalización requiere de\[\Tra P \equiv \sum_{\{\sigma\ns_j\}}P(\sigma\ns_1,\ldots,\sigma\ns_N) = \CC\,\big(e^\lambda+ e^{-\lambda}\big)^N\ ,\] ahí\(\CC=(\cosh\lambda)^{-N}\). Tenemos entonces\[P(\sigma\ns_1,\ldots,\sigma\ns_N) = \prod_{j=1}^N {e^{-\lambda\sigma\ns_j}\over e^{\lambda} + e^{-\lambda}} =\prod_{j=1}^N \big( p\,\delta\ns_{\sigma\ns_j,1} + q \, \delta\ns_{\sigma\ns_j,-1}\big) \ ,\] donde\[p={e^{-\lambda}\over e^{\lambda} + e^{-\lambda}} \quad,\quad q=1-p={e^\lambda\over e^{\lambda} + e^{-\lambda}} \ .\] tenemos entonces\(X=(2p-1)N\), lo que determina\(p=\half(N+X)\), y hemos recuperado la distribución de Bernoulli.

    Por supuesto que no hay milagros 7, y hay una familia infinita de distribuciones para las\(X=(2p-1)N\) que no son Bernoulli. Por ejemplo, podríamos haber impuesto otra restricción, como\(E=\sum_{j=1}^{N-1}\sigma\ns_j\,\sigma\ns_{j+1}\). Esto resultaría en la distribución\[P(\sigma\ns_1,\ldots,\sigma\ns_N)={1\over Z}\exp\Bigg\{\!-\lambda\ns_1\sum_{j=1}^N\sigma\ns_j -\lambda\ns_2\!\sum_{j=1}^{N-1} \sigma\ns_j\,\sigma\ns_{j+1}\Bigg\}\ ,\] con\(Z(\lambda\ns_1,\lambda\ns_2)\) determinada por normalización:\(\sum_\Bsigma P(\Bsigma)=1\). Esta es la cadena unidimensional de Ising de la física estadística de equilibrio clásica. Definiendo la matriz de transferencia\(R\ns_{ss'}= e^{-\lambda\ns_1(s+s')/2}\,e^{-\lambda\ns_2 ss'}\) con\(s,s'=\pm 1\),\[\begin{split} R&=\begin{pmatrix} e^{-\lambda\ns_1-\lambda\ns_2} & e^{\lambda\ns_2} \\ e^{\lambda\ns_2} & e^{\lambda\ns_1-\lambda\ns_2}\end{pmatrix}\\ &=e^{-\lambda\ns_2}\cosh\lambda\ns_1 \,\MI + e^{\lambda\ns_2}\,\tau^x - e^{-\lambda\ns_2}\sinh\lambda\ns_1\,\tau^z\ , \end{split}\] donde\(\tau^x\) y\(\tau^z\) son matrices Pauli, tenemos que\[Z\ns_{ring}=\Tra\!\big(R^N\big) \quad,\quad Z\ns_{chain}=\Tra\!\big(R^{N-1}S\big)\ ,\] donde\(S\ns_{ss'}=e^{-\lambda\ns_1(s+s')/2}\),\[\begin{split} S&=\begin{pmatrix} e^{-\lambda\ns_1} & 1 \\ 1 & e^{\lambda\ns_1}\end{pmatrix}\\ &=\cosh\lambda\ns_1 \, \MI + \tau^x - \sinh\lambda\ns_1\,\tau^z\ . \end{split}\] El caso apropiado aquí es el de la cadena, pero en el límite termodinámico\(N\to\infty\) tanto cadena como anillo rendimiento resultados idénticos, por lo que examinaremos aquí los resultados para el anillo, que son algo más fáciles de obtener. Claramente\(Z\ns_{ring}=\zeta_+^N +\zeta_-^N\), ¿dónde\(\zeta\ns_\pm\) están los valores propios de\(R\):\[\zeta\ns_\pm=e^{-\lambda\ns_2}\cosh\lambda\ns_1\pm\sqrt{e^{-2\lambda\ns_2}\sinh^2\!\lambda\ns_1 + e^{2\lambda\ns_2}}\quad .\] En el límite termodinámico, domina el\(\zeta\ns_+\) valor propio, y\(Z\ns_{ring}\simeq \zeta_+^N\). Ahora\[X=\Big\langle\sum_{j=1}^N\sigma\ns_j\Big\rangle = -{\pz\ln Z\over\pz\lambda\ns_1} = -{N\sinh\lambda\ns_1\over \sqrt{\sinh^2\!\lambda\ns_1 + e^{4\lambda\ns_2}}}\ .\] tenemos También tenemos\(E=-\pz\ln Z/\pz\lambda\ns_2\). Estas dos ecuaciones determinan los multiplicadores Lagrange\(\lambda\ns_1(X,E,N)\) y\(\lambda_2(X,E,N)\). En el límite termodinámico, tenemos\(\lambda\ns_i=\lambda\ns_i(X/N,E/N)\). Así, si arreglamos\(X/N=2p-1\) solos, existe una familia continua de distribuciones de un parámetro, parametrizadas\(\ve=E/N\), que satisfacen la restricción de\(X\).

    Entonces, ¿qué tiene el enfoque de máxima entropía que es tan convincente? La máxima entropía nos da una distribución calculable que es consistente con la máxima ignorancia dadas nuestras limitaciones conocidas. En ese sentido, es lo más imparcial posible, desde un punto de vista teórico de la información. Como punto de partida, se puede mejorar una distribución máxima de entropía, usando métodos bayesianos, por ejemplo (ver § 5.2 a continuación).

    Distribuciones continuas de probabilidad

    Supongamos que tenemos una densidad de probabilidad continua\(P(\Bvphi)\) definida sobre algún conjunto\(\ROmega\). Tenemos observables\[X^a=\int\limits_\ROmega\!\!d\mu\>X^a(\Bvphi)\,P(\Bvphi)\ , \label{constcont}\] donde\(d\mu\) está la medida de integración adecuada. Asumimos\(d\mu=\prod_{j=1}^D d\vphi\ns_j\), dónde\(D\) está la dimensión de\(\ROmega\). Entonces extremizamos lo funcional\[S^*\big[P(\Bvphi),\{\lambda\ns_a\}\big]=-\int\limits_\ROmega\!\!d\mu\> P(\Bvphi)\ln P(\Bvphi) - \sum_{a=0}^K\lambda\ns_a \Bigg( \int\limits_\ROmega\!\!d\mu\> P(\Bvphi)\,X^a(\Bvphi) - X^a \Bigg)\] con respecto\(P(\Bvphi)\) y con respecto a\(\{\lambda\ns_a\}\). Nuevamente,\(X^0(\Bvphi)\equiv X^0 \equiv 1\). Esto produce el siguiente resultado:\[\ln P(\Bvphi)=-1-\sum_{a=0}^K \lambda\ns_a\, X^a(\Bvphi)\ .\] Los multiplicadores\(K+1\) Lagrange\(\{\lambda\ns_a\}\) se determinan a partir de las ecuaciones de\(K+1\) restricción en la Ecuación [constcont].

    Como ejemplo, considere una distribución\(P(x)\) sobre los números reales\(\MR\). Constreñimos\[\int\limits_{-\infty}^\infty\!\!dx\>P(x)=1 \quad,\quad \int\limits_{-\infty}^\infty\!\!dx\>x\,P(x)=\mu \quad,\quad \int\limits_{-\infty}^\infty\!\!dx\>x^2\,P(x)=\mu^2+\sigma^2\ .\] Extremizando la entropía, luego obtenemos\[P(x)=\CC\,e^{-\lambda\ns_1 x - \lambda\ns_2 x^2}\ ,\] dónde\(\CC=e^{-(1+\lambda\ns_0)}\). Ya sabemos la respuesta:\[P(x)={1\over\sqrt{2\pi\sigma^2}}\,e^{-(x-\mu)^2/2\sigma^2}\ .\] En otras palabras,\(\lambda\ns_1=-\mu/\sigma^2\) y\(\lambda\ns_2=1/2\sigma^2\), con\(\CC=(2\pi\sigma^2)^{-1/2}\,\exp(-\mu^2/2\sigma^2)\).


    This page titled 1.3: Entropía y Probabilidad is shared under a CC BY-NC-SA license and was authored, remixed, and/or curated by Daniel Arovas.