Loading [MathJax]/jax/output/HTML-CSS/jax.js
Saltar al contenido principal
Library homepage
 

Text Color

Text Size

 

Margin Size

 

Font Type

Enable Dyslexic Font
LibreTexts Español

1.3: Entropía y Probabilidad

( \newcommand{\kernel}{\mathrm{null}\,}\)

Template:MathJaxArovas

Entropía y Teoría de la Información

Se demostró en la obra clásica de Claude Shannon de 1948 que la entropía es de hecho una medida de información 5. Supongamos que observamos que un evento particular ocurre con probabilidadp. Asociamos a esta observación una cantidad de informaciónI(p). La informaciónI(p) debe satisfacer ciertos desiderata:

  • La información no es negativa,I(p)0.
  • Si dos eventos ocurren independientemente por lo que su probabilidad conjunta esp\ns1p\ns2, entonces su información es aditiva,I(p\ns1p\ns2)=I(p\ns1)+I(p\ns2).
  • I(p)es una función continua dep.
  • No hay contenido de información a un evento que siempre se observa,I(1)=0.

A partir de estas cuatro propiedades, es fácil demostrar que la única función posibleI(p) esI(p)=Alnp , donde seA encuentra una constante arbitraria que puede ser absorbida en la base del logaritmo, ya quelog\nsbx=lnx/lnb. TomaremosA=1 y usaremose como base, entoncesI(p)=lnp. Otra opción común es tomar la base del logaritmo para ser2, asíI(p)=log\ns2p. En este último caso, las unidades de información se conocen como bits. Tenga en cuenta queI(0)=. Esto significa que la observación de un evento extremadamente raro conlleva una gran cantidad de información 6

Ahora supongamos que tenemos un conjunto de eventos etiquetados por un enteron que ocurren con probabilidades{p\nsn}. ¿Cuál es la cantidad esperada de información enN las observaciones? Dado que el eventon ocurre un promedio deNp\nsn veces, y el contenido de información enp\nsn eslnp\nsn, tenemos que la información promedio por observación es laS=I\nsNN=np\nsnlnp\nsn , que se conoce como la entropía de la distribución. Así, maximizarS equivale a maximizar el contenido de información por observación.

Consideremos, por ejemplo, el contenido de información de las calificaciones del curso. Como veremos, si la única restricción en la distribución de probabilidad es la de normalización general, entoncesS se maximiza cuando todas las probabilidadesp\nsn son iguales. La entropía binaria es entoncesS=log\ns2Γ, ya quep\nsn=1/Γ. Por lo tanto, para la calificación aprobado/no aprobado, la información promedio máxima por calificación eslog\ns2(12)=log\ns22=1 bit. Si solo se asignan calificaciones A, B, C, D y F, entonces la información promedio máxima por grado eslog\ns25=2.32 bits. Si ampliamos las opciones de calificación para incluir {A+, A, A-, B+, B, B-, C+, C, C-, D, F}, entonces la información promedio máxima por grado eslog\ns211=3.46 bits.

Equivalentemente, consideremos, siguiendo la discusión en el vol. 1 de Kardar, una secuencia aleatoria{n\ns1,n\ns2,,n\nsN} donde cada elementon\nsj toma uno de los valoresK posibles. Entonces existenKN tales secuencias posibles, y para especificar una de ellas se requierenlog\ns2(KN)=Nlog\ns2K bits de información. Sin embargo, si el valorn ocurre con probabilidadp\nsn, entonces en promedio ocurriráN\nsn=Np\nsn veces en una secuencia de longitudN, y el número total de tales secuencias serág(N)=N!Kn=1N\nsn! . En general, esto es mucho menor que el número total posibleKN, y el número de bits necesario precisar una de entre estasg(N) posibilidades eslog\ns2g(N)=log\ns2(N!)Kn=1log\ns2(N\nsn!)NKn=1p\nsnlog\ns2p\nsn , hasta términos de orden unidad. Aquí hemos invocado la aproximación de Stirling. Si la distribución es uniforme, entonces tenemosp\nsn=1K para todosn{1,,K}, ylog\ns2g(N)=Nlog\ns2K.

Distribuciones de probabilidad a partir de la entropía máxima

Hemos demostrado cómo se puede proceder a partir de una distribución de probabilidad y calcular varios promedios. Ahora buscamos ir en la otra dirección, y determinar la distribución de probabilidad completa con base en un conocimiento de ciertos promedios.

Al principio, esto parece imposible. Supongamos que queremos reproducir la distribución de probabilidad completa para una caminata aleatoria deN -step a partir del conocimiento del promedioX=(2p1)N, dondep está la probabilidad de moverse hacia la derecha en cada paso (ver § 1 anterior). El problema parece ridículamente subdeterminado, ya que existen2N posibles configuraciones para una caminata aleatoriaN -step:σ\nsj=±1 forj=1,,N. La normalización general requiere{σ\nsj}P(σ\ns1,,σ\nsN)=1 , pero esto solo impone una restricción a2N las probabilidadesP(σ\ns1,,σ\nsN), dejando parámetros2N1 generales. ¿Qué principio nos permite reconstruir la distribución de probabilidad completaP(σ\ns1,,σ\nsN)=Nj=1(pδ\nsσ\nsj,1+qδ\nsσ\nsj,1)=Nj=1p(1+σ\nsj)/2q(1σ\nsj)/2 , correspondiente a pasosN independientes?

El principio de máxima entropía

La entropía de una distribución discreta de probabilidad{p\nsn} se define comoS=np\nsnlnp\nsn , donde aquí tomamose como base del logaritmo. Por lo tanto, la entropía puede considerarse como una función de la distribución de probabilidad:S=S({p\nsn}). Una propiedad especial de la entropía es la siguiente. Supongamos que tenemos dos distribuciones normalizadas independientes{p\SAa} y{p\SBb}. La probabilidad conjunta para eventosa yb es entoncesP\nsa,b=p\SAap\SBb. La entropía de la distribución conjunta es entoncesS=abP\nsa,blnP\nsa,b=abp\SAap\SBbln(p\SAap\SBb)=abp\SAap\SBb(lnp\SAa+lnp\SBb)=ap\SAalnp\SAabp\SBbbp\SBblnp\SBbap\SAa=ap\SAalnp\SAabp\SBblnp\SBb=S\SA+S\SB . Así, la entropía de una distribución conjunta formada a partir de dos distribuciones independientes es aditiva.

Supongamos que todo lo que sabíamos{p\nsn} era que estaba normalizado. Entoncesnp\nsn=1. Esto es una restricción en los valores{p\nsn}. Ahora vamos a extremizar la entropíaS con respecto a la distribución{p\nsn}, pero sujetos a la restricción de normalización. Esto lo hacemos usando el método de Lagrange de multiplicadores indeterminados. DefinimosS({p\nsn},λ)=np\nsnlnp\nsnλ(np\nsn1) y extremizamos librementeS sobre todos sus argumentos. Así, para todosn tenemos0=\pzS\pzp\nsn=(lnp\nsn+1+λ)0=\pzS\pzλ=np\nsn1 . A partir de la primera de estas ecuaciones, obtenemosp\nsn=e(1+λ), y a partir de la segunda obtenemosnp\nsn=e(1+λ)n1=Γe(1+λ) , dondeΓn1 está el número total de eventos posibles. Así,p\nsn=1/Γ, que dice que todos los eventos son igualmente probables.

Ahora supongamos que conocemos otra pieza de información, que es el valor promedioX=nX\nsnp\nsn de alguna cantidad. Ahora extremizamosS sujeto a dos restricciones, y asíS({p\nsn},λ\ns0,λ\ns1)=np\nsnlnp\nsnλ\ns0(np\nsn1)λ\ns1(nX\nsnp\nsnX) . definimos Tenemos entonces\pzS\pzp\nsn=(lnp\nsn+1+λ\ns0+λ\ns1X\nsn)=0 , que arroja la distribución de dos parámetrosp\nsn=e(1+λ\ns0)eλ\ns1X\nsn . Para determinar completamente la distribución{p\nsn} necesitamos invocar las dos ecuacionesnp\nsn=1 ynX\nsnp\nsn=X, que provienen de extremizar Scon respecto aλ\ns0 yλ\ns1, respectivamente:1=e(1+λ\ns0)neλ\ns1X\nsnX=e(1+λ\ns0)nX\nsneλ\ns1X\nsn .

Formulación general

La generalización a piezasK adicionales de información (más normalización) es inmediatamente evidente. TenemosXa=nXanp\nsn , y por lo tanto definimosS({p\nsn},{λ\nsa})=np\nsnlnp\nsnKa=0λ\nsa(nXanp\nsnXa) , conX(a=0)nX(a=0)=1. Entonces la distribución óptima que extremizaS sujeta a lasK+1 restricciones esp\nsn=exp{1Ka=0λ\nsaXan}=1Zexp{Ka=1λ\nsaXan} , dondeZ=e1+λ\ns0 está determinada por la normalización:np\nsn=1. Esta es una distribución(K+1) -parámetro, con{λ\ns0,λ\ns1,,λ\nsK} determinada por lasK+1 restricciones en la Ecuación [Kpoc].

Ejemplo

Como ejemplo, considere el problema de la caminata aleatoria. Tenemos dos piezas de información:σ\ns1σ\nsNP(σ\ns1,,σ\nsN)=1σ\ns1σ\nsNP(σ\ns1,,σ\nsN)Nj=1σ\nsj=X . Aquí la etiqueta discretan de § 3.2 oscila sobre2N posibles valores, y puede escribirse como un número binarioN dígitor\nsNr\ns1, donder\nsj=\half(1+σ\nsj) es0 o1. ExtremizandoS sujeto a estas limitaciones, obtenemosP(σ\ns1,,σ\nsN)=\CCexp{λjσ\nsj}=\CCNj=1eλσ\nsj , dónde\CCe(1+λ\ns0) yλλ\ns1. Entonces, la normalización requiere de\TraP{σ\nsj}P(σ\ns1,,σ\nsN)=\CC(eλ+eλ)N , ahí\CC=(coshλ)N. Tenemos entoncesP(σ\ns1,,σ\nsN)=Nj=1eλσ\nsjeλ+eλ=Nj=1(pδ\nsσ\nsj,1+qδ\nsσ\nsj,1) , dondep=eλeλ+eλ,q=1p=eλeλ+eλ . tenemos entoncesX=(2p1)N, lo que determinap=\half(N+X), y hemos recuperado la distribución de Bernoulli.

Por supuesto que no hay milagros 7, y hay una familia infinita de distribuciones para lasX=(2p1)N que no son Bernoulli. Por ejemplo, podríamos haber impuesto otra restricción, comoE=N1j=1σ\nsjσ\nsj+1. Esto resultaría en la distribuciónP(σ\ns1,,σ\nsN)=1Zexp{λ\ns1Nj=1σ\nsjλ\ns2N1j=1σ\nsjσ\nsj+1} , conZ(λ\ns1,λ\ns2) determinada por normalización:\BsigmaP(\Bsigma)=1. Esta es la cadena unidimensional de Ising de la física estadística de equilibrio clásica. Definiendo la matriz de transferenciaR\nsss=eλ\ns1(s+s)/2eλ\ns2ss cons,s=±1,R=(eλ\ns1λ\ns2eλ\ns2eλ\ns2eλ\ns1λ\ns2)=eλ\ns2coshλ\ns1\MI+eλ\ns2τxeλ\ns2sinhλ\ns1τz , dondeτx yτz son matrices Pauli, tenemos queZ\nsring=\Tra(RN),Z\nschain=\Tra(RN1S) , dondeS\nsss=eλ\ns1(s+s)/2,S=(eλ\ns111eλ\ns1)=coshλ\ns1\MI+τxsinhλ\ns1τz . El caso apropiado aquí es el de la cadena, pero en el límite termodinámicoN tanto cadena como anillo rendimiento resultados idénticos, por lo que examinaremos aquí los resultados para el anillo, que son algo más fáciles de obtener. ClaramenteZ\nsring=ζN++ζN, ¿dóndeζ\ns± están los valores propios deR:ζ\ns±=eλ\ns2coshλ\ns1±e2λ\ns2sinh2λ\ns1+e2λ\ns2. En el límite termodinámico, domina elζ\ns+ valor propio, yZ\nsringζN+. AhoraX=Nj=1σ\nsj=\pzlnZ\pzλ\ns1=Nsinhλ\ns1sinh2λ\ns1+e4λ\ns2 . tenemos También tenemosE=\pzlnZ/\pzλ\ns2. Estas dos ecuaciones determinan los multiplicadores Lagrangeλ\ns1(X,E,N) yλ2(X,E,N). En el límite termodinámico, tenemosλ\nsi=λ\nsi(X/N,E/N). Así, si arreglamosX/N=2p1 solos, existe una familia continua de distribuciones de un parámetro, parametrizadas\ve=E/N, que satisfacen la restricción deX.

Entonces, ¿qué tiene el enfoque de máxima entropía que es tan convincente? La máxima entropía nos da una distribución calculable que es consistente con la máxima ignorancia dadas nuestras limitaciones conocidas. En ese sentido, es lo más imparcial posible, desde un punto de vista teórico de la información. Como punto de partida, se puede mejorar una distribución máxima de entropía, usando métodos bayesianos, por ejemplo (ver § 5.2 a continuación).

Distribuciones continuas de probabilidad

Supongamos que tenemos una densidad de probabilidad continuaP(\Bvphi) definida sobre algún conjunto\ROmega. Tenemos observablesXa=\ROmegadμXa(\Bvphi)P(\Bvphi) , dondedμ está la medida de integración adecuada. Asumimosdμ=Dj=1d\vphi\nsj, dóndeD está la dimensión de\ROmega. Entonces extremizamos lo funcionalS[P(\Bvphi),{λ\nsa}]=\ROmegadμP(\Bvphi)lnP(\Bvphi)Ka=0λ\nsa(\ROmegadμP(\Bvphi)Xa(\Bvphi)Xa) con respectoP(\Bvphi) y con respecto a{λ\nsa}. Nuevamente,X0(\Bvphi)X01. Esto produce el siguiente resultado:lnP(\Bvphi)=1Ka=0λ\nsaXa(\Bvphi) . Los multiplicadoresK+1 Lagrange{λ\nsa} se determinan a partir de las ecuaciones deK+1 restricción en la Ecuación [constcont].

Como ejemplo, considere una distribuciónP(x) sobre los números reales\MR. ConstreñimosdxP(x)=1,dxxP(x)=μ,dxx2P(x)=μ2+σ2 . Extremizando la entropía, luego obtenemosP(x)=\CCeλ\ns1xλ\ns2x2 , dónde\CC=e(1+λ\ns0). Ya sabemos la respuesta:P(x)=12πσ2e(xμ)2/2σ2 . En otras palabras,λ\ns1=μ/σ2 yλ\ns2=1/2σ2, con\CC=(2πσ2)1/2exp(μ2/2σ2).


This page titled 1.3: Entropía y Probabilidad is shared under a CC BY-NC-SA license and was authored, remixed, and/or curated by Daniel Arovas.

Support Center

How can we help?