Search

Text Color

Margin Size

Font Type

Enable Dyslexic Font

5.6: Información

Última actualización

30 oct 2022
Guardar como PDF
- 5.5: Promedios
- 5.7: Detalle- Código Fuente Eficiente

Paul Penfield, Jr.
Massachusetts Institute of Technology via MIT OpenCourseWare

$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$

$\newcommand{\id}{\mathrm{id}}$ $\newcommand{\Span}{\mathrm{span}}$

( \newcommand{\kernel}{\mathrm{null}\,}\) $\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$ $\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$ $\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\id}{\mathrm{id}}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\kernel}{\mathrm{null}\,}$

$\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$

$\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$

$\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$ $\newcommand{\AA}{\unicode[.8,0]{x212B}}$

$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$

$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$

$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vectorC}[1]{\textbf{#1}}$

$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$

$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$

$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$

$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$

$\newcommand{\avec}{\mathbf a}$

$\newcommand{\bvec}{\mathbf b}$

$\newcommand{\cvec}{\mathbf c}$

$\newcommand{\dvec}{\mathbf d}$

$\newcommand{\dtil}{\widetilde{\mathbf d}}$

$\newcommand{\evec}{\mathbf e}$

$\newcommand{\fvec}{\mathbf f}$

$\newcommand{\nvec}{\mathbf n}$

$\newcommand{\pvec}{\mathbf p}$

$\newcommand{\qvec}{\mathbf q}$

$\newcommand{\svec}{\mathbf s}$

$\newcommand{\tvec}{\mathbf t}$

$\newcommand{\uvec}{\mathbf u}$

$\newcommand{\vvec}{\mathbf v}$

$\newcommand{\wvec}{\mathbf w}$

$\newcommand{\xvec}{\mathbf x}$

$\newcommand{\yvec}{\mathbf y}$

$\newcommand{\zvec}{\mathbf z}$

$\newcommand{\rvec}{\mathbf r}$

$\newcommand{\mvec}{\mathbf m}$

$\newcommand{\zerovec}{\mathbf 0}$

$\newcommand{\onevec}{\mathbf 1}$

$\newcommand{\real}{\mathbb R}$

$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$

$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$

$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$

$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$

$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$

$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$

$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$

$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$

$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$

$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$

$\newcommand{\bcal}{\cal B}$

$\newcommand{\ccal}{\cal C}$

$\newcommand{\scal}{\cal S}$

$\newcommand{\wcal}{\cal W}$

$\newcommand{\ecal}{\cal E}$

$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$

$\newcommand{\gray}[1]{\color{gray}{#1}}$

$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$

$\newcommand{\rank}{\operatorname{rank}}$

$\newcommand{\row}{\text{Row}}$

$\newcommand{\col}{\text{Col}}$

$\renewcommand{\row}{\text{Row}}$

$\newcommand{\nul}{\text{Nul}}$

$\newcommand{\var}{\text{Var}}$

$\newcommand{\corr}{\text{corr}}$

$\newcommand{\len}[1]{\left|#1\right|}$

$\newcommand{\bbar}{\overline{\bvec}}$

$\newcommand{\bhat}{\widehat{\bvec}}$

$\newcommand{\bperp}{\bvec^\perp}$

$\newcommand{\xhat}{\widehat{\xvec}}$

$\newcommand{\vhat}{\widehat{\vvec}}$

$\newcommand{\uhat}{\widehat{\uvec}}$

$\newcommand{\what}{\widehat{\wvec}}$

$\newcommand{\Sighat}{\widehat{\Sigma}}$

$\newcommand{\lt}{<}$

$\newcommand{\gt}{>}$

$\newcommand{\amp}{&}$

$\definecolor{fillinmathshade}{gray}{0.9}$

Queremos expresar cuantitativamente la información que tenemos o nos falta sobre la elección del símbolo. Después de conocer el resultado, no tenemos incertidumbre sobre el símbolo elegido o sobre sus diversas propiedades, y qué eventos podrían haber ocurrido como resultado de esta selección. No obstante, antes de que se haga la selección o al menos antes de que sepamos el resultado, tenemos cierta incertidumbre. ¿Cuánto?

Después de conocer el resultado, la información que ahora poseemos podría ser contada a otro especificando el símbolo elegido. Si hay dos símbolos posibles (como cabezas o colas de un volteo de moneda) entonces se podría usar un solo bit para ese propósito. Si hay cuatro eventos posibles (como el palo de una carta extraída de una baraja) el resultado se puede expresar en dos bits. De manera más general, si hay $n$ posibles resultados, entonces se necesitan $\log_2n$ bits.

La noción aquí es que la cantidad de información que aprendemos al escuchar el resultado es el número mínimo de bits que podrían haber sido utilizados para decirnos, es decir, para especificar el símbolo. Este enfoque tiene cierto mérito pero tiene dos defectos.

Primero, una especificación real de un símbolo por medio de una secuencia de bits requiere un número integral de bits. ¿Y si el número de símbolos no es una potencia integral de dos? Para una sola selección, puede que no haya mucho de lo que se pueda hacer, pero si la fuente realiza selecciones repetidas y estas son todas por especificar, se pueden agrupar para recuperar los bits fraccionarios. Por ejemplo, si hay cinco símbolos posibles, entonces se necesitarían tres bits para un solo símbolo, pero las 25 combinaciones posibles de dos símbolos podrían comunicarse con cinco bits (2.5 bits por símbolo), y las 125 combinaciones de tres símbolos podrían salir adelante con siete bits (2.33 bits por símbolo). Esto no es mucho mayor que $\log_2(5)$ lo que es de 2.32 bits.

Segundo, diferentes eventos pueden tener diferentes probabilidades de ser seleccionados. Hemos visto cómo modelar nuestro estado de conocimiento en términos de probabilidades. Si ya conocemos el resultado (uno $p(A_i)$ es igual a 1 y todos los demás iguales a 0), entonces no se obtiene más información porque antes no había incertidumbre. Nuestra definición de información debe abarcar ese caso.

Considera una clase de 32 alumnos, de los cuales dos son mujeres y 30 son hombres. Si se elige a un estudiante y nuestro objetivo es saber cuál, nuestra incertidumbre es inicialmente de cinco bits, ya que eso es lo que sería necesario para especificar el resultado. Si un estudiante es elegido al azar, la probabilidad de que cada uno sea elegido es 1/32. La elección del estudiante también conduce a un evento de género, ya sea “mujer elegida” con probabilidad $p(W)$ = 2/32 o “hombre elegido” con probabilidad $p(M)$ = 30/32.

¿Cuánta información obtenemos si nos dicen que la elección es una mujer pero no nos dicen cuál? Nuestra incertidumbre se reduce de cinco bits a un bit (la cantidad necesaria para especificar cuál de las dos mujeres era). Por lo tanto, la información que hemos obtenido es de cuatro bits. ¿Y si nos dicen que la elección es un hombre pero no cuál? Nuestra incertidumbre se reduce de cinco bits a $\log_2(30)$ o 4.91 bits. Así hemos aprendido 0.09 bits de información.

El punto aquí es que si tenemos una partición cuyos eventos tienen diferentes probabilidades, aprendemos diferentes cantidades de diferentes resultados. Si el resultado era probable aprendemos menos que si el resultado fuera poco probable. Ilustramos este principio en un caso en el que cada resultado dejó sin resolver la selección de un evento a partir de una partición subyacente fundamental, pero el principio se aplica aunque no nos importe la partición fundamental. La información aprendida del resultado $i$ es $\log_2(1/p(A_i))$ . Observe de esta fórmula que si $p(A_i)$ = 1 para algunos i, entonces la información aprendida de ese resultado es 0 ya que $\log_2(1)$ = 0. Esto es consistente con lo que esperaríamos.

Si queremos cuantificar nuestra incertidumbre antes de aprender un resultado, no podemos usar ninguna de la información obtenida por resultados específicos, porque no sabríamos cuál usar. En cambio, tenemos que promediar todos los resultados posibles, es decir, sobre todos los eventos en la partición con probabilidad distinta de cero. La información promedio por evento se encuentra multiplicando la información de cada evento $A_i$ por $p(A_i)$ y sumando sobre la partición:

$I = \displaystyle \sum_{i} p(A_i)\log_2\Big(\dfrac{1}{p(A_i)}\Big) \tag{5.14}$

Esta cantidad, que es de fundamental importancia para caracterizar la información de las fuentes, se denomina entropía de una fuente. La fórmula funciona si las probabilidades son todas iguales y funciona si no lo son; funciona después de que se conozca el resultado y se ajusten las probabilidades para que una de ellas sea 1 y todas las demás 0; funciona si los eventos que se reportan son de una partición fundamental o no.

En esta y otras fórmulas de información, se debe tener cuidado con eventos que tengan cero probabilidad. Estos casos pueden tratarse como si tuvieran una probabilidad muy pequeña pero distinta de cero. En este caso el logaritmo, aunque se acerca al infinito para un argumento que se acerca al infinito, lo hace muy lentamente. El producto de ese factor multiplicado por la probabilidad se aproxima a cero, por lo que dichos términos pueden establecerse directamente en cero aunque la fórmula pueda sugerir un resultado indeterminado, o un procedimiento de cálculo podría tener un error de “dividir por cero”.

Support Center

How can we help?