7.3: Información, Pérdida y Ruido
- Page ID
- 82276
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Para el proceso general discreto sin memoria, se pueden definir medidas útiles de la cantidad de información presentada en la entrada y la cantidad transmitida a la salida. Suponemos que el estado del proceso está representado por eventos aleatorios Ai con distribución de probabilidad\(p(A_i)\). La información en la entrada\(I\) es la misma que la entropía de esta fuente. (Hemos optado por usar la letra\(I\) para la información de entrada no porque signifique “input” o “information” sino más bien por el índice\(i\) que repasa la distribución de probabilidad de entrada. La información de salida se denotará\(J\) por una razón similar.)
\(I = \displaystyle \sum_{i} p(A_i)\log_2\Big(\dfrac{1}{p(A_i)}\Big) \tag{7.12}\)
Esta es la cantidad de incertidumbre que tenemos sobre el insumo si no sabemos qué es, o antes de que haya sido seleccionado por la fuente.
Una fórmula similar se aplica en la salida. La información de salida también se\(J\) puede expresar en términos de la distribución de probabilidad de entrada y la matriz de transición de canal:
\(\begin{align*} J \;&= \;\displaystyle \sum_{j} p(B_j)\log_2\Big(\dfrac{1}{p(B_j)}\Big) \\ &= \;\displaystyle \sum_{j} \Big(\sum_{i} c_{ji}p(A_i) \Big) \log_2\Big(\dfrac{1}{\sum_{i} c_{ji}p(A_i)}\Big) \tag{7.13} \end{align*}\)
Tenga en cuenta que esta medida de información en la salida\(J\) se refiere a la identidad del estado de salida, no al estado de entrada. Representa nuestra incertidumbre sobre el estado de salida antes de que descubramos lo que es. Si nuestro objetivo es determinar el insumo, no\(J\) es lo que queremos. En cambio, deberíamos preguntarnos sobre la incertidumbre de nuestro conocimiento del estado insumo. Esto se puede expresar desde el punto de vista de la salida preguntando sobre la incertidumbre del estado de entrada dado un estado de salida particular, y luego promediando sobre esos estados. Esta incertidumbre, para cada uno\(j\), viene dada por una fórmula como las anteriores pero usando las probabilidades condicionales inversas\(p(A_i \;|\; B_j)\)
\(\displaystyle \sum_{i} p(A_i \;|\; B_j )\log_2\Big(\dfrac{1}{p(A_i \;|\; B_j )}\Big) \tag{7.14}\)
Luego, su incertidumbre promedio sobre la entrada después de aprender la salida se encuentra calculando el promedio sobre la distribución de probabilidad de salida, es decir, multiplicando por\(p(B_j)\) y sumando\(j\)
\(\begin{align*} L \;&= \; \displaystyle \sum_{j} p(B_j) \sum_{i} p(A_i \;|\; B_j )\log_2\Big(\dfrac{1}{p(A_i \;|\; B_j )}\Big) \\ &= \; \displaystyle \sum_{ij} p(A_i, B_j)\log_2\Big(\dfrac{1}{p(A_i \;|\; B_j )}\Big ) \tag{7.15} \end{align*}\)
Tenga en cuenta que la segunda fórmula utiliza la distribución de probabilidad conjunta\(p(A_i, B_j)\). Hemos denotado esta incertidumbre promedio por\(L\) y la llamaremos “pérdida”. Este término es apropiado porque es la cantidad de información sobre la entrada que no se puede determinar examinando el estado de salida; en este sentido se “perdió” en la transición de entrada a salida. En el caso especial de que el proceso permita identificar el estado de entrada de manera única para cada posible estado de salida, el proceso es “sin pérdidas” y, como cabría esperar,\(L\) = 0.
Se demostró en el Capítulo 6 que\(L \leq I\) o, en palabras, que la incertidumbre después de aprender la salida es menor que (o quizás igual a) la incertidumbre anterior. Este resultado se probó utilizando la desigualdad de Gibbs.
La cantidad de información que aprendemos sobre el estado de entrada al ser dicho el estado de salida es nuestra incertidumbre antes de ser contada, que es\(I\), menos nuestra incertidumbre después de ser dicho, que es\(L\). Acabamos de demostrar que esta cantidad no puede ser negativa, ya que\(L \leq I\). Como se hizo en el Capítulo 6, denotamos la cantidad que hemos aprendido como\(M = I − L\), y llamamos a esto la “información mutua” entre entrada y salida. Esta es una cantidad importante porque es la cantidad de información que obtiene a través del proceso.
Para recapitular las relaciones entre estas cantidades de información:
\(I = \displaystyle \sum_{i} p(A_i)\log_2\Big(\dfrac{1}{p(A_i)}\Big) \tag{7.16}\)
\(L \; = \; \displaystyle \sum_{j} p(B_j) \sum_{i} p(A_i \;|\; B_j )\log_2\Big(\dfrac{1}{p(A_i \;|\; B_j )}\Big) \tag{7.17}\)
\(0 \leq M \leq I \tag{7.19}\)
\(0 \leq L \leq I \tag{7.20}\)
Los procesos con salidas que pueden ser producidas por más de una entrada tienen pérdida. Estos procesos también pueden ser no deterministas, en el sentido de que un estado de entrada puede conducir a más de un estado de salida. El canal binario simétrico con pérdida es un ejemplo de un proceso que tiene pérdida y además es no determinista. Sin embargo, hay algunos procesos que tienen pérdida pero son deterministas. Un ejemplo es la puerta\(AND\) lógica, que tiene cuatro entradas mutuamente excluyentes 00 01 10 11 y dos salidas 0 y 1. Tres de las cuatro entradas conducen a la salida 0. Esta puerta tiene pérdida pero es perfectamente determinista porque cada estado de entrada conduce a exactamente un estado de salida. El hecho de que haya pérdida significa que la\(AND\) puerta no es reversible.
Hay una cantidad similar a la\(L\) que caracteriza a un proceso no determinista, tenga o no pérdida. La salida de un proceso no determinista contiene variaciones que no se pueden predecir a partir de conocer la entrada, que se comportan como ruido en los sistemas de audio. Definiremos el ruido\(N\) de un proceso como la incertidumbre en la salida, dado el estado de entrada, promediada sobre todos los estados de entrada. Es muy similar a la definición de pérdida, pero con los roles de entrada y salida invertidos. Así
\(\begin{align*} N \;&= \; \displaystyle \sum_{i} p(A_i) \sum_{j} p(B_j \;|\; A_i )\log_2\Big(\dfrac{1}{p(B_j \;|\; A_i )}\Big) \\ &= \; \displaystyle \sum_{i} p(A_i) \sum_{j} c_{ji} \log_2\Big(\dfrac{1}{c_{ji}}\Big) \tag{7.21} \end{align*} \)
Pasos similares a los anteriores para la pérdida muestran resultados análogos. Lo que puede no ser obvio, pero se puede probar fácilmente, es que la información mutua\(M\) juega exactamente el mismo tipo de papel para el ruido que para la pérdida. Las fórmulas que relacionan el ruido con otras medidas de información son como las de pérdida anteriores, donde la información mutua\(M\) es la misma:
\(J \;=\; \displaystyle \sum_{i} p(B_j)\log_2\Big(\dfrac{1}{p(B_j)}\Big) \tag{7.22} \)
\(N \;=\; \displaystyle \sum_{i} p(A_i) \sum_{j} c_{ji} \log_2\Big(\dfrac{1}{c_{ji}}\Big) \tag{7.23}\)
\(0 \leq M \leq J \tag{7.25}\)
\(0 \leq N \leq J \tag{7.26}\)
De estos resultados se deduce que
\(J − I = N − L \tag{7.27}\)