Saltar al contenido principal
LibreTexts Español

6.6: Canal ruidoso

  • Page ID
    82028
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

    Si el canal introduce ruido entonces la salida no es una función única de la entrada. Modelaremos este caso diciendo que por cada entrada posible (que son estados mutuamente excluyentes indexados por\(i\)) puede haber más de un posible resultado de salida. Lo que realmente sucede es una cuestión de azar, y modelaremos el canal por el conjunto de probabilidades de que cada uno de los eventos de salida\(B_j\) ocurra cuando ocurra cada uno de los posibles eventos\(A_i\) de entrada. Estas probabilidades de transición\(c_{ji}\) son, por supuesto, probabilidades, pero son propiedades del canal y no dependen de la distribución\(p(A_i)\) de probabilidad de la entrada. Como todas las probabilidades, tienen valores entre 0 y 1

    \(0 \leq c_{ji} \leq 1 \tag{6.15}\)

    y puede pensarse que forma una matriz con tantas columnas como eventos de entrada haya, y tantas filas como eventos de salida. Debido a que cada evento de entrada debe conducir a exactamente un evento de salida,

    \(1 = \displaystyle \sum_{j} c_{ji} \tag{6.16}\)

    para cada uno\(i\). (Es decir, la suma de\(c_{ji}\) en cada columna\(i\) es 1.) Si el canal es sin ruido, por cada valor de\(i\) exactamente uno de los diversos\(c_{ji}\) es igual a 1 y todos los demás son 0.

    Cuando el canal es conducido por una fuente con probabilidades\(p(A_i)\), las probabilidades condicionales de los eventos de salida, condicionadas a los eventos de entrada, son

    \(p(B_j \; | \; A_i) = c_{ji} \tag{6.17}\)

    La probabilidad incondicional de cada salida\(p(B_j)\) es

    \(p(B_j) = \displaystyle \sum_{i} c_{ji} p(A_i) \tag{6.18}\)

    Las probabilidades condicionales hacia atrás\ (p (a_I\; |\; b_j) se pueden encontrar usando el Teorema de Bayes:

    \[\begin{align*} p(A_i, \ B_j) \ &= \ p(B_j)p(A_i \; | \; B_j) \\ &= \ p(A_i)p(B_j \; | \; A_i) \\ &= \ p(A_i)c_{ji} \tag{6.19} \end{align*} \]

    El canal ruidoso más simple es el canal binario simétrico, para el cual hay una probabilidad (ojalá pequeña)\(\epsilon\) de un error, entonces

    Este canal binario se llama simétrico porque la probabilidad de un error para ambas entradas es la misma. Si\(\epsilon\) = 0 entonces este canal es silenciosa (también es silenciosa si\(\epsilon\) = 1, en cuyo caso se comporta como un inversor). La Figura 6.3 puede ser más útil para el canal ruidoso si se muestran las posibles transiciones de entrada a salida, como en la Figura 6.5.

    Si\(B_j\) se observa que la salida está en uno de sus estados (mutuamente excluyentes), ¿se puede determinar la entrada\(A_i\) que la causó? En ausencia de ruido, sí; no hay incertidumbre sobre la entrada una vez que se conoce la salida. Sin embargo, con el ruido hay cierta incertidumbre residual. Calcularemos esta incertidumbre en términos de las probabilidades de transición\(c_{ji}\) y definiremos la información que hemos aprendido sobre la entrada como resultado de conocer la salida como la información mutua. A partir de eso definiremos la capacidad del canal\(C\).

    Figura 6.5: Canal binario simétrico

    Antes de conocer la salida, ¿cuál es nuestra incertidumbre\(U_{\text{before}}\) sobre la identidad del evento input? Esta es la entropía de la entrada:

    \(U_{\text{before}} = \displaystyle \sum_{i} p(A_i)\log_2\Big(\dfrac{1}{p(A_i)}\Big) \tag{6.21}\)

    Después de que se\(B_j\) haya observado algún evento de salida particular, ¿cuál es la incertidumbre residual\(U_{\text{after}}(B_j)\) sobre el evento de entrada? Se aplica una fórmula similar, con\(p(A_i)\) reemplazado por la probabilidad condicional hacia atrás\(p(A_i \;|\; B_j )\):

    \(U_{\text{after}}(B_j) = \displaystyle \sum_{i} p(A_i \;|\; B_j)\log_2\Big(\dfrac{1}{p(A_i \;|\; B_j)}\Big) \tag{6.22}\)

    La cantidad que aprendimos en el caso de este evento de salida en particular es la diferencia entre\(U_{\text{before}}\) y\(U_{\text{after}}(B_j )\). La información mutua\(M\) se define como el promedio, sobre todos los productos, de la cantidad así aprendida,

    No es difícil demostrar que\(M\) ≥ 0, es decir, que nuestro conocimiento sobre la entrada no se hace, en promedio, más incierto al aprender el evento output. Para demostrarlo, se utiliza la desigualdad Gibbs, para cada uno\(j\):

    \[\begin{align*} U_{\text{after}}(B_j) \ &= \ \displaystyle \sum_{i} p(A_i \;|\; B_j)\log_2\Big(\dfrac{1}{p(A_i \;|\; B_j)}\Big) \\ &\leq \ \displaystyle \sum_{i} p(A_i \;|\; B_j)\log_2\Big(\dfrac{1}{p(A_i)}\Big) \tag{6.24} \end{align*} \]

    Este uso de la desigualdad Gibbs es válido porque, para cada uno\(j\),\(p(A_i \;|\; B_j )\) es una distribución de probabilidad sobre\(i\), y\(p(A_i)\) es otra distribución de probabilidad sobre\(i\), diferente a la que hace el promedio. Esta desigualdad se mantiene para cada valor de\(j\) y por lo tanto para el promedio sobre todos\(j\):

    \ [\ begin {align*}
    \ sum_ {j} p (B_ {j}) U_ {\ text {después}} (B_ {j})\ &\ leq\\ suma_ {j} p (B_ {j})\ sum_ {i} p (A_ {i}\; |\; B_ {j})\ log _ {2}\ izquierda (\ frac {1} {p\ izquierda (A_ {i}\ derecha)}\ derecha)\\
    &=\\ sum_ {j i} p (B_ {j}) p (A_ {i}\; |\; B_ {j})\ log _ {2}\ Grande (\ frac {1} {p (A_ {i})}\ Grande)\\
    &=\\ suma_ {i j} p (B_ {j}\; |\; A_ {i}) p (A_ {i})\ log _ {2}\ izquierda (\ frac {1} {p\ izquierda (A_ {i}\ derecha)}\ derecha)\\
    &=\ sum_ {i} p\ izquierda (A_ {i}\ derecha)\ log {2}\ izquierda (\ frac {1} {p\ izquierda (A_ {i}\ derecha)}\ derecha)\\
    &=\ U_ {\ texto {antes}}\ tag {6.25}
    \ end {align*}\ nonumber\]

    Ahora estamos en condiciones de encontrar\(M\) en términos de la distribución de probabilidad de entrada y las propiedades del canal. La sustitución en la Ecuación 6.23 y la simplificación conducen a

    \[M=\sum_{j}\left(\sum_{i} p\left(A_{i}\right) c_{j i}\right) \log _{2}\left(\frac{1}{\sum_{i} p\left(A_{i}\right) c_{j i}}\right)-\sum_{i j} p\left(A_{i}\right) c_{j i} \log _{2}\left(\frac{1}{c_{j i}}\right) \tag{6.26 } \]

    Obsérvese que la Ecuación 6.26 se derivó para el caso donde la entrada “causa” la salida. Al menos, así fue como fue la descripción. Sin embargo, tal relación de causa y efecto no es necesaria. El término información mutua sugiere (correctamente) que es igual de válido ver la salida como causar la entrada, o ignorar completamente la cuestión de qué causa qué. Dos fórmulas alternativas para\(M\) show que se\(M\) pueden interpretar en cualquier dirección:

    \ [\ begin {align*}
    M &=\ suma_ {i} p (A_ {i})\ log _ {2}\ Grande (\ frac {1} {p (A_ {i})}\ Grande) -\ suma_ {j} p (B_ {j})\ suma_ {i} p (A_ {i}\; |\; B_ {j})\ log _ {2}\ Grande (\ frac {1} {p (A_ {i}\; |\; B_ {j})}\ Grande)\\
    &=\ suma_ {j} p (B_ {j})\ log _ {2}\ Grande (\ frac {1} {p (B_ {j})}\ Grande) -\ sum_ {i} p (A_ {j})\ Grande) -\ sum_ {i} p (A_ {j}) i})\ suma_ {j} p (B_ {j} \ mid A_ {i})\ log _ {2}\ Grande (\ frac {1} {p (B_ {j}\ mid A_ {i})}\ Grande)\ tag {6.27}
    \ end {align*}\ nonumber\]

    En lugar de dar una interpretación general de estas o fórmulas similares, simplemente veamos el canal binario simétrico. En este caso ambos\(p(A_i)\) y\(p(B_j)\) son iguales a 0.5 y así el primer término en la expresión para\(M\) en la Ecuación 6.26 es 1 y el segundo término se encuentra en términos de\(\epsilon\):

    \[M=1-\varepsilon \log _{2}\left(\frac{1}{\varepsilon}\right)-(1-\varepsilon) \log _{2}\left(\frac{1}{(1-\varepsilon)}\right) \tag{6.28} \]

    que pasa a ser 1 bit menos la entropía de una fuente binaria con probabilidades\(\epsilon\) y 1 −\(\epsilon\). Esta es una curva en forma de copa que va desde un valor de 1 cuando\(\epsilon\) = 0 abajo a 0 at\(\epsilon\) = 0.5 y luego retrocede hasta 1 cuando ε\(\epsilon\) = 1. Ver Figura 6.6. La interpretación de este resultado es sencilla. Cuando\(\epsilon\) = 0 (o cuando\(\epsilon\) = 1) la entrada se puede determinar exactamente cada vez que se conoce la salida, por lo que no hay pérdida de información. Por lo tanto, la información mutua es la misma que la información de entrada, 1 bit. Cuando\(\epsilon\) = 0.5 cada salida es igualmente probable, no importa cuál sea la entrada, así que aprender la salida no nos dice nada sobre la entrada. La información mutua es 0.


    This page titled 6.6: Canal ruidoso is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Paul Penfield, Jr. (MIT OpenCourseWare) via source content that was edited to the style and standards of the LibreTexts platform.