Saltar al contenido principal

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$

( \newcommand{\kernel}{\mathrm{null}\,}\) $$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\id}{\mathrm{id}}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\kernel}{\mathrm{null}\,}$$

$$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$

$$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$

$$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

$$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$$

$$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$$

$$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vectorC}[1]{\textbf{#1}}$$

$$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$$

$$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$$

$$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$$

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\avec}{\mathbf a}$$ $$\newcommand{\bvec}{\mathbf b}$$ $$\newcommand{\cvec}{\mathbf c}$$ $$\newcommand{\dvec}{\mathbf d}$$ $$\newcommand{\dtil}{\widetilde{\mathbf d}}$$ $$\newcommand{\evec}{\mathbf e}$$ $$\newcommand{\fvec}{\mathbf f}$$ $$\newcommand{\nvec}{\mathbf n}$$ $$\newcommand{\pvec}{\mathbf p}$$ $$\newcommand{\qvec}{\mathbf q}$$ $$\newcommand{\svec}{\mathbf s}$$ $$\newcommand{\tvec}{\mathbf t}$$ $$\newcommand{\uvec}{\mathbf u}$$ $$\newcommand{\vvec}{\mathbf v}$$ $$\newcommand{\wvec}{\mathbf w}$$ $$\newcommand{\xvec}{\mathbf x}$$ $$\newcommand{\yvec}{\mathbf y}$$ $$\newcommand{\zvec}{\mathbf z}$$ $$\newcommand{\rvec}{\mathbf r}$$ $$\newcommand{\mvec}{\mathbf m}$$ $$\newcommand{\zerovec}{\mathbf 0}$$ $$\newcommand{\onevec}{\mathbf 1}$$ $$\newcommand{\real}{\mathbb R}$$ $$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$$ $$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$$ $$\newcommand{\bcal}{\cal B}$$ $$\newcommand{\ccal}{\cal C}$$ $$\newcommand{\scal}{\cal S}$$ $$\newcommand{\wcal}{\cal W}$$ $$\newcommand{\ecal}{\cal E}$$ $$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$$ $$\newcommand{\gray}[1]{\color{gray}{#1}}$$ $$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$$ $$\newcommand{\rank}{\operatorname{rank}}$$ $$\newcommand{\row}{\text{Row}}$$ $$\newcommand{\col}{\text{Col}}$$ $$\renewcommand{\row}{\text{Row}}$$ $$\newcommand{\nul}{\text{Nul}}$$ $$\newcommand{\var}{\text{Var}}$$ $$\newcommand{\corr}{\text{corr}}$$ $$\newcommand{\len}[1]{\left|#1\right|}$$ $$\newcommand{\bbar}{\overline{\bvec}}$$ $$\newcommand{\bhat}{\widehat{\bvec}}$$ $$\newcommand{\bperp}{\bvec^\perp}$$ $$\newcommand{\xhat}{\widehat{\xvec}}$$ $$\newcommand{\vhat}{\widehat{\vvec}}$$ $$\newcommand{\uhat}{\widehat{\uvec}}$$ $$\newcommand{\what}{\widehat{\wvec}}$$ $$\newcommand{\Sighat}{\widehat{\Sigma}}$$ $$\newcommand{\lt}{<}$$ $$\newcommand{\gt}{>}$$ $$\newcommand{\amp}{&}$$ $$\definecolor{fillinmathshade}{gray}{0.9}$$
$$\newcommand{\var}{\text{var}}$$$$\newcommand{\sd}{\text{sd}}$$$$\newcommand{\cov}{\text{cov}}$$$$\newcommand{\cor}{\text{cor}}$$$$\renewcommand{\P}{\mathbb{P}}$$$$\newcommand{\E}{\mathbb{E}}$$$$\newcommand{\R}{\mathbb{R}}$$$$\newcommand{\N}{\mathbb{N}}$$$$\newcommand{\bs}{\boldsymbol}$$

El objetivo de esta sección es estudiar un tipo de objeto matemático que surge naturalmente en el contexto de valores esperados condicionales y distribuciones paramétricas, y es de fundamental importancia en el estudio de los procesos estocásticos, particularmente los procesos de Markov. En cierto sentido, el principal objeto de estudio en esta sección es la generalización de una matriz, y las generalizaciones de operaciones de las operaciones matriciales. Si tienes esto en mente, esta sección puede parecer menos abstracta.

## Teoría Básica

### Definiciones

Recordemos que un espacio medible$$(S, \mathscr S)$$ consiste en un conjunto$$S$$ y un$$\sigma$$ -álgebra$$\mathscr S$$ de subconjuntos de$$S$$. Si$$\mu$$ es una medida positiva en$$(S, \mathscr S)$$, entonces$$(S, \mathscr S, \mu)$$ es un espacio de medida. Los dos casos especiales más importantes que hemos estudiado frecuentemente son

1. Discreto:$$S$$ es contable,$$\mathscr S = \mathscr P(S)$$ es la colección de todos los subconjuntos de$$S$$, y$$\mu = \#$$ está contando la medida$$(S, \mathscr S)$$.
2. Euclidiana:$$S$$ es un subconjunto medible de$$\R^n$$ para algunos$$n \in \N_+$$,$$\mathscr S$$ es la colección de subconjuntos de$$S$$ que también son medibles, y$$\mu = \lambda_n$$ es$$n$$ -dimensional Lebesgue medida en$$(S, \mathscr S)$$.

De manera más general,$$S$$ generalmente viene con una topología que es localmente compacta, Hausdorff, con una base contable (LCCB), y$$\mathscr S$$ es la $$\sigma$$-álgebra de Borel, la$$\sigma$$ -álgebra generada por la topología (la colección de subconjuntos abiertos de$$S$$). La medida$$\mu$$ suele ser una medida Borel, y así satisface$$\mu(C) \lt \infty$$ si$$C \subseteq S$$ es compacta. Un espacio de medida discreto es de este tipo, correspondiente a la topología discreta. Un espacio de medida euclidiano también es de este tipo, correspondiente a la topología euclidiana, si$$S$$ es abierto o cerrado (que suele ser el caso). En el caso discreto, cada función de$$S$$ a otro espacio medible es medible, y cada función de$$S$$ a otro espacio topológico es continua, por lo que la teoría de la medida no es realmente necesaria.

Recordemos también que el espacio de medida$$(S, \mathscr S, \mu)$$ es$$\sigma$$ -finito si existe una colección contable$$\{A_i: i \in I\} \subseteq \mathscr S$$ tal que$$\mu(A_i) \lt \infty$$ para$$i \in I$$ y$$S = \bigcup_{i \in I} A_i$$. Si$$(S, \mathscr S, \mu)$$ es un espacio de medida de Borel correspondiente a una topología LCCB, entonces es$$\sigma$$ -finito.

Si$$f: S \to \R$$ es medible, defina$$\| f \| = \sup\{\left|f(x)\right|: x \in S\}$$. Por supuesto que bien podemos tener$$\|f\| = \infty$$. Dejar$$\mathscr B(S)$$ denotar la colección de funciones medibles acotadas$$f: S \to \R$$. Bajo las operaciones habituales de adición puntual y multiplicación escalar,$$\mathscr B(S)$$ se encuentra un espacio vectorial, y$$\| \cdot \|$$ es la norma natural en este espacio, conocida como la norma suprema. Este espacio vectorial juega un papel importante.

En esta sección, a veces es más natural escribir integrales con respecto a la medida positiva$$\mu$$ con el diferencial antes del integrando, en lugar de después. No obstante, tenga la seguridad de que esto es mera notación, el significado de la integral es el mismo. Entonces si$$f: S \to \R$$ es medible entonces podemos escribir la integral de$$f$$ con respecto a$$\mu$$ en notación de operador como$\mu f = \int_S \mu(dx) f(x)$ asumiendo, como de costumbre, que la integral existe. Este será el caso si no$$f$$ es negativo, aunque$$\infty$$ es un valor posible. De manera más general, la integral existe en$$\R \cup \{-\infty, \infty\}$$ si$$\mu f^+ \lt \infty$$ o$$\mu f^- \lt \infty$$ dónde$$f^+$$ y$$f^-$$ son las partes positivas y negativas de$$f$$. Si ambos son finitos, la integral existe en$$\R$$ (y$$f$$ es integrable con respecto a$$\mu$$). Si$$\mu$$ es una medida de probabilidad y pensamos en$$(S, \mathscr S)$$ como el espacio muestral de un experimento aleatorio, entonces podemos pensar en una variable aleatoria de$$f$$ valor real, en cuyo caso nuestra nueva notación no está muy lejos de nuestro valor esperado tradicional$$\E(f)$$. Nuestra definición principal viene a continuación.

Supongamos que$$(S, \mathscr S)$$ y$$(T, \mathscr T)$$ son espacios medibles. Un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$ es una función$$K: S \times \mathscr T \to [0, \infty]$$ tal que

1. $$x \mapsto K(x, A)$$es una función medible desde$$S$$ dentro$$[0, \infty]$$ para cada uno$$A \in \mathscr T$$.
2. $$A \mapsto K(x, A)$$es una medida positiva$$\mathscr T$$ para cada uno$$x \in S$$.

Si$$(T, \mathscr T) = (S, \mathscr S)$$, entonces$$K$$ se dice que es un kernel encendido$$(S, \mathscr S)$$.

Hay varias clases de granos que merecen nombres especiales.

Supongamos que$$K$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$. Entonces

1. $$K$$es $$\sigma$$-finito si la medida$$K(x, \cdot)$$ es$$\sigma$$ -finita para cada$$x \in S$$.
2. $$K$$es finito si$$K(x, T) \lt \infty$$ por cada$$x \in S$$.
3. $$K$$está delimitado si$$K(x, T)$$ está acotado en$$x \in S$$.
4. $$K$$es un kernel de probabilidad si$$K(x, T) = 1$$ para cada$$x \in S$$.

Definir$$\|K\| = \sup\{K(x, T): x \in S\}$$, de modo que$$\|K\| \lt \infty$$ si$$K$$ es un kernel acotado y$$\|K\| = 1$$ si$$K$$ es un kernel de probabilidad.

Entonces un kernel de probabilidad está acotado, un kernel acotado es finito y un kernel finito es$$\sigma$$ -finito. Los términos kernel estocástico y kernel de Markov también se usan para núcleos de probabilidad, y para un kernel$$\|K\| = 1$$ de probabilidad, por supuesto. Los términos son consistentes con términos utilizados para las medidas:$$K$$ es un núcleo finito si y solo si$$K(x, \cdot)$$ es una medida finita para cada uno$$x \in S$$, y$$K$$ es un kernel de probabilidad si y solo si$$K(x, \cdot)$$ es una medida de probabilidad para cada uno$$x \in S$$. Obsérvese que$$\|K\|$$ es simplemente la norma suprema de la función$$x \mapsto K(x, T)$$.

Un kernel define dos operadores integrales naturales, operando a la izquierda con medidas y operando a la derecha con funciones. Como de costumbre, a menudo somos un poco casuales con la cuestión de la existencia. Básicamente en esta sección, asumimos que existen cualesquiera integrales mencionadas.

Supongamos que$$K$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$.

1. Si$$\mu$$ es una medida positiva en$$(S, \mathscr S)$$, entonces$$\mu K$$ se define de la siguiente manera es una medida positiva en$$(T, \mathscr T)$$:$\mu K(A) = \int_S \mu(dx) K(x, A), \quad A \in \mathscr T$
2. Si$$f: T \to \R$$ es medible, entonces$$K f: S \to \R$$ se define de la siguiente manera es medible (asumiendo que las integrales existen en$$\R$$):$K f(x) = \int_T K(x, dy) f(y), \quad x \in S$
Prueba
1. Claramente$$\mu K(A) \ge 0$$ para$$A \in \mathscr T$$. Supongamos que$$\{A_j: i \in J\}$$ es una colección contable de conjuntos disjuntos en$$\mathscr T$$ y$$A = \bigcup_{j \in J} A_j$$. Entonces\ comienza {alinear*}\ mu K (A) & =\ int_s\ mu (dx) K (x, A) =\ int_s\ mu (dx)\ izquierda (\ sum_ {j\ en J} K (x, a_j)\ derecha)\\ & =\ sum_ {j\ en J}\ int_s\ mu (dx) K (x, a_j) = suma\ _ {j\ in J}\ mu K (a_J)\ end {align*} El intercambio de suma e integral se justifica ya que los términos son no negativos.
2. La mensurabilidad de$$K f$$ se desprende de la mensurabilidad de$$f$$ y de$$x \mapsto K(x, A)$$ para$$A \in \mathscr S$$, y de las propiedades básicas de la integral.

Así, un kernel transforma medidas en$$(S, \mathscr S)$$ medidas sobre$$(T, \mathscr T)$$, y transforma ciertas funciones medibles de$$T$$ a$$\R$$ en funciones medibles de$$S$$ a$$\R$$. Nuevamente, la parte b) asume que$$f$$ es integrable con respecto a la medida$$K(x, \cdot)$$ para cada uno$$x \in S$$. En particular, la última declaración se llevará a cabo en el siguiente caso especial importante:

Supongamos que$$K$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$ y eso$$f \in \mathscr B(T)$$.

1. Si$$K$$ es finito entonces$$Kf$$ se define y$$\|Kf\| = \|K\| \|f\|$$.
2. Si$$K$$ está acotado entonces$$Kf \in \mathscr B(T)$$.
Prueba
1. Si$$K$$ es finito entonces$K \left|f\right|(x) = \int_T K(x, dy) \left|f(y)\right| \le \int_T K(x, dy) \|f\| = \|f\| K(x, T) \lt \infty \quad x \in S$ Por lo tanto$$f$$ es integrable con respecto a$$K(x, \cdot)$$ para cada uno$$x \in S$$ así$$Kf$$ se define. Continuando con nuestras desigualdades,$$|K f(x)| \le K |f|(x) \le \|f\| K(x, T) \le \|f\| \|K\|$$ así lo tenemos$$\|Kf\| \le \|K\| \|f\|$$. Por otra parte la igualdad se mantiene cuando$$f = \bs{1}_T$$, la función constante 1 encendido$$T$$.
2. Si$$K$$ está acotado entonces$$\|K\| \lt \infty$$ así desde (a),$$\|K f \| \lt \infty$$.

El núcleo de identidad$$I$$ en el espacio medible$$(S, \mathscr S)$$ se define por$$I(x, A) = \bs{1}(x \in A)$$ for$$x \in S$$ y$$A \in \mathscr S$$.

Así,$$I(x, A) = 1$$ si$$x \in A$$ y$$I(x, A) = 0$$ si$$x \notin A$$. Así$$x \mapsto I(x, A)$$ es la función indicadora de$$A \in \mathscr S$$, mientras que$$A \mapsto I(x, A)$$ es la masa puntual en$$x \in S$$. Claramente el kernel de identidad es un kernel de probabilidad. Si necesitamos indicar la dependencia del espacio particular, agregaremos un subíndice. El siguiente resultado justifica el nombre.

Dejar$$I$$ denotar el núcleo de identidad en$$(S, \mathscr S)$$.

1. Si$$\mu$$ es una medida positiva en$$(S, \mathscr S)$$ entonces$$\mu I = \mu$$.
2. Si$$f: S \to \R$$ es medible, entonces$$I f = f$$.

### Construcciones

Podemos crear un nuevo kernel a partir de dos kernels dados, mediante las operaciones habituales de suma y multiplicación escalar.

Supongamos que$$K$$ y$$L$$ son granos de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$, y eso$$c \in [0, \infty)$$. Entonces$$c K$$ y$$K + L$$ se definen a continuación también son granos de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$.

1. $$(c K)(x, A) = c K(x, A)$$para$$x \in S$$ y$$A \in \mathscr T$$.
2. $$(K + L)(x, A) = K(x, A) + L(x, A)$$para$$x \in S$$ y$$A \in \mathscr T$$.

Si$$K$$ y$$L$$ son$$\sigma$$ -finitos (finitos) (acotados) entonces$$c K$$ y$$K + L$$ son$$\sigma$$ -finitos (finitos) (acotados), respectivamente.

Prueba

1. Ya que$$x \mapsto K(x, A)$$ es medible para$$A \in \mathscr T$$, así es$$x \mapsto c K(x, A)$$. Ya que$$A \mapsto K(x, A)$$ es una medida positiva en$$(T, \mathscr T)$$ para$$x \in S$$, también lo es$$A \mapsto c K(x, A)$$ desde$$c \ge 0$$.
2. Ya que$$x \mapsto K(x, A)$$ y$$x \mapsto L(x, A)$$ son medibles para$$A \in \mathscr T$$, así es$$x \mapsto K(x, A) + L(x, A)$$. Ya que$$A \mapsto K(x, A)$$ y$$A \mapsto L(x, A)$$ son medidas positivas$$(T, \mathscr T)$$ para$$x \in S$$, así es$$A \mapsto K(x, A) + L(x, A)$$.

Un simple corolario del último resultado es que si$$a, \, b \in [0, \infty)$$ entonces$$a K + b L$$ es un kerneal de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$. En particular, si$$K, \, L$$ son núcleos de probabilidad y$$p \in (0, 1)$$ luego$$p K + (1 - p) L$$ es un kernel de probabilidad. Una forma más interesante e importante de formar un nuevo kernel a partir de dos núcleos dados es a través de una operación de multiplicación.

Supongamos que$$K$$ es un kernel de$$(R, \mathscr R)$$ a$$(S, \mathscr S)$$ y que$$L$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$. Luego$$K L$$ se define de la siguiente manera un kernel de$$(R, \mathscr R)$$ a$$(T, \mathscr T)$$:$K L(x, A) = \int_S K(x, dy) L(y, A), \quad x \in R, \, A \in \mathscr T$

1. Si$$K$$ es finito y$$L$$ está acotado entonces$$K L$$ es finito.
2. Si$$K$$ y$$L$$ están acotados entonces$$K L$$ se acoplan.
3. Si$$K$$ y$$L$$ son estocásticos entonces$$K L$$ es estocástico
Prueba

La mensurabilidad de$$x \mapsto (K L)(x, A)$$ for$$A \in \mathscr T$$ se deriva de las propiedades básicas de la integral. Para la segunda propiedad, arreglar$$x \in R$$. Claramente$$K L(x, A) \ge 0$$ para$$A \in \mathscr T$$. Supongamos que$$\{A_j: j \in J\}$$ es una colección contable de conjuntos disjuntos en$$\mathscr T$$ y$$A = \bigcup_{j \in J} A_j$$. Entonces\ comienza {alinear*} K L (x, A) & =\ int_s K (x, dy) L (x, A) =\ int_s K (x, dy)\ izquierda (\ sum_ {j\ en J} L (y, a_j)\ derecha)\\ & =\ sum_ {j\ en J}\ int_s K (x, dy) L (y, a_J) =\ sum_ {j\ in J} K L (x, a_j)\ end {align*} El intercambio de suma e integral se justifica ya que los términos son no negativos.

Una vez más, el núcleo de identidad hace honor a su nombre:

Supongamos que$$K$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$. Entonces

1. $$I_S K = K$$
2. $$K I_T = K$$

Los siguientes resultados muestran que las operaciones son asociativas siempre que tienen sentido.

Supongamos que$$K$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$,$$\mu$$ es una medida positiva en$$\mathscr S$$,$$c \in [0, \infty)$$, y$$f: T \to \R$$ es medible. Entonces, suponiendo que existan las integrales apropiadas,

1. $$c (\mu K) = (c \mu) K$$
2. $$c (K f) = (c K) f$$
3. $$(\mu K) f = \mu (K f)$$
Prueba

Estos resultados se derivan fácilmente de las definiciones.

1. La medida común sobre$$\mathscr T$$ es$$c \mu K(A) = c \int_S \mu(dx) K(x, A)$$ para$$A \in \mathscr T$$.
2. La función común de$$S$$ a$$\R$$ es$$c K f(x) = c \int_S K(x, dy) f(y)$$ para$$x \in S$$, asumiendo que la integral existe para$$x \in S$$.
3. El número real común es$$\mu K f = \int_S \mu(dx) \int_T K(x, dy) f(y)$$, asumiendo que las integrales existen.

Supongamos que$$K$$ es un kernel de$$(R, \mathscr R)$$ a$$(S, \mathscr S)$$ y$$L$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$. Supongamos también que$$\mu$$ es una medida positiva sobre$$(R, \mathscr R)$$,$$f: T \to \R$$ es medible, y$$c \in [0, \infty)$$. Entonces, suponiendo que existan las integrales apropiadas,

1. $$(\mu K) L = \mu (K L)$$
2. $$K ( L f) = (K L) f$$
3. $$c (K L) = (c K) L$$
Prueba

Estos resultados se derivan fácilmente de las definiciones.

1. La medida común sobre$$(T, \mathscr T)$$ es$$\mu K L(A) = \int_R \mu(dx) \int_S K(x, dy) L(y, A)$$ para$$A \in \mathscr T$$.
2. La función mensurable común de$$R$$ a$$\R$$ es$$K L f(x) = \int_S K(x, dy) \int_T L(y, dz) f(z)$$ para$$x \in R$$, asumiendo que la integral existe para$$x \in S$$.
3. El núcleo común de$$(R, \mathscr R)$$ a$$(T, \mathscr T)$$ es$$c K L(x, A) = c \int_S K(x, dy) L(y, A)$$ para$$x \in R$$ y$$A \in \mathscr T$$.

Supongamos que$$K$$ es un kernel de$$(R, \mathscr R)$$ a$$(S, \mathscr S)$$,$$L$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$, y$$M$$ es un kernel de$$(T, \mathscr T)$$ a$$(U, \mathscr U)$$. Entonces$$(K L) M = K (L M)$$.

Prueba

Estos resultados se derivan fácilmente de las definiciones. El núcleo común de$$(R, \mathscr R)$$ a$$(U, \mathscr U)$$ es$K L M(x, A) = \int_S K(x, dy) \int_T L(y, dz) M(z, A), \quad x \in R, \, A \in \mathscr U$

Los siguientes resultados muestran que la propiedad distributiva se mantiene siempre que las operaciones tienen sentido.

Supongamos que$$K$$ y$$L$$ son granos de$$(R, \mathscr R)$$ a$$(S, \mathscr S)$$$$M$$ y que y$$N$$ son granos de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$. Supongamos también que$$\mu$$ es una medida positiva sobre$$(R, \mathscr R)$$ y que$$f: S \to \R$$ es medible. Entonces, suponiendo que existan las integrales apropiadas,

1. $$(K + L) M = K M + L M$$
2. $$K (M + N) = K M + K N$$
3. $$\mu (K + L) = \mu K + \mu L$$
4. $$(K + L) f = K f + L f$$

Supongamos que$$K$$ es un núcleo de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$, y que$$\mu$$ y$$\nu$$ son medidas positivas sobre$$(S, \mathscr S)$$, y que$$f$$ y$$g$$ son funciones medibles de$$T$$ a$$\R$$. Entonces, suponiendo que existan las integrales apropiadas,

1. $$(\mu + \nu) K = \mu K + \nu K$$
2. $$K(f + g) = K f + K g$$
3. $$\mu(f + g) = \mu f + \mu g$$
4. $$(\mu + \nu) f = \mu f + \nu f$$

En particular, tenga en cuenta que si$$K$$ es un núcleo de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$, entonces la transformación$$\mu \mapsto \mu K$$ definida para medidas positivas en$$(S, \mathscr S)$$, y la transformación$$f \mapsto K f$$ definida para funciones medibles$$f: T \to \R$$ (para las cuales$$K f$$ existe), son ambas lineales operadores. Si$$\mu$$ es una medida positiva en$$(S, \mathscr S)$$, entonces el operador integral$$f \mapsto \mu f$$ definido para medible$$f: S \to \R$$ (para el cual$$\mu f$$ existe) también es lineal, pero claro, ya lo sabíamos. Por último, tenga en cuenta que el operador$$f \mapsto K f$$ es positivo: si$$f \ge 0$$ entonces$$K f \ge 0$$. Aquí está el importante resumen de nuestros resultados cuando el kernel está acotado.

Si$$K$$ es un núcleo acotado de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$, entonces$$f \mapsto K f$$ es una transformación delimitada, lineal de$$\mathscr B(T)$$ a$$\mathscr B(S)$$ y$$\|K\|$$ es la norma de la transformación.

La propiedad conmutativa para el producto de los granos falla con pasión. Si$$K$$ y$$L$$ son núcleos, entonces dependiendo de los espacios medibles,$$K L$$ pueden estar bien definidos, pero no$$L K$$. Incluso si ambos productos están definidos, pueden ser granos desde o hacia diferentes espacios medibles. Aunque ambos se definan desde y hacia los mismos espacios medibles, bien puede suceder eso$$K L \neq L K$$. A continuación se dan algunos ejemplos

Si$$K$$ es un núcleo encendido$$(S, \mathscr S)$$ y$$n \in \N$$, dejamos$$K^n = K K \cdots K$$, el$$n$$ -fold poder de$$K$$. Por convención,$$K^0 = I$$, el núcleo de identidad en$$S$$.

Los puntos fijos de los operadores asociados a un kernel resultan ser muy importantes.

Supongamos que$$K$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$.

1. Una medida positiva$$\mu$$ sobre$$(S, \mathscr S)$$ tal que$$\mu K = \mu$$ se dice que es invariante para$$K$$.
2. Una función medible$$f: T \to \R$$ tal que$$K f = f$$ se dice que es invariante para$$K$$

Entonces, en el lenguaje del álgebra lineal (o análisis funcional), una medida invariante es un vector propio izquierdo del núcleo, mientras que una función invariante es un vector propio derecho del núcleo, ambos correspondientes al autovalor 1. Por nuestros resultados anteriores, si$$\mu$$ y$$\nu$$ son medidas invariantes y$$c \in [0, \infty)$$, entonces$$\mu + \nu$$ y también$$c \mu$$ son invariantes. Del mismo modo, si$$f$$ y$$g$$ son funciones invariantes y$$c \in \R$$, las$$f + g$$ y también$$c f$$ son invariantes.

Supongamos que$$P$$ es un kernel de probabilidad de$$(R, \mathscr R)$$ a$$(S, \mathscr S)$$ y que$$Q$$ es un kernel de probabilidad de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$. Supongamos también que$$\mu$$ es una medida de probabilidad en$$(R, \mathscr R)$$. Entonces

1. $$P Q$$es un kernel de probabilidad de$$(R, \mathscr R)$$ a$$(T, \mathscr T)$$.
2. $$\mu P$$es una medida de probabilidad en$$(S, \mathscr S)$$.
Prueba
1. Sabemos que$$P Q$$ es un kernel de$$(R, \mathscr R)$$ a$$(T, \mathscr T)$$. Así que solo tenemos que señalar que$P Q(T) = \int_S P(x, dy) Q(y, T) = \int_S P(x, dy) = P(x, S) = 1, \quad x \in R$
2. Sabemos que$$\mu P$$ es una medida positiva sobre$$(S, \mathscr S))$$. Así que solo tenemos que señalar que$\mu P(S) = \int_R \mu(dx) P(x, S) = \int_R \mu(dx) = \mu(R) = 1$

Como corolario, se deduce que si$$P$$ es un kernel de probabilidad activado$$(S, \mathscr S)$$, entonces también lo es$$P^n$$ para$$n \in \N$$.

Los operadores asociados a un kernel son de fundamental importancia, y podemos recuperar fácilmente el kernel de los operadores. Supongamos que$$K$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$, y let$$x \in S$$ y$$A \in \mathscr T$$. Entonces trivialmente,$$K \bs{1}_A(x) = K(x, A)$$ donde como de costumbre,$$\bs{1}_A$$ es la función indicadora de$$A$$. Trivialmente también$$\delta_x K(A) = K(x, A)$$ donde$$\delta_x$$ está la masa puntual en$$x$$.

### Funciones Kernel

Por lo general, nuestros espacios medibles son de hecho espacios de medida, con medidas naturales asociadas a los espacios, como en los casos especiales descritos en (1). Cuando comenzamos con espacios de medida, los núcleos generalmente se construyen a partir de funciones de densidad de la misma manera que las medidas positivas se definen a partir de las funciones de densidad.

Supongamos que$$(S, \mathscr S, \lambda)$$ y$$(T, \mathscr T, \mu)$$ son espacios de medida. Como es habitual,$$S \times T$$ se le da el producto$$\sigma$$ -álgebra$$\mathscr S \otimes \mathscr T$$. Si$$k: S \times T \to [0, \infty)$$ es medible, entonces la función$$K$$ definida de la siguiente manera es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$:$K(x, A) = \int_A k(x, y) \mu(dy), \quad x \in S, \, A \in \mathscr T$

Prueba

La mensurabilidad de$$x \mapsto K(x, A) = \int_A k(x, y) \mu(dy)$$ for$$A \in \mathscr T$$ se deriva de una propiedad básica de la integral. El hecho de que$$A \mapsto K(x, A) = \int_A k(x, y) \mu(dy)$$ sea una medida positiva sobre$$\mathscr T$$ para$$x \in S$$ también se desprende de una propiedad básica de la integral. De hecho,$$y \mapsto k(x, y)$$ es la densidad de esta medida con respecto a$$\mu$$.

Claramente el kernel$$K$$ depende tanto de la medida$$\mu$$ positiva$$(T, \mathscr T)$$ como de la función$$k$$, mientras que la medida$$\lambda$$ on no$$(S, \mathscr S)$$ juega ningún papel (y por lo tanto ni siquiera es necesaria). Pero nuevamente, nuestro punto de vista es que los espacios tienen medidas fijas, naturales. Lo suficientemente apropiado, la función$$k$$ se llama una función de densidad del núcleo (con respecto a$$\mu$$), o simplemente una función del núcleo.

Supongamos de nuevo eso$$(S, \mathscr S, \lambda)$$ y$$(T, \mathscr T, \mu)$$ son espacios de medida. Supongamos que también$$K$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$ con función kernel$$k$$. Si$$f: T \to \R$$ es mensurable, entonces, asumiendo que las integrales existen,$K f(x) = \int_S k(x, y) f(y) \mu(dy), \quad x \in S$

Prueba

Esto sigue ya que la función$$y \mapsto k(x, y)$$ es la densidad de la medida$$A \mapsto K(x, A)$$ con respecto a$$\mu$$:$K f(x) = \int_S K(x, dy) f(y) = \int_S k(x, y) f(y) \mu(dy), \quad x \in S$

Una función kernel define un operador a la izquierda con funciones$$S$$ encendidas de una manera completamente análoga al operador de la derecha arriba con funciones encendidas$$T$$.

Supongamos de nuevo que$$(S, \mathscr S, \lambda)$$ y$$(T, \mathscr T, \mu)$$ son espacios de medida, y eso$$K$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$ con función kernel$$k$$. Si$$f: S \to \R$$ es medible, entonces la función$$f K: T \to \R$$ definida de la siguiente manera también es medible, asumiendo que las integrales existen$f K(y) = \int_S \lambda(dx) f(x) k(x, y), \quad y \in T$

El operador definido anteriormente depende de la medida$$\lambda$$ así$$(S, \mathscr S)$$ como de la función kernel$$k$$, mientras que la medida$$\mu$$ en$$(T, \mathscr T)$$ juega ningún papel (y por lo tanto ni siquiera es necesario). Pero nuevamente, nuestro punto de vista es que los espacios tienen medidas fijas, naturales. Así es como nuestra nueva operación a la izquierda con funciones se relaciona con nuestra antigua operación de la izquierda con medidas.

Supongamos de nuevo que$$(S, \mathscr S, \lambda)$$ y$$(T, \mathscr T, \mu)$$ son espacios de medida, y eso$$K$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$ con función kernel$$k$$. Supongamos también que$$f: S \to [0, \infty)$$ es medible, y vamos a$$\rho$$ denotar la medida sobre la$$(S, \mathscr S)$$ que tiene densidad$$f$$ con respecto a$$\lambda$$. Entonces$$f K$$ es la densidad de la medida$$\rho K$$ con respecto a$$\mu$$.

Prueba

La herramienta principal, como es habitual, es un intercambio de integrales. Para$$B \in \mathscr T$$,\ comenzar {alinear*}\ rho K (B) & =\ int_s\ rho (dx) K (x, B) =\ int_s f (x) K (x, B)\ lambda (dx) =\ int_s f (x)\ izquierda [\ int_b k (x, y)\ mu (dy)\ derecha]\ lambda (dx)\\ & = int__b\ izquierda [\ int_s f (x) k (x, y)\ lambda (dx)\ derecha]\ mu (dy) =\ int_b f K (y)\ mu (dy)\ final {alinear*}

Como siempre, estamos particularmente interesados en los granos estocásticos. Con una función kernel, podemos tener núcleos doblemente estocásticos.

Supongamos de nuevo eso$$(S, \mathscr S, \lambda)$$ y$$(T, \mathscr T, \mu)$$ son espacios de medida y eso$$k: S \times T \to [0, \infty)$$ es mensurable. Entonces$$k$$ es una función doble del núcleo estocástico si

1. $$\int_T k(x, y) \mu(dy) = 1$$para$$x \in S$$
2. $$\int_S \lambda(dx) k(x, y) = 1$$para$$y \in S$$

Por supuesto, la condición (a) simplemente significa que el núcleo asociado con$$k$$ es un núcleo estocástico de acuerdo con nuestra definición original.

El caso especial más común e importante es cuando los dos espacios son iguales. Así, si$$(S, \mathscr S, \lambda)$$ es un espacio de medida y$$k : S \times S \to [0, \infty)$$ es medible, entonces tenemos un operador$$K$$ que opera a la izquierda y a la derecha con funciones medibles$$f: S \to \R$$:\ begin {align*} f K (y) & =\ int_s\ lambda (dx) f (x) k (x, y),\ quad y\ in S\\ K f (x) & =\ int_s k (x, y) f (y)\ lambda (d y),\ quad x\ in S\ end {align*} Si no$$f$$ es negativo y$$\mu$$ es la medida con función de densidad$$f$$, entonces$$f K$$ es la función de densidad de la medida$$\mu K$$ (ambas con respecto a$$\lambda$$).

Supongamos nuevamente que$$(S, \mathscr S, \lambda)$$ es un espacio de medida y$$k : S \times S \to [0, \infty)$$ es medible. Entonces$$k$$ es simétrico si es$$k(x, y) = k(y, x)$$ para todos$$(x, y) \in S^2$$.

Por supuesto, si$$k$$ es una función simétrica, estocástica del núcleo en$$(S, \mathscr S, \lambda)$$ entonces$$k$$ es doblemente estocástica, pero lo contrario no es cierto.

Supongamos que$$(R, \mathscr R, \lambda)$$$$(S, \mathscr S, \mu)$$,, y$$(T, \mathscr T, \rho)$$ son espacios de medida. Supongamos también que$$K$$ es un kernel de$$(R, \mathscr R)$$ a$$(S, \mathscr S)$$ con función kernel$$k$$, y que$$L$$ es un kernel de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$ con función kernel$$l$$. Entonces el núcleo$$K L$$ de$$(R, \mathscr R)$$ a$$(T, \mathscr T)$$ tiene densidad$$k l$$ dada por$k l(x, z) = \int_S k(x, y) l(y, z) \mu(dy), \quad (x, z) \in R \times T$

Prueba

Una vez más, la herramienta principal es un intercambio de integrales a través del teorema de Fubini. Dejar$$x \in R$$ y$$B \in \mathscr T$$. Entonces\ comienza {alinear*} K L (x, B) & =\ int_s K (x, dy) L (y, B) =\ int_s k (x, y) L (y, B)\ mu (dy)\ & =\ int_s k (x, y)\ izquierda [\ int_b l (y, z)\ rho (dz)\ derecha]\ mu (dy) =\ int_b\ izquierda [\ int_s k (x, y) l (y, z)\ mu (dy)\ derecha]\ rho (dz) =\ int_b k l (x, z)\ mu (dz)\ final {alinear*}

## Ejemplos y Casos Especiales

### El caso discreto

En esta subsección, asumimos que los espacios de medida son discretos, como se describe en (1). Dado que se entienden el$$\sigma$$ -álgebra (todos los subconjuntos) y la medida (medida de conteo), no necesitamos hacer referencia a ellos. Recordemos que las integrales con respecto a la medida de conteo son sumas. Supongamos ahora que$$K$$ es un núcleo desde el espacio discreto$$S$$ hasta el espacio discreto$$T$$. Para$$x \in S$$ y$$y \in T$$, vamos$$K(x, y) = K(x, \{y\})$$. Entonces de manera más general,$K(x, A) = \sum_{y \in A} K(x, y), \quad x \in S, \, A \subseteq T$ La función$$(x, y) \mapsto K(x, y)$$ es simplemente la función kernel del kernel$$K$$, como se definió anteriormente, pero en este caso normalmente no nos molestamos en usar un símbolo diferente para la función a diferencia del kernel. La función$$K$$ puede pensarse como una matriz, con filas indexadas por$$S$$ y columnas indexadas por$$T$$ (y así una matriz infinita si$$S$$ o$$T$$ es contablemente infinita). Con esta interpretación, todas las operaciones definidas anteriormente pueden ser pensadas como operaciones matriciales. Si$$f: T \to \R$$ y$$f$$ es pensado como un vector de columna indexado por$$T$$, entonces$$K f$$ es simplemente el producto ordinario de la matriz$$K$$ y el vector$$f$$; el producto es un vector de columna indexado por$$S$$:$K f(x) = \sum_{y \in S} K(x, y) f(y), \quad x \in S$ Del mismo modo, si$$f: S \to \R$$ y$$f$$ es pensado como un vector de fila indexado por$$S$$, entonces$$f K$$ es simple el producto ordinario del vector$$f$$ y la matriz$$K$$; el producto es un vector de fila indexado por$$T$$:$f K(y) = \sum_{x \in S} f(x) K(x, y), \quad y \in T$ Si$$L$$ es otro kernel de$$T$$ a otro espacio discreto$$U$$, entonces como funciones,$$K L$$ es simplemente el producto de la matriz de$$K$$ y$$L$$:$K L(x, z) = \sum_{y \in T} K(x, y) L(x, z), \quad (x, z) \in S \times L$

Dejar$$S = \{1, 2, 3\}$$ y$$T = \{1, 2, 3, 4\}$$. Definir el kernel$$K$$ de$$S$$ a$$T$$ por$$K(x, y) = x + y$$ para$$(x, y) \in S \times T$$. Defina la función$$f$$ on$$S$$ by$$f(x) = x!$$ for$$x \in S$$ y defina la función$$g$$ on$$T$$ by$$g(y) = y^2$$ for$$y \in T$$. Compute cada uno de los siguientes usando álgebra matricial:

1. $$f K$$
2. $$K g$$
Responder

En forma de matriz,$K = \left[\begin{matrix} 2 & 3 & 4 & 5 \\ 3 & 4 & 5 & 6 \\ 4 & 5 & 6 & 7 \end{matrix} \right], \quad f = \left[\begin{matrix} 1 & 2 & 6 \end{matrix} \right], \quad g = \left[\begin{matrix} 1 \\ 4 \\ 9 \\ 16 \end{matrix} \right]$

1. Como vector de fila indexado por$$T$$, el producto es$$f K = \left[\begin{matrix} 32 & 41 & 50 & 59\end{matrix}\right]$$
2. Como vector de columna indexado por$$S$$,$K g = \left[\begin{matrix} 130 \\ 160 \\ 190 \end{matrix}\right]$

Vamos$$R = \{0, 1\}$$,$$S = \{a, b\}$$, y$$T = \{1, 2, 3\}$$. Defina el núcleo$$K$$ de$$R$$ a$$S$$, el núcleo$$L$$ de$$S$$ a$$S$$ y el núcleo$$M$$ de$$S$$ a$$T$$ en forma de matriz de la siguiente manera:$K = \left[\begin{matrix} 1 & 4 \\ 2 & 3\end{matrix}\right], \; L = \left[\begin{matrix} 2 & 2 \\ 1 & 5 \end{matrix}\right], \; M = \left[\begin{matrix} 1 & 0 & 2 \\ 0 & 3 & 1 \end{matrix} \right]$ Calcular cada uno de los siguientes núcleos, o explicar por qué la operación no tiene sentido:

1. $$K L$$
2. $$L K$$
3. $$K^2$$
4. $$L^2$$
5. $$K M$$
6. $$L M$$
Prueba

Tenga en cuenta que estas no son solo matrices abstractas, sino que tienen filas y columnas indexadas por los espacios apropiados. Así que los productos solo tienen sentido cuando los espacios coinciden apropiadamente; no es solo cuestión del número de filas y columnas.

1. $$K L$$es el kernel de$$R$$ a$$S$$ dado por$K L = \left[\begin{matrix} 6 & 22 \\ 7 & 19 \end{matrix} \right]$
2. $$L K$$no está definido ya que el espacio$$S$$ de columna de no$$L$$ es el mismo que el espacio$$R$$ de fila de$$K$$.
3. $$K^2$$no está definido ya que el espacio de filas no$$R$$ es el mismo que el espacio de columna$$S$$.
4. $$L^2$$es el kernel de$$S$$ a$$S$$ dado por$L^2 = \left[\begin{matrix} 6 & 14 \\ 7 & 27 \end{matrix}\right]$
5. $$K M$$es el kernel de$$R$$ a$$T$$ dado por$K M = \left[\begin{matrix} 1 & 12 & 6 \\ 2 & 9 & 7 \end{matrix} \right]$
6. $$L M$$es el kernel de$$S$$ a$$T$$ dado por$L M = \left[\begin{matrix} 2 & 6 & 6 \\ 1 & 15 & 7 \end{matrix}\right]$

Una clase importante de núcleos de probabilidad surge de la distribución de una variable aleatoria, condicionada al valor de otra variable aleatoria. En esta subsección, supongamos que$$(\Omega, \mathscr{F}, \P)$$ es un espacio de probabilidad, y que$$(S, \mathscr S)$$ y$$(T, \mathscr T)$$ son espacios medibles. Además, supongamos que$$X$$ y$$Y$$ son variables aleatorias definidas en el espacio de probabilidad, con$$X$$ tomar valores$$S$$ y$$Y$$ tomar valores en$$T$$. Informalmente,$$X$$ y$$Y$$ son variables aleatorias definidas en el mismo experimento aleatorio subyacente.

La función$$P$$ definida de la siguiente manera es un kernel de probabilidad de$$(S, \mathscr S)$$ a$$(T, \mathscr T)$$, conocido como el kernel de probabilidad condicional de$$Y$$ dado$$X$$. $P(x, A) = \P(Y \in A \mid X = x), \quad x \in S, \, A \in \mathscr T$

Prueba

Recordemos que para$$A \in \mathscr T$$, la probabilidad condicional$$\P(Y \in A \mid X)$$ es en sí misma una variable aleatoria, y es medible con respecto a$$\sigma(X)$$. Es decir,$$\P(Y \in A \mid X) = P(X, A)$$ para alguna función medible$$x \mapsto P(x, A)$$ de$$S$$ a$$[0, 1]$$. Entonces, por definición,$$\P(Y \in A \mid X = x) = P(x, A)$$. Trivialmente, por supuesto,$$A \mapsto P(x, A)$$ es una medida de probabilidad en$$(T, \mathscr T)$$ for$$x \in S$$.

Dejado$$P$$ ser el núcleo de probabilidad condicional de$$Y$$ dado$$X$$.

1. Si$$f: T \to \R$$ es medible, entonces$$Pf(x) = \E[f(Y) \mid X = x]$$ para$$x \in S$$ (asumiendo como de costumbre que existe el valor esperado).
2. Si$$\mu$$ es la distribución de probabilidad de$$X$$ entonces$$\mu P$$ es la distribución de probabilidad de$$Y$$.
Prueba

1. Dado que$$A \mapsto P(x, A)$$ es la distribución condicional de$$Y$$ dado$$X = x$$,$\E[f(Y) \mid X = x] = \int_S P(x, dy) f(y) = P f(x)$
2. Vamos$$A \in \mathscr T$$. Acondicionamiento en$$X$$ da$\P(Y \in A) = \E[\P(Y \in A \mid X)] = \int_S \mu(dx) P(Y \in A \mid X = x) = \int_S \mu(dx) P(x, A) = \mu P(A)$

Al igual que en la discusión general anterior, los espacios medibles$$(S, \mathscr S)$$ y$$(T, \mathscr T)$$ suelen ser espacios de medida con medidas naturales adjuntas. Entonces, las distribuciones de probabilidad condicional a menudo se dan a través de funciones de densidad de probabilidad condicional, que luego desempeñan el papel de funciones del núcleo. Los dos ejercicios siguientes dan ejemplos.

Supongamos que$$X$$ y$$Y$$ son variables aleatorias para un experimento, tomando valores adentro$$\R$$. Para$$x \in \R$$, la distribución condicional de$$Y$$ dado$$X = x$$ es normal con media$$x$$ y desviación estándar 1. Utilice la notación y las operaciones de esta sección para los siguientes cálculos:

1. Dar la función kernel para la distribución condicional de$$Y$$ dado$$X$$.
2. Encontrar$$\E\left(Y^2 \bigm| X = x\right)$$.
3. Supongamos que$$X$$ tiene la distribución normal estándar. Encuentra la función de densidad de probabilidad de$$Y$$.
Responder
1. La función kernel (con respecto a la medida de Lebesgue, por supuesto) es$p(x, y) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2} (y - x)^2}, \quad x, \, y \in \R$
2. Dejemos$$g(y) = y^2$$ para$$y \in \R$$. Entonces$$E\left(Y^2 \bigm| X = x\right) = P g(x) = 1 + x^2$$ para$$x \in \R$$
3. El PDF normal estándar$$f$$ se da$$f(x) = \frac{1}{\sqrt{2 \pi}} e^{-x^2/2}$$ para$$x \in \R$$. Así$$Y$$ tiene PDF$$f P$$. $f P(y) \int_{-\infty}^\infty f(x) p(x, y) dx = \frac{1}{2 \sqrt{\pi}} e^{-\frac{1}{4} y^2}, \quad y \in \R$Este es el PDF de la distribución normal con media 0 y varianza 2.

Supongamos que$$X$$ y$$Y$$ son variables aleatorias para un experimento, con$$X$$ tomar valores$$\{a, b, c\}$$ y$$Y$$ tomar valores en$$\{1, 2, 3, 4\}$$. La función kernel de$$Y$$ dado$$X$$ es la siguiente:$$P(a, y) = 1/4$$,$$P(b, y) = y / 10$$, y$$P(c, y) = y^2/30$$, cada uno para$$y \in \{1, 2, 3, 4\}$$.

1. Dar el kernel$$P$$ en forma de matriz y verificar que es un kernel de probabilidad.
2. Encuentra$$f P$$ dónde$$f(a) = f(b) = f(c) = 1/3$$. El resultado es la función de densidad de$$Y$$ dado que$$X$$ se distribuye uniformemente.
3. Encuentra$$P g$$ donde$$g(y) = y$$ para$$y \in \{1, 2, 3, 4\}$$. La función resultante es$$\E(Y \mid X = x)$$ para$$x \in \{a, b, c\}$$.
Responder
1. $$P$$se da en forma de matriz a continuación. Tenga en cuenta que las sumas de fila son 1. $P = \left[\begin{matrix} \frac{1}{4} & \frac{1}{4} & \frac{1}{4} & \frac{1}{4} \\ \frac{1}{10} & \frac{2}{10} & \frac{3}{10} & \frac{4}{10} \\ \frac{1}{30} & \frac{4}{30} & \frac{9}{30} & \frac{16}{30} \end{matrix} \right]$
2. En forma de matriz,$$f = \left[\begin{matrix} \frac{1}{3} & \frac{1}{3} & \frac{1}{3} \end{matrix} \right]$$ y$$f P = \left[\begin{matrix} \frac{23}{180} & \frac{35}{180} & \frac{51}{180} & \frac{71}{180} \end{matrix} \right]$$.
3. En forma de matriz,$g = \left[\begin{matrix} 1 \\ 2 \\ 3 \\ 4 \end{matrix} \right], \quad P g = \left[\begin{matrix} \frac{5}{2} \\ 3 \\ \frac{10}{3} \end{matrix} \right]$

### Distribuciones paramétricas

Una distribución de probabilidad paramétrica también define un kernel de probabilidad de manera natural, con el parámetro jugando el papel de la variable kernel, y la distribución jugando el papel de la medida. Tales distribuciones generalmente se definen en términos de una función de densidad paramétrica que luego define una función kernel, nuevamente con el parámetro jugando el papel del primer argumento y la variable el papel del segundo argumento. Si el parámetro es pensado como un valor dado de otra variable aleatoria, como en el análisis bayesiano, entonces hay una superposición considerable con la subsección anterior. En la mayoría de los casos, (y en particular en los ejemplos siguientes), los espacios involucrados son discretos o euclidianos, como se describe en (1).

Considere la familia paramétrica de distribuciones exponenciales. Dejar$$f$$ denotar la función de identidad encendido$$(0, \infty)$$.

1. Dar la función de densidad de probabilidad como una función de kernel de probabilidad$$p$$ en$$(0, \infty)$$.
2. Encontrar$$P f$$.
3. Encontrar$$f P$$.
4. Find$$p^2$$, la función kernel correspondiente al kernel del producto$$P^2$$.
Responder
1. $$p(r, x) = r e^{-r x}$$para$$r, \, x \in (0, \infty)$$.
2. Para$$r \in (0, \infty)$$,$P f(r) = \int_0^\infty p(r, x) f(x) \, dx = \int_0^\infty x r e^{-r x} dx = \frac{1}{r}$ Esta es la media de la distribución exponencial.
3. Para$$x \in (0, \infty)$$,$f P(x) = \int_0^\infty f(r) p(r, x) \, dr = \int_0^\infty r^2 e^{-r x} dr = \frac{2}{x^3}$
4. Para$$r, \, y \in (0, \infty)$$,$p^2(r, y) = \int_0^\infty p(r, x) p(x, y) \, dx = \int_0^\infty = \int_0^\infty r x e^{-(r + y) x} dx = \frac{r}{(r + y)^2}$

Considere la familia paramétrica de distribuciones de Poisson. Dejar$$f$$ ser la función de identidad encendido$$\N$$ y dejar que$$g$$ sea la función de identidad encendido$$(0, \infty)$$.

1. Dar la función de densidad de probabilidad$$p$$ como una función de kernel de probabilidad de$$(0, \infty)$$ a$$\N$$.
2. $$P f = g$$Demuéstralo.
3. $$g P = f$$Demuéstralo.
Responder
1. $$p(r, n) = e^{-r} \frac{r^n}{n!}$$para$$r \in (0, \infty)$$ y$$n \in \N$$.
2. For$$r \in (0, \infty)$$,$$P f(r)$$ es la media de la distribución de Poisson con el parámetro$$r$$:$P f(r) = \sum_{n=0}^\infty p(r, n) f(n) = \sum_{n=0}^\infty n e^{-r} \frac{r^n}{n!} = r$
3. Para$$n \in \N$$,$g P(n) = \int_0^\infty g(r) p(r, n) \, dr = \int_0^\infty e^{-r} \frac{r^{n+1}}{n!} dr = n$

Claramente la distribución de Poisson tiene algunas propiedades muy especiales y elegantes. La siguiente familia de distribuciones también tiene algunas propiedades muy especiales. Comparar este ejercicio con el ejercicio (30).

Considerar la familia de distribuciones normales, parametrizadas por la media y con varianza 1.

1. Dar la función de densidad de probabilidad como una función de kernel de probabilidad$$p$$ en$$\R$$.
2. Demostrar que$$p$$ es simétrico.
3. Dejemos$$f$$ ser la función de identidad encendido$$\R$$. Demuestre eso$$P f = f$$ y$$f P = f$$.
4. Para$$n \in \N$$, busque$$p^n$$ la función kernel para el operador$$P^n$$.
Responder
1. Para$$\mu, \, x \in \R$$, es$p(\mu, x) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2}(x - \mu)^2}$ decir,$$x \mapsto p(x, \mu)$$ es la función de densidad de probabilidad normal con media$$\mu$$ y varianza 1.
2. Tenga en cuenta que$$p(\mu, x) = p(x, \mu)$$ para$$\mu, \, x \in \R$$. Así$$\mu \mapsto p(\mu, x)$$ es la función de densidad de probabilidad normal con media$$x$$ y varianza 1.
3. Ya que$$f(x) = x$$ para$$x \in \R$$, esto se desprende de las dos partes anteriores:$$P f(\mu) = \mu$$ para$$\mu \in \R$$ y$$f P(x) = x$$ para$$x \in \R$$
4. Para$$\mu, \, y \in \R$$,$p^2(\mu, x) = \int_{-\infty}^\infty p(\mu, t) p(t, y) \, dt = \frac{1}{\sqrt{4 \pi}} e^{-\frac{1}{4}(x - \mu)^2}$ entonces ese$$x \mapsto p^2(\mu, x)$$ es el PDF normal con media$$\mu$$ y varianza 2. Por inducción,$p^n(\mu, x) = \frac{1}{\sqrt{2 \pi n}} e^{-\frac{1}{2 n}(x - \mu)^2}$ para$$n \in \N_+$$ y$$\mu, \, x \in \R$$. Así$$x \mapsto p^n(\mu, x)$$ es el PDF normal con media$$\mu$$ y varianza$$n$$.

Para cada una de las siguientes distribuciones especiales, exprese la función de densidad de probabilidad como una función de kernel de probabilidad. Asegúrese de especificar los espacios de parámetros.

1. La distribución normal general en$$\R$$.
2. La distribución beta en$$(0, 1)$$.
3. La distribución binomial negativa en$$\N$$.
Responder
1. La distribución normal con media$$\mu$$ y desviación estándar$$\sigma$$ define una función kernel$$p$$ de$$\R \times (0, \infty)$$ a$$\R$$ dada por$p[(\mu, \sigma), x] = \frac{1}{\sqrt{2 \pi} \sigma} \exp\left[-\left(\frac{x - \mu}{\sigma}\right)^2\right]$
2. La distribución beta con parámetro left$$a$$ y right parámetro$$b$$ define una función kernel$$p$$ de$$(0, \infty)^2$$ a$$(0, 1)$$ dada por$p[(a, b), x] = \frac{1}{B(a, b)} x^{a - 1} y^{b - 1}$ donde$$B$$ es la función beta.
3. La distribución binomial negativa con parámetro de detención$$k$$ y parámetro de éxito$$\alpha$$ define una función$$p$$ de kernel de$$(0, \infty) \times (0, 1)$$ a$$\N$$ dada por$p[(n, \alpha), k] = \binom{n + k - 1}{n} \alpha^k (1 - \alpha)^n$

This page titled 4.13: Núcleos y Operadores is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform.