3.13: Continuidad Absoluta y Funciones de Densidad
- Page ID
- 151629
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Teoría Básica
Nuestro punto de partida es un espacio medible\( (S, \ms{S}) \). Eso\( S \) es un conjunto y\( \ms{S} \) es un\( \sigma \) -álgebra de subconjuntos de\( S \). En el último apartado, se discutieron medidas generales sobre\( (S, \ms{S}) \) que pueden tomar valores positivos y negativos. Los casos especiales son medidas positivas, medidas finitas y nuestro tipo favorito, las medidas de probabilidad. En particular, se estudiaron las propiedades de las medidas generales, las formas de construirlas, los conjuntos especiales (positivos, negativos y nulos) y las descomposiciones de Hahn y Jordania.
En esta sección, vemos cómo construir una nueva medida a partir de una medida positiva dada usando una función de densidad, y respondemos a la pregunta fundamental de cuándo una medida tiene una función de densidad relativa a la medida positiva dada.
Relaciones sobre medidas
La respuesta a la pregunta implica dos relaciones importantes sobre la recopilación de medidas sobre las\( (S, \ms{S}) \) que se definen en términos de conjuntos nulos. Recordemos que\( A \in \ms{S} \) es nulo para una medida\( \mu \) en\( (S, \ms{S}) \) si\( \mu(B) = 0 \) para cada\( B \in \ms{S} \) con\( B \subseteq A \). En el otro extremo,\( A \in \ms S \) es un conjunto de soporte para\( \mu \) if\( A^c \) es un conjunto nulo. Aquí están las definiciones básicas:
Supongamos que\( \mu \) y\( \nu \) son medidas sobre\( (S, \ms{S}) \).
- \( \nu \)es absolutamente continuo con respecto a\( \mu \) si cada conjunto nulo de\( \mu \) es también un conjunto nulo de\( \nu \). Escribimos\( \nu \ll \mu \).
- \( \mu \)y\( \nu \) son mutuamente singulares si existe\( A \in \ms{S} \) tal que\( A \) es nulo para\( \mu \) y\( A^c \) es nulo para\( \nu \). Escribimos\( \mu \perp \nu \).
Por lo tanto,\( \nu \ll \mu \) si cada conjunto de soporte de soporte de\( \mu \) es un conjunto de soporte de\( \nu \). En el extremo opuesto,\( \mu \perp \nu \) si\( \mu \) y\( \nu \) tienen conjuntos de soporte disjuntos.
Supongamos que\( \mu \)\( \nu \),, y\( \rho \) son medidas sobre\( (S, \ms{S})\). Entonces
- \( \mu \ll \mu \), la propiedad reflexiva.
- Si\( \mu \ll \nu \) y\( \nu \ll \rho \) entonces\( \mu \ll \rho \), la propiedad transitiva.
Recordemos que toda relación reflexiva y transitiva conduce a una relación de equivalencia, y luego a su vez, la relación original puede extenderse a un orden parcial sobre la colección de clases de equivalencia. Este teorema general sobre las relaciones conduce a los dos resultados siguientes.
Las medidas\( \mu \) y\( \nu \) sobre\( (S, \ms{S}) \) son equivalentes si\( \mu \ll \nu \) y\( \nu \ll \mu \), y escribimos\( \mu \equiv \nu \). La relación\(\equiv\) es una relación de equivalencia sobre la recolección de medidas sobre\((S, \ms S)\). Es decir, si\( \mu \),\( \nu \), y\( \rho \) son medidas sobre\( (S, \ms{S}) \) entonces
- \( \mu \equiv \mu \), la propiedad reflexiva
- Si\( \mu \equiv \nu \) entonces\( \nu \equiv \mu \), la propiedad simétrica
- Si\( \mu \equiv \nu \) y\( \nu \equiv \rho \) entonces\( \mu \equiv \rho \), la propiedad transitiva
Así,\( \mu \) y\( \nu \) son equivalentes si tienen los mismos conjuntos nulos y por lo tanto los mismos conjuntos de soporte. Esta relación de equivalencia es bastante débil: las medidas equivalentes tienen los mismos conjuntos de soporte, pero los valores asignados a estos conjuntos pueden ser muy diferentes. Como es habitual, escribiremos\( [\mu] \) para la clase de equivalencia de una medida\( \mu \) sobre\( (S, \ms{S}) \), bajo la relación de equivalencia\( \equiv \).
Si\( \mu \) y\( \nu \) son medidas sobre\( (S, \ms{S}) \), escribimos\( [\mu] \preceq [\nu] \) si\( \mu \ll \nu \). La definición es consistente, y define un orden parcial sobre la colección de clases de equivalencia. Es decir, si\( \mu \),\( \nu \), y\( \rho \) son medidas sobre\( (S, \ms{S}) \) entonces
- \( [\mu] \preceq [\mu] \), la propiedad reflexiva.
- Si\( [\mu] \preceq [\nu] \) y\( [\nu] \preceq [\mu] \) entonces\( [\mu] = [\nu] \), la propiedad antisimétrica.
- Si\( [\mu] \preceq [\nu] \) y\( [\nu] \preceq [\rho] \) entonces\( [\mu] \preceq [\rho] \), la propiedad transitiva
La relación de singularidad es trivialmente simétrica y casi antirreflexiva.
Supongamos que\( \mu \) y\( \nu \) son medidas sobre\( (S, \ms{S}) \). Entonces
- Si\( \mu \perp \nu \) entonces\( \nu \perp \mu \), la propiedad simétrica.
- \( \mu \perp \mu \)si y sólo si\( \mu = \bs 0 \), la medida cero.
Prueba
La parte (a) es trivial a partir de la simetría de la definición. Para la parte (b), tenga en cuenta que\( S \) es nulo para\( 0 \) y\( \emptyset \) es nulo para\( 0 \), entonces\( 0 \perp 0 \). Por el contrario, supongamos que\( \mu \) es una medida y\( \mu \perp \mu \). Entonces existe\( A \in \ms{S} \) tal que\( A \) es nulo para\( \mu \) y\( A^c \) es nulo para\( \mu \). Pero entonces\( S = A \cup A^c \) es nulo para\( \mu \), así\( \mu(B) = 0 \) para cada\( B \in \ms{S} \).
La continuidad absoluta y la singularidad se conservan bajo multiplicación por constantes distintas de cero.
Supongamos que\( \mu \) y\( \nu \) son medidas sobre\( (S, \ms{S}) \) y eso\( a, \, b \in \R \setminus \{0\} \). Entonces
- \( \nu \ll \mu \)si y sólo si\( a \nu \ll b \mu \).
- \( \nu \perp \mu \)si y sólo si\( a \nu \perp b \mu \).
Prueba
Recordemos que si\( c \ne 0 \), entonces\( A \in \ms{S} \) es nulo para\( \mu \) si y solo si\( A \) es nulo para\( c \mu \).
Hay un resultado correspondiente para sumas de medidas.
Supongamos que\( \mu \) es una medida en\( (S, \ms{S}) \) y que\( \nu_i \) es una medida sobre\( (S, \ms{S}) \) para cada uno\( i \) en un conjunto de índices contables\( I \). Supongamos también que\( \nu = \sum_{i \in I} \nu_i \) es una medida bien definida sobre\( (S, \ms{S}) \).
- Si\( \nu_i \ll \mu \) por cada\( i \in I \) entonces\( \nu \ll \mu \).
- Si\( \nu_i \perp \mu \) por cada\( i \in I \) entonces\( \nu \perp \mu \).
Prueba
Recordemos que si\( A \in \ms{S} \) es nulo\( \nu_i \) para cada uno\(i \in I \), entonces\( A \) es nulo para\( \nu = \sum_{i \in I} \nu_i \), asumiendo que esta es una medida bien definida.
Como antes, tenga en cuenta que\( \nu = \sum_{i \in I} \nu_i \) está bien definido si\( \nu_i \) es una medida positiva para cada uno\( i \in I \) o si\( I \) es finita y\( \nu_i \) es una medida finita para cada uno\( i \in I \). Cerramos esta subsección con un par de resultados que involucran tanto la relación de continuidad absoluta como la relación de singularidad
Supongamos que\( \mu \)\( \nu \),, y\( \rho \) son medidas sobre\( (S, \ms{S}) \). Si\( \nu \ll \mu \) y\( \mu \perp \rho \) entonces\( \nu \perp \rho \).
Prueba
Ya que\( \mu \perp \rho \), existe\( A \in \ms{S} \) tal que\( A \) es nulo para\( \mu \) y\( A^c \) es nulo para\( \rho \). Pero\( \nu \ll \mu \) así\( A \) es nulo para\( \nu \). De ahí\( \nu \perp \rho \).
Supongamos que\( \mu \) y\( \nu \) son medidas sobre\( (S, \ms{S}) \). Si\( \nu \ll \mu \) y\( \nu \perp \mu \) entonces\( \nu = \bs 0 \).
Prueba
Del teorema anterior (con\( \rho = \nu \)) tenemos\( \nu \perp \nu \) y por lo tanto por (5),\( \nu = \bs 0 \).
Funciones de Densidad
Ya estamos listos para nuestro estudio de las funciones de densidad. A lo largo de esta subsección, asumimos que\( \mu \) es una medida positiva,\( \sigma \) -finita en nuestro espacio medible\( (S, \ms{S}) \). Recordemos que si\(f: S \to \R\) es medible, entonces la integral de\(f\) con respecto a\(\mu\) puede existir como un número en\(\R^* = \R \cup \{-\infty, \infty\}\) o puede no existir.
Supongamos que\( f: S \to \R \) es una función medible cuya integral con respecto a\( \mu \) existe. Entonces la función\( \nu \) definida por\[ \nu(A) = \int_A f \, d\mu, \quad A \in \ms{S} \] es una medida\( \sigma \) -finita sobre la\( (S, \ms{S}) \) que es absolutamente continua con respecto a\( \mu \). La función\( f \) es una función de densidad de\( \nu \) relativo a\( \mu \).
Prueba
Decir que la integral existe significa que cualquiera\( \int_S f^+ \, d \mu \lt \infty \) o\( \int_S f^- \, d\mu \lt \infty \), donde como de costumbre,\( f^+ \) y\( f^- \) son las partes positivas y negativas de\( f \). Entonces\( \nu(A) = \nu_+(A) - \nu_-(A) \) para\( A \in \ms S \) donde\( \nu_+(A) = \int_A f^+(A) \, d\mu \) y\( \nu_-(A) = \int_A f^-(A) \, d\mu \). Ambos\( \nu_+ \) y\( \nu_- \) son medidas positivas por propiedades básicas de la integral: Genéricamente, supongamos que\( g: S \to [0, \infty) \) es medible. La integral sobre el conjunto vacío es siempre 0, entonces\( \int_\emptyset g \, d\mu = 0 \). A continuación, si\( \{A_i: i \in I\} \) es una colección contable, disjunta de conjuntos en\( \ms{S} \) y\( A = \bigcup_{i \in I} A_i \), luego por la propiedad de aditividad de la integral sobre dominios disjuntos,\[ \int_A g \, d\mu = \sum_{i \in I} \int_{A_i} g \, d\mu \] Por la suposición de que la integral existe, ya sea\( \nu_+ \) o\( \nu_- \) es una medida positiva finita, y por lo tanto \( \nu \)es una medida. Como se puede adivinar,\( \nu_+ \) y\( \nu_- \) formar la descomposición de Jordania de\( \nu \), un punto que volveremos a visitar a continuación.
Nuevamente, ya sea\( \nu_+ \) o\( \nu_- \) es una medida finita. Por simetría, supongamos que eso\( \nu_- \) es finito. Entonces para mostrar que\( \nu \) es\( \sigma \) -finito, solo necesitamos mostrar que\( \nu_+ \) es\( \sigma \) -finito. Ya que\( \mu \) tiene esta propiedad, existe una colección\( \{A_n: n \in \N_+\} \) con\( A_n \in \ms S \),\( \mu(A_n) \lt \infty \), y\( \bigcup_{n=1}^\infty A_n = S \). Dejemos\( B_n = \{x \in S: f^+(x) \le n\} \) para\( n \in \N_+ \). Entonces\( B_n \in \ms S \) para\( n \in \N_+ \) y\( \bigcup_{n=1}^\infty B_n = S \). De ahí\( \{A_m \cap A_n: (m, n) \in \N_+^2\} \) que sea una colección contable de conjuntos mensurables cuya unión también lo es\( S \). Además,\[ \nu_+(A_m \cap B_n) = \int_{A_m \cap B_n} f^+ d\mu \le n \mu(A_m \cap B_n) \lt \infty \] por último, supongamos que\( A \in \ms{S} \) es un conjunto nulo de\( \mu \). Si\( B \in \ms{S} \) y\( B \subseteq A \) entonces\( \mu(B) = 0 \) así\( \nu(B) = \int_B f \, d\mu = 0 \). De ahí\( \nu \ll \mu \).
Los siguientes tres casos especiales son los más importantes:
- Si no\( f \) es negativo (para que la integral exista en\(\R \cup \{\infty\}\)) entonces\( \nu \) es una medida positiva ya que\( \nu(A) \ge 0 \) para\( A \in \ms{S} \).
- Si\( f \) es integrable (para que la integral exista en\(\R\)), entonces\( \nu \) es una medida finita ya que\( \nu(A) \in \R \) para\( A \in \ms{S} \).
- Si no\( f \) es negativo y\( \int_S f \, d\mu = 1 \) entonces\( \nu \) es una medida de probabilidad ya que\( \nu(A) \ge 0 \) para\( A \in \ms{S} \) y\( \nu(S) = 1 \).
En el caso 3,\( f \) es la función de densidad de probabilidad\( \nu \) relativa a\( \mu \), nuestro tipo favorito de función de densidad. Cuando existen, las funciones de densidad son esencialmente únicas.
Supongamos que\( \nu \) es una medida\( \sigma \) -finita sobre\( (S, \ms{S}) \) y que\( \nu \) tiene función de densidad\( f \) con respecto a\( \mu \). Entonces\( g: S \to \R \) es una función de densidad de\( \nu \) con respecto a\( \mu \) si y solo si\( f = g \) casi en todas partes\( S \) con respecto a\( \mu \).
Prueba
Estos resultados también se derivan de las propiedades básicas de la integral. Supongamos que\( f, \, g: S \to \R \) son funciones medibles cuyas integrales con respecto a\( \mu \) existir. Si\( g = f \) casi en todas partes\( S \) con respecto a\( \mu \) entonces\( \int_A f \, d\mu = \int_A g \, d\mu \) para cada\( A \in \ms{S} \). De ahí\( f \) que si es una función de densidad para\( \nu \) con respecto a\( \mu \) entonces así es\( g \). Por el contrario, si\( \int_A f \, d\mu = \int_A g \, d\mu \) por cada\( A \in \ms{S} \), entonces desde\( \mu \) es\( \sigma \) -finito, se deduce que\( f = g \) casi en todas partes\( S \) con respecto a\( \mu \).
La singularidad esencial de las funciones de densidad puede fallar si el espacio de medida positiva no\( (S, \ms S, \mu) \) es\( \sigma \) -finito. A continuación se da un ejemplo sencillo. Nuestro siguiente resultado responde a la pregunta de cuándo una medida tiene una función de densidad con respecto a\( \mu \), y es el teorema fundamental de esta sección. El teorema está en dos partes: La parte (a) es el teorema de descomposición de Lebesgue, llamado así por nuestro viejo amigo Henri Lebesgue. La parte (b) es el teorema de Radón-Nikodym, llamado así por Johann Radon y Otto Nikodym. Combinamos los teoremas porque nuestras pruebas de los dos resultados están inextricablemente vinculadas.
Supongamos que\( \nu \) es una medida\( \sigma \) -finita en\( (S, \ms{S}) \).
- Teorema de Descomposición de Lebesgue. \( \nu \)se puede descomponer de manera única como\( \nu = \nu_c + \nu_s \) dónde\( \nu_c \ll \mu \) y\( \nu_s \perp \mu \).
- Teorema de Radón-Nikodym. \( \nu_c \)tiene una función de densidad con respecto a\( \mu \).
Prueba
La prueba procede por etapas. primero probamos el resultado para medidas finitas, positivas, luego para medidas\( \sigma \) -finitas, positivas, y finalmente para medidas generales\( \sigma \) -finitas. La primera etapa es la más complicada.
Parte 1, supongamos que\( \mu \) y\( \nu \) son medidas positivas, finitas. Dejar\( \ms{F} \) denotar la colección de funciones medibles\( g: S \to [0, \infty) \) con\( \int_A g \, d\mu \le \nu(A) \) para todos\( A \in \ms{S} \). Tenga en cuenta que\( \ms{F} \ne \emptyset\) ya que la función constante\( 0 \) está en\( \ms{F} \). La prueba funciona encontrando un elemento máximo de\( \ms{F} \) y utilizando esta función como la función de densidad de la parte absolutamente continua de\( \nu \).
Nuestro primer paso es demostrar que\( \ms{F} \) está cerrado bajo el operador máximo. Vamos\( g_1, \; g_2 \in \ms{F} \). Para\( A \in \ms{S} \), vamos\( A_1 = \{x \in A: g_1(x) \ge g_2(x)\} \) y\( A_2 = \{x \in A: g_1(x) \lt g_2(x)\} \). Entonces\( A_1, \; A_2 \in \ms{S} \) particionar\( A \) así\[ \int_A \max\{g_1, g_2\} \, d\mu = \int_{A_1} \max\{g_1, g_2\} \, d\mu + \int_{A_2} \max\{g_1, g_2\} d\mu = \int_{A_1} g_1 \, d\mu + \int_{A_2} g_2 \, d\mu \le \nu(A_1) + \nu(A_2) = \nu(A) \] Por lo tanto\( \max\{g_1, g_2\} \in \ms{F} \).
Nuestro siguiente paso es demostrar que\( \ms{F} \) está cerrado con respecto a límites crecientes. Así supongamos que\( g_n \in \ms{F} \) para\( n \in \N_+ \) y eso\( g_n \) va aumentando\( n \) en el\( S \). Vamos\( g = \lim_{n \to \infty} g_n \). Entonces\( g: S \to [0, \infty] \) es medible, y por el teorema de convergencia monótona,\( \int_A g \, d\mu = \lim_{n \to \infty} \int_A g_n \, d\mu \) para cada uno\( A \in \ms{S} \). Pero\( \int_A g_n \, d\mu \le \nu(A) \) de cada uno\( n \in \N_+ \)\( \int_A g \, d\mu \le \nu(A) \). En particular,\( \int_S g \, d\mu \le \nu(S) \lt \infty \) por lo que en\( g \lt \infty \) casi todas partes\( S \) con respecto a\( \mu \). Así, al redefinir\( g \) en un conjunto\( \mu \) -null si es necesario, podemos asumir\( g \lt \infty \) on\( S \). De ahí\( g \in \ms{F} \).
Ahora vamos\( \alpha = \sup\left\{\int_S g \, d\mu: g \in \ms{F}\right\} \). Tenga en cuenta que\( \alpha \le \nu(S) \lt \infty\). Por definición de lo supremo, para cada uno\( n \in \N_+ \) existe\( g_n \in \ms{F} \) tal que\( \int_S g_n \, d\mu \gt \alpha - \frac{1}{n} \). Ahora vamos\( f_n = \max\{g_1, g_2, \ldots, g_n\} \) por\( n \in \N_+ \). Entonces\( f_n \in \ms{F} \) y\( f_n \) va aumentando en\( n \in \N_+ \) el\( S \). De ahí\( f = \lim_{n \to \infty} f_n \in \ms{F} \) y\( \int_S f \, d\mu = \lim_{n \to \infty} \int_S f_n \, d\mu \). Pero\( \int_S f_n \, d\mu \ge \int_S g_n \, d\mu \gt \alpha - \frac{1}{n} \) para cada uno\( n \in \N_+ \) y por lo tanto\( \int_S f \, d\mu \ge \alpha \).
Definir\( \nu_c(A) = \int_A f \, d\mu \) y\( \nu_s(A) = \nu(A) - \nu_c(A) \) para\( A \in \ms{S} \). Entonces\( \nu_c \) y\( \nu_s \) son finitas, medidas positivas y por nuestro teorema anterior,\( \nu_c \) es absolutamente continuo con respecto\( \mu \) y tiene función de densidad\( f \). Nuestro siguiente paso es demostrar que\( \nu_s \) es singular con respecto a\( \mu \). Para\( n \in \N \), vamos a\( (P_n, P_n^c) \) denotar una descomposición de Hahn de la medida\( \nu_s - \frac{1}{n} \mu \). Entonces\[ \int_A \left(f + \frac{1}{n} \bs{1}_{P_n}\right) \, d\mu = \nu_c(A) + \frac{1}{n} \mu(P_n \cap A) = \nu(A) - \left[\nu_s(A) - \frac{1}{n} \mu(P_n \cap A)\right] \] Pero\( \nu_s(A) - \frac{1}{n} \mu(P_n \cap A) \ge \nu_s(A \cap P_n) - \frac{1}{n} \mu(A \cap P_n) \ge 0 \) ya que\( \nu_s \) es una medida positiva y\( P_n \) es positiva para\( \nu_s - \frac{1}{n} \mu \). Así tenemos\( \int_A \left(f + \frac{1}{n} \bs{1}_{P_n} \right) \, d\mu \le \nu(A) \) para cada\( A \in \ms{S} \), así\( f + \frac{1}{n} \bs{1}_{P_n} \in \ms{F} \) para cada\( n \in \N_+ \). Si\( \mu(P_n) \gt 0 \) entonces\( \int_S \left(f + \frac{1}{n} \bs{1}_{P_n}\right) \, d\mu = \alpha + \frac{1}{n} \mu(P_n) \gt \alpha \), lo que contradice la definición de\( \alpha \). De ahí que debemos tener\( \mu(P_n) = 0 \) para cada\( n \in \N_+ \). Ahora vamos\( P = \bigcup_{n=1}^\infty P_n \). Entonces\( \mu(P) = 0 \). Si\( \nu_s(P^c) \gt 0 \) entonces\( \nu_s(P^c) - \frac{1}{n} \mu(P^c) \gt 0 \) por\( n \) suficientemente grande. Pero esto es una contradicción ya\( P^c \subseteq P_n^c \) que es negativa\( \nu_s - \frac{1}{n} \mu \) para cada uno\( n \in \N_+ \). Así debemos tener\( \nu_s(P^c) = 0 \), así\( \mu \) y\( \nu_s \) somos singulares.
Parte 2. Supongamos que\( \mu \) y\( \nu \) son\( \sigma \) -finitas, medidas positivas. Entonces existe una partición contable\( \{S_i: i \in I\} \) de\( S \) dónde\( S_i \in \ms{S} \) para\( i \in I \),\( \mu(S_i) \lt \infty \) y\( \nu(S_i) \lt \infty \) para\( i \in I \). Dejar\( \mu_i(A) = \mu(A \cap S_i) \) y\( \nu_i(A) = \nu(A \cap S_i) \) para\( i \in I \). Entonces\( \mu_i \) y\( \nu_i \) son finitas, medidas positivas para\( i \in I \), y\( \mu = \sum_{i \in I} \mu_i \) y\( \nu = \sum_{i \in I} \nu_i \). Por parte 1, para cada uno\( i \in I \), existe una función medible\( f_i: S \to [0, \infty) \) tal que\( \nu_i = \nu_{i,c} + \nu_{i,s} \) donde\( \nu_{i, c}(A) = \int_A f_i \, d\mu \) para\( A \in \ms{S} \) y\( \nu_{i,s} \perp \mu \). Vamos\( f = \sum_{i \in I} \bs{1}_{A_i} f_i \). Entonces\( f: S \to [0, \infty) \) es medible. Definir\( \nu_c(A) = \int_A f \, d\mu \) y\( \nu_s(A) = \nu(A) - \nu_c(A) \) para\( A \in \ms{S} \). Tenga en cuenta que\( \nu_c = \sum_{i \in I} \nu_{i,c} \) y\( \nu_s = \sum_{i \in I} \nu_{i,s} \). Entonces\( \nu_c \ll \mu \) y tiene función de densidad\( f \) y\( \nu_s \perp \mu \).
Parte 3. Supongamos que\( \nu \) es una medida\( \sigma \) -finita (no necesariamente positiva). Por el teorema de descomposición de Jordania,\( \nu = \nu_+ - \nu_- \) donde\( \nu_+ \) y\( \nu_- \) son\( \sigma \) -finitos, medidas positivas, y al menos uno es finito. Por parte 2, existen funciones medibles\( f_+: S \to [0, \infty) \) y\( f_-: S \to [0, \infty) \) tales que\( \nu_+ = \nu_{+,c} + \nu_{+,s} \) y\( \nu_- = \nu_{-,c} + \nu_{-,s} \) donde\( \nu_{+,c}(A) = \int_A f_+ \, d\mu \),\( \nu_{-,c} = \int_A f_- \, d\mu \) para\( A \in \ms{S} \), y\( \nu_{+,s} \perp \mu \),\( \nu_{-,s} \perp \mu \). Vamos\( f = f_+ - f_- \),\( \nu_c(A) = \int_A f \, d\mu \),\(\nu_s(A) = \nu(A) - \nu_c(A) \) para\( A \in \ms{S} \). Entonces\( \nu = \nu_c + \nu_s \) y\( \nu_s = \nu_{+,s} - \nu_{-,s} \perp \mu \).
Singularidad. Supongamos que\( \nu = \nu_{c,1} + \nu_{s,1} = \nu_{c,2} + \nu_{s,2} \) donde\( \nu_{c,i} \ll \mu \) y\( \nu_{s,i} \perp \mu \) para\( i \in \{1, 2\} \). Entonces\( \nu_{c,1} - \nu_{c,2} = \nu_{s,2} - \nu_{s,1} \). Pero\( \nu_{c,1} - \nu_{c,2} \ll \mu \) y\( \nu_{s,2} - \nu_{s,1} \perp \mu \) así\( \nu_{c,1} - \nu_{c,2} = \nu_{s,2} - \nu_{s,1} = \bs 0 \) por el teorema anterior
En particular, una medida\( \nu \) on\( (S, \ms{S}) \) tiene una función de densidad con respecto a\( \mu \) si y solo si\( \nu \ll \mu \). La función de densidad en este caso también se conoce como la derivada Radon-Nikodym de\( \nu \) con respecto a\( \mu \) y a veces se escribe en notación derivada como\( d\nu / d\mu \). Esta notación, sin embargo, puede ser un poco engañosa porque necesitamos recordar que una función de densidad es única solo hasta un conjunto\( \mu \) -null. Además, el teorema de Radón-Nikodym puede fallar si el espacio de medida positiva no\( (S, \ms S, \mu) \) es\( \sigma \) -finito. A continuación se dan un par de ejemplos. A continuación caracterizamos la descomposición de Hahn y la descomposición de Jordania\( \nu \) en términos de la función de densidad.
Supongamos que\( \nu \) es una medida\( (S, \ms{S}) \) con\( \nu \ll \mu \), y que\( \nu \) tiene función de densidad\( f \) con respecto a\( \mu \). Dejar\( P = \{x \in S: f(x) \ge 0\} \), y dejar\( f^+ \) y\( f^- \) denotar las partes positivas y negativas de\( f \).
- Una descomposición de Hahn de\( \nu \) es\( (P, P^c) \).
- La descomposición de Jordania es\( \nu = \nu_+ - \nu_- \) donde\( \nu_+(A) = \int_A f^+ \, d\mu \) y\( \nu_-(A) = \int_A f^- \, d\mu\), para\( A \in \ms{S} \).
Prueba
Por supuesto\(P^c = \{x \in S: f(x) \lt 0\}\). Las pruebas son simples.
- Supongamos que\(A \in \ms S\). Si\(A \subseteq P\) entonces\(f(x) \ge 0\) por\(x \in A\) y por lo tanto\(\nu(A) = \int_A f \, d\mu \ge 0\). Si\(A \subseteq P^c\) entonces\(\nu(A) = \int_A f \, d\mu \le 0\).
- Esto se desprende inmediatamente de (a) y el teorema de descomposición de Jordania, desde\(\nu_+(A) = \nu(A \cap P)\) y\(\nu_-(A) = -\nu(A \cap P^c)\) para\(A \in \ms S\). Tenga en cuenta que\( f^+ = \bs 1_P f \) y\( f^- = -\bs 1_{P^c} f \).
El siguiente resultado es un cambio básico de teorema de variables para integrales.
Supongamos que\( \nu \) es una medida positiva en\( (S, \ms{S}) \) con\( \nu \ll \mu \) y que\( \nu \) tiene función de densidad\( f \) con respecto a\( \mu \). Si\( g: S \to \R \) es una función medible cuya integral con respecto a\( \nu \) existe, entonces\[ \int_S g \, d\nu = \int_S g f \, d\mu \]
Prueba
La prueba es un argumento clásico de bootstrapping. Supongamos primero que\( g = \sum_{i \in I} a_i \bs{1}_{A_i} \) es una función simple no negativa. Es decir,\( I \) es un conjunto de índices finitos,\( a_i \in [0, \infty) \) para\( i \in I \), y\( \{A_i: i \in I\} \) es una colección disjunta de conjuntos en\( \ms{S} \). Entonces\( \int_S g \, d\nu = \sum_{i \in I} a_i \nu(A_i) \). Pero\( \nu(A_i) = \int_{A_i} f \, d\mu = \int_S \bs{1}_{A_i} f \, d\mu \) para cada uno\( i \in I \) así\[ \int_S g \, d\mu = \sum_{i \in I} a_i \int_S \bs{1}_{A_i} f \, d\mu = \int_S \left(\sum_{i \in I} a_i \bs{1}_{A_i}\right) f \, d\mu = \int_S g f \, d\mu \] Supongamos siguiente que\( g: S \to [0, \infty) \) es mensurable. Existe una secuencia de funciones simples no negativas\( (g_1, g_2, \ldots) \) tal que\( g_n \) está aumentando en\( n \in \N_+ \) encendido\( S \) y\( g_n \to g \) como\( n \to \infty \) encendido\( S \). Dado que no\( f \) es negativo,\( g_n f \) está aumentando\( n \in \N_+ \) en\( S \) y\( g_n f \to g f \) como\( n \to \infty \) en\( S \). Por el primer paso,\( \int_S g_n \, d\nu = \int_S g_n f \, d\mu \) para cada uno\( n \in \N_+ \). Pero por el teorema de convergencia monótona,\( \int_S g_n \, d\nu \to \int_S g \, d\nu \) y\( \int_S g_n f \, d\mu \to \int_S g f \, d\mu \) como\( n \to \infty \). De ahí\( \int_S g \, d\nu = \int_S g f \, d\mu \).
Por último, supongamos que\( g: S \to \R \) es una función medible cuya integral con respecto a\( \nu \) existe. Por el paso anterior,\( \int_S g^+ \, d\nu = \int_S g^+ f \, d\mu \) y\( \int_S g^- \, d\nu = \int_S g^- f \, d\mu \), y al menos una de estas integrales es finita. Por lo tanto, por la propiedad aditiva\[ \int_S g \, d\nu = \int_S g^+ \, d\nu - \int_S g^- \, d\nu = \int_S g^+ f \, d\mu - \int_S g^- f \, d\mu = \int_S (g^+ - g^-) f \, d\mu = \int_S g f \, d\mu \]
En notación diferencial, el teorema del cambio de variables tiene la forma familiar\( d\nu = f \, d\mu \), y esta es realmente la justificación para la notación derivada\( f = d\nu / d\mu \) en primer lugar. El siguiente resultado da la regla escalar múltiple para las funciones de densidad.
Supongamos que\( \nu \) es una medida\( (S, \ms{S}) \) con\( \nu \ll \mu \) y que\( \nu \) tiene función de densidad\( f \) con respecto a\( \mu \). Si\( c \in \R \), entonces\( c \nu \) tiene función de densidad\( c f \) con respecto a\( \mu \).
Prueba
Si\( A \in \ms{S} \) entonces\( \int_A c f \, d\mu = c \int_A f \, d\mu = c \nu(A) \).
Por supuesto, ya sabíamos que eso\( \nu \ll \mu \) implica\( c \nu \ll \mu \) para\( c \in \R \), por lo que la nueva información es la relación entre las funciones de densidad. En notación derivada, la regla múltiple escalar tiene la forma familiar\[ \frac{d(c \nu)}{d\mu} = c \frac{d\nu}{d\mu} \]
El siguiente resultado da la regla de suma para las funciones de densidad. Recordemos que dos medidas son del mismo tipo si ninguna toma el valor\( \infty \) o si ninguna toma el valor\( -\infty \).
Supongamos que\( \nu \) y\( \rho \) son medidas on\( (S, \ms{S}) \) del mismo tipo con\( \nu \ll \mu \) y\( \rho \ll \mu \), y eso\( \nu \) y\( \rho \) tienen funciones de densidad\( f \) y\( g \) con respecto a\( \mu \), respectivamente. Entonces\( \nu + \rho \) tiene función de densidad\( f + g \) con respecto a\( \mu \).
Prueba
Si\( A \in \ms{S} \) entonces\[ \int_A (f + g) \, d\mu = \int_A f \, d\mu + \int_A g \, d\mu = \nu(A) + \rho(A) \] La propiedad aditiva se mantiene porque sabemos que las integrales en el medio de la ecuación mostrada no son de la forma\( \infty - \infty \).
Por supuesto, eso ya lo sabíamos\( \nu \ll \mu \) e\( \rho \ll \mu \) implicamos\( \nu + \rho \ll \mu \), por lo que la nueva información es la relación entre las funciones de densidad. En notación derivada, la regla de suma tiene la forma familiar\[ \frac{d(\nu + \rho)}{d\mu} = \frac{d\nu}{d\mu} + \frac{d\rho}{d\mu} \] El siguiente resultado es la regla de cadena para las funciones de densidad.
Supongamos que\( \nu \) es una medida positiva en\( (S, \ms{S}) \) con\( \nu \ll \mu \) y que\( \nu \) tiene función de densidad\( f \) con respecto a\( \mu \). Supongamos que\( \rho \) es una medida\( (S, \ms{S}) \) con\( \rho \ll \nu \) y que\( \rho \) tiene función de densidad\( g \) con respecto a\( \nu \). Entonces\( \rho \) tiene función de densidad\( g f \) con respecto a\( \mu \).
Prueba
Esta es una consecuencia simple del cambio de variables teorema anterior. Si\( A \in \ms{S} \) entonces\( \rho(A) = \int_A g \, d\nu = \int_A g f \, d\mu \).
Por supuesto, eso ya lo sabíamos\( \nu \ll \mu \) e\( \rho \ll \nu \) implicamos\( \rho \ll \mu \), así que una vez más la nueva información es la relación entre las funciones de densidad. En notación derivada, la regla chan tiene la forma familiar\[ \frac{d\rho}{d\mu} = \frac{d\rho}{d\nu} \frac{d\nu}{d\mu}\] El siguiente resultado relacionado es la regla inversa para las funciones de densidad.
Supongamos que\( \nu \) es una medida positiva sobre\( (S, \ms{S}) \) con\( \nu \ll \mu \) y\( \mu \ll \nu \) (así que\( \nu \equiv \mu \)). Si\( \nu \) tiene función de densidad\( f \) con respecto a\( \mu \) entonces\( \mu \) tiene función de densidad\( 1 / f \) con respecto a\( \nu \).
Prueba
Dejar\( f \) ser una función de densidad de\( \nu \) con respecto a\( \mu \) y dejar\( Z = \{x \in S: f(x) = 0\} \). \( \nu(Z) = \int_Z f \, d\mu = 0 \)Entonces así\( Z \) es un conjunto nulo de\( \nu \) y por lo tanto también es un conjunto nulo de\( \mu \). Así, podemos suponer que\( f \ne 0 \) en\( S \). Dejar\( g \) ser una densidad de\( \mu \) con respecto a\( \nu \). Ya que\( \mu \ll \nu \ll \mu \), se desprende de la regla de la cadena que\( f g \) es una densidad de\( \mu \) con respecto a\( \mu \). Pero claro que la función constante\( 1 \) es también una densidad de\( \mu \) con respecto a sí misma así que tenemos\( f g = 1 \) casi en todas partes en\( S \). Así\( 1 / f \) es una densidad de\( \mu \) con respecto a\( \nu \).
En notación derivada, la regla inversa tiene la forma familiar\[ \frac{d\mu}{d\nu} = \frac{1}{d\nu / d\mu}\]
Ejemplos y Casos Especiales
Espacios Discretos
Recordemos que un espacio de medida discreto\((S, \ms S, \#)\) consiste en un conjunto contable\( S \) con el\(\sigma\) álgebra\( \ms{S} = \ms{P}(S) \) de todos los subconjuntos de\( S \), y con la medida de conteo\( \# \). Por supuesto\( \# \) que es una medida positiva y es trivialmente\( \sigma \) -finita ya que\( S \) es contable. Tenga en cuenta también que\( \emptyset \) es el único conjunto que es nulo para\( \# \). Si\( \nu \) es una medida sobre\( S \), entonces por definición,\( \nu(\emptyset) = 0 \), por lo que\( \nu \) es absolutamente continuo relativo a\( \mu \). Así, por el teorema de Radón-Nikodym, se\( \nu \) puede escribir en la forma\[ \nu(A) = \sum_{x \in A} f(x), \quad A \subseteq S \] para un único\( f: S \to \R \). Por supuesto, esto es obvio por un argumento directo. Si definimos\( f(x) = \nu\{x\} \) para\( x \in S \) entonces la ecuación mostrada sigue por la aditividad contable de\( \nu \).
Espacios Generados por Particiones Contables
Podemos generalizar la última discusión a espacios generados por particiones contables. Supongamos que\( S \) es un conjunto y que\( \ms{A} = \{A_i: i \in I\} \) es una partición contable de\( S \) en conjuntos no vacíos. Dejemos\( \ms{S} = \sigma(\ms{A}) \) y recordemos que cada uno\( A \in \ms{S} \) tiene una representación única de la forma\( A = \bigcup_{j \in J} A_j \) donde\( J \subseteq I \). Suppse ahora que\( \mu \) es una medida positiva en\( \ms{S} \) con\( 0 \lt \mu(A_i) \lt \infty \) para cada\( i \in I \). Entonces una vez más, el espacio de medida\( (S, \ms{S}, \mu) \) es\( \sigma \) -finito y\( \emptyset \) es el único conjunto nulo. De ahí\( \nu \) que si es una medida en\( (S, \ms{S}) \) entonces\( \nu \) es absolutamente continuo con respecto\( \mu \) y por lo tanto tiene una función de densidad única\( f \) con respecto a\( \mu \):\[ \nu(A) = \int_A f \, d\mu, \quad A \in \ms{S} \] Una vez más, podemos construir la función de densidad explícitamente.
En el ajuste anterior, defina\( f: S \to \R \) por\( f(x) = \nu(A_i) / \mu(A_i) \) for\( x \in A_i \) y\( i \in I \). Entonces\( f \) es la densidad de\( \nu \) con respecto a\( \mu \).
Prueba
Supongamos\( A \in \ms{S} \) eso\( A = \bigcup_{j \in J} A_j \) para que para algunos\( J \subseteq I \). Entonces\[ \int_A f \, d\mu = \sum_{j \in J} \int_{A_j} f \, d\mu = \sum_{j \in J} \frac{\nu(A_j)}{\mu(A_j)} \mu(A_j) = \sum_{j \in J} \nu(A_j) = \nu(A) \]
A menudo, los espacios de medida positiva que ocurren en las aplicaciones se pueden descomponer en espacios generados por particiones contables. En la sección de Convergencia en el capítulo sobre Martingales, mostramos que las funciones de densidad más generales se pueden obtener como límites de funciones de densidad del tipo en el último teorema.
Espacios de probabilidad
Supongamos que\( (\Omega, \ms{F}, \P) \) es un espacio de probabilidad y que\( X \) es una variable aleatoria que toma valores en un espacio medible\( (S, \ms{S}) \). Recordemos que la distribución de\( X \) es la medida de probabilidad\( P_X \) en\( (S, \ms{S}) \) dada por\[ P_X(A) = \P(X \in A), \quad A \in \ms{S} \] Si\( \mu \) es una medida positiva,\( \sigma \) -medida finita en\( (S, \ms{S}) \), entonces la teoría de esta sección aplica, por supuesto. El teorema de Radón-Nikodym nos dice precisamente cuándo (la distribución de)\( X \) tiene una función de densidad de probabilidad con respecto a\( \mu \): necesitamos que la distribución sea absolutamente continua con respecto a\( \mu \): si\( \mu(A) = 0 \) entonces\(P_X(A) = \P(X \in A) = 0 \) para\( A \in \ms{S} \).
Supongamos que\( r: S \to \R \) es medible, de modo que\( r(X) \) es una variable aleatoria de valor real. La integral de\( r(X) \) (asumiendo que existe) es de fundamental importancia, y se conoce como el valor esperado de\( r(X) \). Estudiaremos en detalle los valores esperados en el siguiente capítulo, pero aquí solo notamos diferentes formas de escribir la integral. Por el cambio de teorema de variables en la última sección tenemos\[ \int_\Omega r[X(\omega)] d\P(\omega) = \int_S r(x) dP_X(x) \] Suponiendo que\( P_X \), la distribución de\( X \), es absolutamente continua con respecto a\( \mu \), con función de densidad\( f \), podemos agregar a nuestra cadena de integrales usando Teorema (14):\[ \int_\Omega r[X(\omega)] d\P(\omega) = \int_S r(x) dP_X(x) = \int_S r(x) f(x) d\mu(x)\]
Especializándose, supongamos que\( (S, \ms S, \#) \) es un espacio de medida discreto. Así\( X \) tiene una distribución discreta y (como se señaló en la subsección anterior), la distribución de\( X \) es absolutamente continua con respecto a\(\#\), con función de densidad de probabilidad\( f \) dada por\( f(x) = \P(X = x) \) for\( x \in S \). En este caso la integral simplifica:\[ \int_\Omega r[X(\omega)] d\P(\omega) = \sum_{x \in S} r(x) f(x) \]
Recordemos a continuación que para\(n \in \N_+\), el espacio de medida euclidiana\(n\) -dimensional es\((\R^n, \ms R_n, \lambda_n)\) donde\(\ms R_n\) está el\(\sigma\) -álgebra de conjuntos medibles de Lebesgue y\(\lambda_n\) es la medida de Lebesgue. Supongamos ahora que\( S \in \ms R_n \) y que\( \ms{S} \) es el\( \sigma \) -álgebra de Lebesgue subconjuntos medibles de\( S \), y que una vez más,\(X\) es una variable aleatoria con valores en\(S\). Por definición,\( X \) tiene una distribución continua si es\( \P(X = x) = 0 \) para\( x \in S \). Pero ahora sabemos que esto no es suficiente para asegurar que la distribución de\( X \) tenga una función de densidad con respecto a\( \lambda_n \). Necesitamos que la distribución sea absolutamente continua, de modo que si\( \lambda_n(A) = 0 \) entonces\( \P(X \in A) = 0 \) por\( A \in \ms{S} \). Por supuesto\( \lambda_n\{x\} = 0 \) para\( x \in S \), entonces la continuidad absoluta implica continuidad, pero no a la inversa. La continuidad de la distribución es una condición (mucho) más débil que la continuidad absoluta de la distribución. Si la distribución de\( X \) es continua pero no absolutamente así, entonces la distribución no tendrá una función de densidad con respecto a\( \lambda_n \).
Por ejemplo, supongamos que\(\lambda_n(S) = 0\). Entonces la distribución de\( X \) y\( \lambda_n \) son mutuamente singulares ya que\( \P(X \in S) = 1 \) y así no\(X\) tendrán una función de densidad con respecto a\(\lambda_n\). Este siempre será el caso si\(S\) es contable, de manera que la distribución de\(X\) es discreta. Pero también es posible\(X\) para tener una distribución continua en un conjunto incontable\( S \in \ms R_n \) con\(\lambda_n(S) = 0\). En tal caso, se dice que la distribución continua de\( \bs{X} \) es degenerada. Hay un par de formas naturales en las que esto puede suceder que se ilustran en los siguientes ejercicios.
Supongamos que\(\Theta\) se distribuye uniformemente en el intervalo\([0, 2 \pi)\). Vamos\(X = \cos \Theta\),\(Y = \sin \Theta\).
- \((X, Y)\)tiene una distribución continua en el círculo\(C = \{(x, y): x^2 + y^2 = 1\}\).
- La distribución de\((X, Y)\) y\(\lambda_2\) son mutuamente singulares.
- Encuentra\(\P(Y \gt X)\).
Solución
- Si\((x, y) \in C\) entonces existe un único\(\theta \in [0, 2 \pi)\) con\(x = \cos \theta\) y\(y = \sin \theta\). De ahí\(\P[(X, Y) = (x, y)] = \P(\Theta = \theta) = 0\).
- \(\P[(X, Y) \in C] = 1\)pero\(\lambda_2(C) = 0\).
- \(\frac{1}{2}\)
El último ejemplo es artificial ya que\((X, Y)\) tiene una distribución unidimensional en cierto sentido, a pesar de tomar valores\(\R^2\). Y por supuesto\(\Theta\) tiene una función de densidad de probabilidad\(f\) con repsect\(\lambda_1\) dada por\(f(\theta) = 1 / 2 \pi\) for\(\theta \in [0, 2 \pi)\).
Supongamos que\(X\) se distribuye uniformemente en el conjunto\(\{0, 1, 2\}\),\(Y\) se distribuye uniformemente en el intervalo\([0, 2]\), y eso\(X\) y\(Y\) son independientes.
- \((X, Y)\)tiene una distribución continua en el conjunto de productos\(S = \{0, 1, 2\} \times [0, 2]\).
- La distribución de\((X, Y)\) y\(\lambda_2\) son mutuamente singulares.
- Encuentra\(\P(Y \gt X)\).
Solución
- Las variables son independientes y\(Y\) tiene una distribución continua así que\(\P[(X, Y) = (x, y)] = \P(X = 2) \P(Y = y) = 0\) para\((x, y) \in S\).
- \ P [(X, Y)\ en S] = 1\) pero\(\lambda_2(S) = 0\)
- \(\frac{1}{2}\)
El último ejercicio es artificial ya que\(X\) tiene una distribución discreta en\(\{0, 1, 2\}\) (con todos los subconjuntos medibles y con\(\#\)), y\(Y\) una distribución continua en el espacio euclidiano\([0, 2]\) (con subconjuntos mearuables de Lebesgue y con\(\lambda\)). Ambos son absolutamente continuos;\( X \) tiene función de densidad\( g \) dada por\( g(x) = 1/3 \) for\( x \in \{0, 1, 2\} \) y\( Y \) tiene función de densidad\( h \) dada por\( h(y) = 1 / 2 \) for\( y \in [0, 2] \). Entonces realmente, el espacio de medida adecuado\(S\) es el espacio de medida del producto formado a partir de estos dos espacios. Relativo a este espacio de producto\((X, Y)\) tiene una densidad\(f\) dada por\(f(x, y) = 1/6\) for\((x, y) \in S\).
También es posible tener una distribución continua\(S \subseteq \R^n\) con\(\lambda_n(S) \gt 0\), pero aún sin función de densidad de probabilidad, una situación mucho más interesante. Daremos una construcción clásica. Dejar\((X_1, X_2, \ldots)\) ser una secuencia de ensayos de Bernoulli con parámetro de éxito\(p \in (0, 1)\). Indicaremos la dependencia de la medida\(\P\) de probabilidad del parámetro\(p\) con un subíndice. Así, tenemos una secuencia de variables indicadoras independientes con
\[\P_p(X_i = 1) = p, \quad \P_p(X_i = 0) = 1 - p\]
Interpretamos\(X_i\) como el dígito binario\(i\) th (bit) de una variable aleatoria\(X\) tomando valores en\((0, 1)\). Es decir,\(X = \sum_{i=1}^\infty X_i / 2^i\). Por el contrario, recordemos que cada número\(x \in (0, 1)\) puede escribirse en forma binaria como\(x = \sum_{i=1}^\infty x_i / 2^i \) donde\( x_i \in \{0, 1\} \) para cada uno\( i \in \N_+ \). Esta representación es única excepto cuando\(x \) es un binario racional de la forma\(x = k / 2^n\) para\( n \in \N_+ \) y\(k \in \{1, 3, \ldots 2^n - 1\}\). En este caso, hay dos representaciones, una en la que los bits son eventualmente 0 y otra en la que los bits son eventualmente 1. Tenga en cuenta, sin embargo, que el conjunto de racionales binarios es contable. Por último, tenga en cuenta que la distribución uniforme sobre\( (0, 1) \) es la misma que la medida de Lebesgue on\( (0, 1) \).
\(X\)tiene una distribución continua\( (0, 1) \) encendida para cada valor del parámetro\( p \in (0, 1) \). Por otra parte,
- Si\( p, \, q \in (0, 1) \) y\( p \ne q \) entonces la distribución de\( X \) con parámetro\( p \) y la distribución de\( X \) con parámetro\( q \) son mutuamente singulares.
- Si\( p = \frac{1}{2} \),\( X \) tiene la distribución uniforme encendida\( (0, 1) \).
- Si\( p \ne \frac{1}{2} \), entonces la distribución de\( X \) es singular con respecto a Lebesgue medida on\( (0, 1) \), y por lo tanto no tiene función de densidad de probabilidad en el sentido habitual.
Prueba
Si no\(x \in (0, 1)\) es un binario racional, entonces\[ \P_p(X = x) = \P_p(X_i = x_i \text{ for all } i \in \N_+) = \lim_{n \to \infty} \P_p(X_i = x_i \text{ for } i = 1, \; 2 \ldots, \; n) = \lim_{n \to \infty} p^y (1 - p)^{n - y} \] dónde\( y = \sum_{i=1}^n x_i \). Vamos\(q = \max\{p, 1 - p\}\). Entonces\(p^y (1 - p)^{n - y} \le q^n \to 0\) como\(n \to \infty\). De ahí,\(\P_p(X = x) = 0\). Si\(x \in (0, 1)\) es un binario racional, entonces hay dos cadenas de bits que representan\(x\), digamos\((x_1, x_2, \ldots)\) (con bits eventualmente 0) y\((y_1, y_2, \ldots)\) (con bits eventualmente 1). De ahí\(\P_p(X = x) = \P_p(X_i = x_i \text{ for all } i \in \N_+) + \P_p(X_i = y_i \text{ for all } i \in \N_+)\). Pero ambas probabilidades son 0 por el mismo argumento que antes.
A continuación, definimos el conjunto de números para los que es la frecuencia relativa limitante de 1's\(p\). Vamos\(C_p = \left\{ x \in (0, 1): \frac{1}{n} \sum_{i = 1}^n x_i \to p \text{ as } n \to \infty \right\} \). Tenga en cuenta que dado que los límites son únicos,\(C_p \cap C_q = \emptyset\) para\(p \ne q\). A continuación, por la fuerte ley de los grandes números,\(\P_p(X \in C_p) = 1\). Aunque aún no hemos estudiado la ley de los grandes números, La idea básica es simple: en una secuencia de ensayos de Bernoulli con probabilidad de éxito\( p \), la frecuencia relativa a largo plazo de éxitos es\( p \). Así las distribuciones de\(X\), como\(p\) varía de 0 a 1, son mutuamente singulares; es decir, como\(p\) varía,\(X\) toma valores con probabilidad 1 en conjuntos mutuamente disjuntos.
Dejar\(F\) denotar la función de distribución de\(X\), de modo que\(F(x) = \P_p(X \le x) = \P_p(X \lt x)\) para\(x \in (0, 1)\). Si no\(x \in (0, 1)\) es un binario racional, entonces\(X \lt x\) si y sólo si existe\(n \in \N_+\) tal que\(X_i = x_i\) por\(i \in \{1, 2, \ldots, n - 1\}\) y por el\(X_n = 0\) tiempo\(x_n = 1\). De ahí\( \P_{1/2}(X \lt x) = \sum_{n=1}^\infty \frac{x_n}{2^n} = x \). Dado que la función de distribución de una distribución continua es continua, se deduce que\(F(x) = x\) para todos\(x \in [0, 1]\). Esto significa que\(X\) tiene la distribución uniforme encendida\((0, 1)\). Si\(p \ne \frac{1}{2}\), la distribución de\(X\) y la distribución uniforme son mutuamente singulares, entonces en particular,\( X \) no tiene una función de densidad de probabilidad con respecto a la medida de Lebesgue.
Para una aplicación de algunas de las ideas de este ejemplo, ver Bold Play en el juego de Rojo y Negro.
Contraejemplos
La singularidad esencial de las funciones de densidad puede fallar si la medida positiva subyacente no\( \mu \) es\( \sigma \) finita. Aquí hay un contraejemplo trivial:
Supongamos que\( S \) es un conjunto no vacío y que\( \ms{S} = \{S, \emptyset\} \) es el trivial\( \sigma \) -álgebra. Definir la medida positiva\( \mu \) en\( (S, \ms{S}) \) por\( \mu(\emptyset) = 0 \),\( \mu(S) = \infty \). Let\( \nu_c \) denotar la medida\( (S, \ms{S}) \) con función de densidad constante\( c \in \R \) con respecto a\( \mu \).
- \( (S, \ms{S}, \mu) \)no es\( \sigma \) -finito.
- \( \nu_c = \mu \)para cada\( c \in (0, \infty) \).
El teorema de Radón-Nikodym puede fallar si la medida no\( \mu \) es\( \sigma \) -finita, aunque\( \nu \) sea finita. Aquí hay un par de contraejemplos estándar:
Supongamos que\( S \) es un conjunto incontable y\( \ms{S} \) es el\( \sigma \) -álgebra de conjuntos contables y cocontables:\[\ms{S} = \{A \subseteq S: A \text{ is countable or } A^c \text{ is countable} \} \] Como de costumbre, vamos a\( \# \) denotar contando medida\( \nu \) en\( \ms{S} \), y definir\( \ms{S} \) por\( \nu(A) = 0 \) si\( A \) es contable y \( \nu(A) = 1 \)si\( A^c \) es contable. Entonces
- \( (S, \ms{S}, \#) \)no es\( \sigma \) -finito.
- \( \nu \)es una medida finita positiva sobre\( (S, \ms{S}) \).
- \( \nu \)es absolutamente continuo con respecto a\( \# \).
- \( \nu \)no tiene una función de densidad con respecto a\( \# \).
Prueba
- Recordemos que una unión contable de conjuntos contables es contable, y por lo tanto\( S \) no puede escribirse como tal unión.
- Tenga en cuenta que\( \nu(\emptyset) = 0 \). Supongamos que\( \{A_i: i \in I\} \) es una colección contable y disjunta de conjuntos en\( \ms{S} \). Si\( A_i \) es contable para cada\( i \in I \) entonces\( \bigcup_{i \in I} A_i \) es contable. De ahí\( \nu\left(\bigcup_{i \in I} A_i\right) = 0 \) y\( \nu(A_i) = 0 \) para cada\( i \in I \). Siguiente supongamos que\( A_j^c \) y\( A_k^c \) son contables para distintos\( j, \; k \in I \). Ya que\( A_j \cap A_k = \emptyset \), tenemos\( A_j^c \cup A_k^c = S \). Pero entonces\( S \) sería contable, lo cual es una contradicción. De ahí que sólo sea posible para tener\( A_j^c \) contable para una sola\( j \in I \). En este caso,\( \nu(A_j) = 1 \) y\( \nu(A_i) = 0 \) para\( i \ne j \). Pero también\( \left(\bigcup_{i \in I} A_i\right)^c = \bigcap_{i \in I} A_i^c \) es contable, entonces\( \nu\left(\bigcup_{i \in I} A_i\right) = 1 \). De ahí que en todos los casos,\( \nu\left(\bigcup_{i \in I} A_i \right) = \sum_{i \in I} \nu(A_i) \) así\( \nu \) es una medida sobre\( (S, \ms{S}) \). Es claramente positivo y finito.
- Recordemos que cualquier medida es absolutamente continua con respecto a la medida de conteo, ya que\( \#(A) = 0 \) si y solo si\( A = \emptyset \).
- Supongamos que\( \nu \) tiene función de densidad\( f \) con respecto a\( \# \). Entonces\(0 = \nu\{x\} = \int_{\{x\}} f \, d\# = f(x) \) para cada\( x \in S \). Pero entonces\( \nu(S) = \int_S f \, d\# = 0 \), que es una contradicción.
Dejar\( \ms R \) denotar el estándar de Borel\( \sigma \) -álgebra encendido\( \R \). Dejar\( \# \) y\( \lambda \) denotar medida de conteo y medida de Lebesgue en\( (\R, \ms R) \), respectivamente. Entonces
- \( (\R, \ms R, \#) \)no es\( \sigma \) -finito.
- \( \lambda \)es absolutamente continuo con respecto a\( \# \).
- \( \lambda \)no tiene una función de densidad con respecto a\( \# \).
Prueba
- \( \R \)es incontable y por lo tanto no puede escribirse como una unión contable de conjuntos finitos.
- Dado que\( \emptyset \) es el único conjunto nulo de\( \# \),\( \lambda \ll \# \).
- Supongamos que\( \lambda \) tiene función de densidad\( f \) con respecto a\( \# \). Entonces\[ 0 = \lambda\{x\} = \int_{\{x\}} f \, d\# = f(x), \quad x \in \R \] Pero entonces también\( \lambda(\R) = \int_\R f \, d\# = 0 \), una contradicción.