Saltar al contenido principal
LibreTexts Español

1.3: Revisión de probabilidad

  • Page ID
    86168
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Probabilidades condicionales e independencia estadística

    Definición 1.3.1. Para dos eventos cualquiera\(A\) y\(B\) (con\(\operatorname{Pr}\{B\}>0\)), la probabilidad condicional de\(A\), condicional\(B\), se define por

    \[\operatorname{Pr}\{A \mid B\}=\operatorname{Pr}\{A B\} / \operatorname{Pr}\{B\}\label{1.12} \]

    Se visualiza un experimento con el que se ha llevado a cabo parcialmente\(B\) como resultado. Entonces se\(\operatorname{Pr}\{A \mid B\}\) puede ver como la probabilidad de\(A\) normalizar a un espacio de muestra restringido al evento\(B\). Dentro de este espacio muestral restringido, podemos ver\(B\) como el espacio muestral (es decir, como el conjunto de resultados que siguen siendo posibles a la ocurrencia de\(B\)) y\(AB\) como un evento dentro de este espacio muestral. Para un evento fijo\(B\), podemos visualizar el mapeo de cada evento\(A\) en el espacio original con el evento\(AB\) en el espacio restringido. Es fácil ver que los axiomas del evento siguen satisfechos en este espacio restringido. Al asignar probabilidad\(\operatorname{Pr}\{A \mid B\}\) a cada evento\(AB\) en el espacio restringido, es fácil ver que los axiomas de probabilidad se satisfacen cuando\(B\) se considera como todo el espacio muestral. En otras palabras, todo lo que sabemos sobre probabilidad también se puede aplicar a un espacio de probabilidad tan restringido.

    Definición 1.3.2. Dos eventos,\(A\) y\(B\), son estadísticamente independientes (o, más brevemente, independientes) si

    \(\operatorname{Pr}\{A B\}=\operatorname{Pr}\{A\} \operatorname{Pr}\{B\}\)

    Porque\(\operatorname{Pr}\{B\}>0\), esto equivale a\(\operatorname{Pr}\{A \mid B\}=\operatorname{Pr}\{A\}\). Esta última forma corresponde a nuestra visión intuitiva de la independencia, ya que dice que la observación de\(B\) no cambia la probabilidad de\(A\). Tales afirmaciones intuitivas sobre “observación” y “ocurrencia” son útiles en el razonamiento probabilísticamente, pero a veces causan confusión. Por ejemplo, la ley Bayes, en la forma\(\operatorname{Pr}\{A \mid B\} \operatorname{Pr}\{B\}=\operatorname{Pr}\{B \mid A\} \operatorname{Pr}\{A\}\), es una consecuencia inmediata de la definición de probabilidad condicional en (1.12). Sin embargo, si sólo podemos interpretar\(\operatorname{Pr}\{A \mid B\}\) cuándo\(B\) se 'observa' o ocurre 'antes'\(A\), entonces no podemos interpretar\(\operatorname{Pr}\{B \mid A\}\) y\(\operatorname{Pr}\{A \mid B\}\) juntos. Esto causó una inmensa confusión en los argumentos probabilísticos antes de que se desarrollara la teoría axiomática B}.

    La noción de independencia es de vital importancia para definir y razonar sobre los modelos de probabilidad. Veremos muchos ejemplos donde sistemas muy complejos se vuelven muy simples, tanto en términos de intuición como de análisis, cuando las cantidades apropiadas se modelan como estadísticamente independientes. Se dará un ejemplo en la siguiente subsección donde se utilizan experimentos independientes repetidos para entender argumentos sobre frecuencias relativas.

    A menudo, cuando el supuesto de independencia resulta ser demasiado simplificado, es razonable asumir la independencia condicional, donde\(A\) y\(B\) se dice que son condicionalmente independientes dado\(C\) si\(\operatorname{Pr}\{A B \mid C\}=\operatorname{Pr}\{A \mid C\} \operatorname{Pr}\{B \mid C\}\). La mayoría de los procesos estocásticos que se estudiarán aquí se caracterizan por formas particulares de independencia o independencia condicional.

    Para más de dos eventos, la definición de independencia estadística es un poco más complicada

    Definición 1.3.3. Los eventos\(A_{1}, \ldots, A_{n}, n>2\) son estadísticamente independientes si por cada colección\(S\) de dos o más de los enteros 1 a\(n\).

    \[\left.\operatorname{Pr}\left\{\bigcap_{i \in S} A_{i}\right\}\right\}=\prod_{i \in S} \operatorname{Pr}\left\{A_{i}\right\}\label{1.13} \]

    Esto incluye toda la colección\(\{1, \ldots, n\}\), por lo que una condición necesaria para la independencia es que

    \[\left.\operatorname{Pr}\left\{\bigcap_{i=1}^{n} A_{i}\right\}\right\}=\prod_{i=1}^{n} \operatorname{Pr}\left\{A_{i}\right\}\label{1.14} \]

    Podría ser sorprendente que\ ref {1.14} no implique (1.13), pero el ejemplo en el Ejercicio 1.5 ayudará a aclarar esto. Esta definición se volverá más clara (y más simple) cuando veamos cómo ver la independencia de los eventos como un caso especial de independencia de variables aleatorias.

    Experimentos idealizados repetidos

    Gran parte de nuestra comprensión intuitiva de la probabilidad proviene de la noción de repetir el mismo experimento idealizado muchas veces (es decir, realizar múltiples pruebas del mismo experimento). Sin embargo, los axiomas de probabilidad no contienen reconocimiento explícito de tales repeticiones. La forma apropiada de manejar n repeticiones de un experimento idealizado es a través de un experimento extendido cuyos puntos de muestra son n-tuplas de puntos de muestra del experimento original. Tal experimento extendido es visto como n ensayos del experimento original. La noción de múltiples ensayos de un experimento dado es tan común que a veces no se logra distinguir entre el experimento original y un experimento extendido con múltiples ensayos del experimento original.

    Para ser más específicos, dado un espacio muestral original\(\Omega\), el espacio muestral de un modelo\(n\) -repetición es el producto cartesiano

    \[\Omega^{\times n}=\left\{\left(\omega_{1}, \omega_{2}, \ldots, \omega_{n}\right): \omega_{i} \in \Omega \text { for each } i, 1 \leq i \leq n\right\}\label{1.15} \]

    es decir, el conjunto de todas las n-tuplas para las cuales cada uno de los n componentes de la n-tupla es un elemento del espacio de muestra original\(\Omega\). Dado que cada punto de muestra en el modelo de n-repetición es una n-tuplas de puntos del original\(\Omega\), se deduce que un evento en el modelo de n-repetición es n un subconjunto de\(\Omega^{\times n}\), es decir, una colección de n-tuplas\(\left(\omega_{1}, \ldots, \omega_{n}\right)\), de donde cada uno\(\omega_{i}\) es un punto de muestra\(\Omega\). Esta clase de eventos en\(\Omega^{\times n}\) debe incluir cada evento de la forma\(\left\{\left(A_{1} A_{2} \cdots A_{n}\right)\right\}\), donde\(\left\{\left(A_{1} A_{2} \cdots A_{n}\right)\right\}\) denota la colección de n-tuplas\(\left(\omega_{1}, \ldots, \omega_{n}\right)\) donde\(\omega_{i} \in A_{i}\) para\(1 \leq i \leq n\). El conjunto de eventos (para n-repeticiones) también puede extenderse para ser cerrado bajo complementación y uniones e intersecciones contables.

    La forma más simple y natural de crear un modelo de probabilidad para este espacio muestral extendido y clase de eventos es a través de la suposición de que los n-ensayos son estadísticamente independientes. Más precisamente, asumimos que por cada evento extendido\(\left\{\left(A_{1} A_{2} \cdots A_{n}\right)\right\}\) contenido en\(\Omega^{\times n}\), tenemos

    \[\operatorname{Pr}\left\{\left(A_{1} A_{2} \cdots A_{n}\right)\right\}=\prod_{i=1}^{n} \operatorname{Pr}\left\{A_{i}\right\}\label{1.16} \]

    donde\(\operatorname{Pr}\left\{A_{i}\right\}\) está la probabilidad de evento\(A_{i}\) en el modelo original. Tenga en cuenta que dado que se\(\Omega\) puede sustituir por cualquiera\(A_{i}\) en esta fórmula, la condición de subconjunto de\ ref {1.13} se satisface automáticamente. Es decir, para cualquier modelo de probabilidad, existe un modelo de repetición independiente extendido para el cual los eventos en cada ensayo son independientes de los de los otros ensayos. En lo que sigue, nos referimos a esto como el modelo de probabilidad para n ensayos independientes distribuidos idénticamente (IID) de un experimento dado.

    Las sutilezas de cómo crear este modelo para n experimentos arbitrarios IID dependen de la teoría de medidas, pero simplemente nos basamos en la existencia de dicho modelo y la independencia de los eventos en diferentes repeticiones. Lo que hemos hecho aquí es muy importante conceptualmente. Un modelo de probabilidad para un experimento no dice nada directamente sobre experimentos repetidos. Sin embargo, las preguntas sobre experimentos repetidos independientes pueden manejarse directamente dentro de este modelo extendido de n repeticiones IID. Esto también se puede extender a un número contable de ensayos IID.

    Variables aleatorias

    El resultado de un experimento probabilístico a menudo especifica una colección de valores numéricos como temperaturas, voltajes, números de llegadas o salidas en varios intervalos de tiempo, etc. Cada valor numérico de este tipo varía, dependiendo del resultado particular del experimento, y por lo tanto puede verse como un mapeo desde el conjunto\(\Omega\) de puntos de muestreo hasta el conjunto\(\mathbb{R}\) de números reales (nota que\(\mathbb{R}\) no incluye\(\pm \infty\). Estas asignaciones de puntos de muestra a números reales se denominan variables aleatorias.

    Definición 1.3.4. Una variable aleatoria\((r v)\) es esencialmente una función\(X\) desde el espacio muestral\(\Omega\) de un modelo de probabilidad hasta el conjunto de números reales\(\mathbb{R}\). Se necesitan tres modificaciones para que esto sea preciso. Primero,\(X\) podría ser indefinido o infinito para un subconjunto de\(\Omega\) que tiene 0 probabilidad. 12 En segundo lugar, el mapeo\(X(\omega)\) debe tener la propiedad que\(\{\omega \in \Omega: X(\omega) \leq x\}\) es un evento 13 para cada uno\(x \in \mathbb{R}\). Tercero, cada conjunto finito de\(\text { rv's } X_{1}, \ldots, X_{n}\) tiene la propiedad que\(\left\{\omega: X_{1}(\omega) \leq x_{1}, \ldots, X_{n}(\omega) \leq x_{n}\right\}\) es un evento para cada uno\(x_{1} \in \mathbb{R}, \ldots, x_{n} \in \mathbb{R}\).

    Como con cualquier función, a menudo hay confusión entre la función misma, que se llama\(X\) en la definición anterior, y el valor que adquiere\(X(\omega)\) la función para un punto de muestra\(\omega\). Esto es particularmente prevalente con variables aleatorias (rv) ya que asociamos intuitivamente un rv con su valor de muestra cuando se realiza un experimento. Tratamos de controlar esa confusión usando\(X\), y\(X(\omega)\), respectivamente\(x\), para hacer referencia al rv, el valor de muestra tomado para un punto\(\omega\) de muestra dado y un valor de muestra genérico.

    Definición 1.3.5. La función de distribución 14\(\mathrm{F}_{X}(x)\) de una variable aleatoria\((r v) X\) es una función,\(\mathbb{R} \rightarrow \mathbb{R}\), definida por\(\mathrm{F}_{X}(x)=\operatorname{Pr}\{\omega \in \Omega: X(\omega) \leq x\}\). El argumento\(\omega\) suele omitirse por brevedad, entonces\(\mathrm{F}_{X}(x)=\operatorname{Pr}\{X \leq x\}\).

    Tenga en cuenta que\(x\) es el argumento de\(\mathrm{F}_{X}(x)\) y el subíndice\(X\) denota el rv particular bajo consideración. Como se ilustra en la Figura 1.1, la función de distribución\(\mathrm{F}_{X}(x)\) es no decreciente con\(x\) y debe satisfacer los límites\(\lim _{x \rightarrow-\infty} \mathrm{F}_{X}(x)=0\) y\(\lim _{x \rightarrow \infty} \mathrm{F}_{X}(x)=1\). No es difícil mostrar, desde los axiomas, que\(\mathrm{F}_{X}(x)\) es continuo desde la derecha (es decir, eso para cada\(x \in \mathbb{R}\),\(\lim _{k \rightarrow \infty} \mathrm{F}_{X}(x+1 / k)=\mathrm{F}_{X}(x)\).

    Screen Shot 2021-08-04 a las 10.01.17 PM.png
    Figura 1.1: Ejemplo de una función de distribución para una rv que no es continua ni discreta. Si\(\mathrm{F}_{X}(x)\) tiene una discontinuidad en algunos\(x_{o}\), significa que hay una probabilidad discreta a\(x_{o}\) igual a la magnitud de la discontinuidad. En este caso\(\mathrm{F}_{X}\left(x_{o}\right)\) viene dada por la altura del punto superior en la discontinuidad.

    Debido a la definición de un rv, el conjunto\(\{X \leq x\}\) para cualquier rv\(X\) y cualquier número real\(x\) debe ser un evento, y así\(\operatorname{Pr}\{X \leq x\}\) debe definirse para todos los reales\(x\).

    El concepto de rv a menudo se extiende a variables aleatorias complejas (rv) y vectores. una variable aleatoria compleja es un mapeo desde el espacio muestral al conjunto de números complejos finitos, y una variable aleatoria vectorial\((rv)\) es un mapeo desde el espacio muestral a los vectores finitos en algunas dimensiones finitas espacio vectorial. Otra extensión es la de rvs defectuosos. \(X\)es defectuoso si hay un evento de probabilidad positiva para el cual el mapeo es indefinido o definido para ser cualquiera\(+\infty\) o\(-\infty\). Cuando nos referimos a variables aleatorias en este texto (sin ningún modificador como complejo, vector o defectuoso), restringimos explícitamente la atención a la definición original, es decir, una función de\(\Omega\) a\(\mathbb{R}\).

    Si\(X\) tiene solo un número finito o contable de posibles valores de muestra, digamos\(x_{1}, x_{2}, \ldots\), la probabilidad\(\operatorname{Pr}\left\{X=x_{i}\right\}\) de cada valor de muestra\(x_{i}\) se llama la función de masa de probabilidad (PMF) at\(x_{i}\) y denotada por pX\(\left(x_{i}\right)\); dicha variable aleatoria se llama discreta. La función de distribución de un rv discreto es una 'función escalera', permaneciendo constante entre los posibles valores de muestra y teniendo un salto de magnitud pX\(\left(x_{i}\right)\) en cada valor de muestra\(x_{i}\). Así, el PMF y la función de distribución especifican cada uno el otro para rv discretos.

    Si la función\(\mathrm{F}_{X}(x)\) de distribución de un rv\(X\) tiene una derivada (finita) at\(x\), la derivada se llama la densidad de probabilidad (o la densidad) de\(X\) at x y se denota por\(\mathrm{f}_{X}(x)\); para suciamente pequeña\(\delta\);\(\delta \mathrm{f}_{X}(x)\) luego se aproxima a la probabilidad de que\(X\) se asigna a un valor entre\(x\) y\(x+\delta\). Si la densidad existe para todos\(x\), se dice que el rv es continuo. De manera más general, si existe una función\(\mathrm{f}_{X}(x)\) tal que, para cada una\(x \in \mathbb{R}\), la función de distribución satisface\(\int_{-infty}^{x} f_{X}(y) d y\), entonces se dice que el rv es continuo y\(\mathrm{f}_{X}\) es la densidad de probabilidad. Esta generalización permite que la densidad sea discontinua. En otras palabras, una rv continua requiere un poco más que una función de distribución continua y un poco menos que una densidad continua.

    Los cursos elementales de probabilidad trabajan principalmente con el PMF y la densidad, ya que son convenientes para ejercicios computacionales. A menudo trabajaremos con la función de distribución aquí. Esto se debe en parte a que siempre se define, en parte para evitar decir todo tres veces, para discretos, continuos y otros rv, y en parte porque la función de distribución suele ser más importante para limitar argumentos como los argumentos promedio de tiempo en estado estacionario. Para las funciones de distribución, funciones de densidad y PMF, el subíndice que denota el rv a menudo se omite si el rv es claro del contexto. La misma convención se utiliza para los rv complejos y los rv vectoriales.

    En el Apéndice A se enumeran las PMF de una serie de rv discretas ampliamente utilizadas y las densidades de algunas rv continuas igualmente populares; las funciones de generación de media, varianza y momento de estas variables también se listan como referencia fácil.

    Múltiples variables aleatorias y probabilidades condicionales

    A menudo debemos tratar múltiples variables aleatorias (rv) en un solo experimento de probabilidad. Si\(X_{1}, X_{2}, \ldots, X_{n}\) son rv o los componentes de un vector rv, su función de distribución conjunta se define por

    \[\mathrm{F}_{X_{1} \cdots X_{n}}\left(x_{1}, x_{2}, \ldots, x_{n}\right)=\operatorname{Pr}\left\{\omega \in \Omega: X_{1}(\omega) \leq x_{1}, X_{2}(\omega) \leq x_{2}, \ldots, X_{n}(\omega) \leq x_{n}\right\} \label{1.17} \]

    Esta definición ayuda en gran medida a explicar por qué necesitamos la noción de un espacio de muestra\(\Omega\) cuando todo lo que queremos hablar es un conjunto de rv. La función de distribución de un rv describe completamente el comportamiento individual de ese rv, pero\(\Omega\) y las asignaciones anteriores son necesarias para describir cómo las rv interactuar.

    Para un vector rv\(\boldsymbol{X}\) con componentes\(X_{1}, \ldots, X_{n}\), o un complejo rv X con partes reales e imaginarias\(X_{1}, X_{2}\), la función de distribución también se define por (1.17). Tenga en cuenta que\(\{X_{1} \leq x_{1}, X_{2} \leq x_2, \dots, X_n \leq x_n\}\) es un evento y la probabilidad correspondiente es no decreciente en cada argumento\(x_{i}\). También la función de distribución de cualquier subconjunto de variables aleatorias se obtiene estableciendo los otros argumentos en\(+\infty\) Por ejemplo, la distribución de una sola rv (llamada distribución marginal) viene dada por

    \(\mathrm{F}_{X_{i}}\left(x_{i}\right)=\mathrm{F}_{X_{1} \cdots X_{i-1} X_{i} X_{i+1} \cdots X_{n}}\left(\infty, \ldots, \infty, x_{i}, \infty, \ldots, \infty\right)\)

    Si los rv son todos discretos, hay un PMF conjunto que especifica y es especificado por la función de distribución conjunta. Está dado por

    \(\mathrm{p}_{X_{1} \ldots X_{n}}\left(x_{1}, \ldots, x_{n}\right)=\operatorname{Pr}\left\{X_{1}=x_{1}, \ldots, X_{n}=x_{n}\right\}\)

    Del mismo modo, si la función de distribución conjunta es diferenciable en todas partes, especifica y es especificada por la densidad de probabilidad conjunta,

    \(\mathrm{f}_{X_{1} \ldots X_{n}}\left(x_{1}, \ldots, x_{n}\right)=\frac{\partial^{n} \mathrm{~F}\left(x_{1}, \ldots, x_{n}\right)}{\partial x_{1} \partial x_{2} \cdots \partial x_{n}}\)

    Dos rv, digamos\(X\) y\(Y\), son estadísticamente independientes (o, más brevemente, independientes) si

    \[\mathrm{F}_{X Y}(x, y)=\mathrm{F}_{X}(x) \mathrm{F}_{Y}(y) \quad \text { for each } x \in \mathbb{R}, y \in \mathbb{R}\label{1.18} \]

    Si\(X\) y\(Y\) son rv discretos entonces la definición de independencia en\ ref {1.18} es equivalente a la declaración correspondiente para PMF's,

    \(\mathrm{p}_{X Y}\left(x_{i} y_{j}\right)=\mathrm{p}_{X}\left(x_{i}\right) \mathrm{p}_{Y}\left(y_{j}\right) \quad \text { for each value } x_{i} \text { of } X \text { and } y_{j} \text { of } Y\)

    Dado que\(\left\{X=x_{i}\right\}\) y\(\left\{Y=y_{j}\right\}\) son eventos, la probabilidad condicional de\(\left\{X=x_{i}\right\}\) condicional on\(\left\{Y=y_{j}\right\}\) (asumiendo\(\mathrm{p}_{Y}\left(y_{j}\right)>0\)) viene dada por\ ref {1.12} para ser

    \(\mathrm{p}_{X \mid Y}\left(x_{i} \mid y_{j}\right)=\frac{\mathrm{p}_{X Y}\left(x_{i}, y_{j}\right)}{\mathrm{p}_{Y}\left(y_{j}\right)}\)

    Si\(\mathrm{p}_{X \mid Y}\left(x_{i} \mid y_{j}\right)=\mathrm{p}_{X}\left(x_{i}\right)\) por todos\(i, j\) entonces se ve eso\(X\) y\(Y\) son independientes. Esto captura la noción intuitiva de independencia mejor que\ ref {1.18} para rv discretas, ya que puede verse como diciendo que el PMF de no\(X\) se ve afectado por el valor de muestra de\(Y\).

    Si\(X\) y\(Y\) tienen una densidad de juntas, entonces\ ref {1.18} es equivalente a

    \(\mathrm{f}_{X Y}(x, y)=\mathrm{f}_{X}(x) \mathrm{f}_{Y}(y) \quad \text { for each } x \in \mathbb{R}, y \in \mathbb{R}\)

    Si\(\mathrm{f}_{Y}(y)>0\), la densidad condicional se puede definir como\(\mathrm{f}_{X \mid Y}(x \mid y)=\frac{\mathrm{f}_{X Y}(x, y)}{f_{Y}(y)}\). Entonces la independencia estadística fY\ ref {y} se puede expresar como\(\mathrm{f}_{X \mid Y}(x \mid y)=\mathrm{f}_{X}(x) \quad \text { where } \mathrm{f}_{Y}(y)>0\label{1.19}\)

    Esto captura la noción intuitiva de independencia estadística para rv continuas mejor que (1.18), pero no dice exactamente que la densidad de\(X\), condicional\(Y=y\) es la misma que la densidad marginal de\(X\). El evento\(\{Y=y\}\) tiene probabilidad cero para un rv continuo, y no podemos condicionar eventos de probabilidad cero. Si miramos las derivadas que definen estas densidades, la densidad condicional mira la probabilidad que\(\{x \leq X \leq x+\delta\}\) dada eso\(\{y \leq Y \leq y+\epsilon\}\) en el límite\(\delta, \epsilon \rightarrow 0\). En algún nivel, este es un punto muy técnico y la intuición de condicionar\(\{Y=y\}\) funciona muy bien. Además, los problemas a menudo se modelan directamente en términos de densidades de probabilidad condicionales, de manera que ver una densidad condicional como límite es menos relevante.

    Más generalmente, la probabilidad de un evento arbitrario\(A\) condicional a un valor dado de una rv continua\(Y\) viene dada por

    \(\operatorname{Pr}\{A \mid Y=y\}=\lim _{\delta \rightarrow 0} \frac{\operatorname{Pr}\{A, Y \in[y, y+\delta]\}}{\operatorname{Pr}\{Y \in[y, y+\delta]\}}\)

    A continuación generalizamos los resultados anteriores sobre dos rv al caso de\(n\) rv\(\boldsymbol{X}=X_{1}, \ldots, X_{n}\). La independencia estadística se define entonces por la ecuación

    \[\mathrm{F}_{\boldsymbol{X}}\left(x_{1}, \ldots, x_{n}\right)=\prod_{i=1}^{n} \operatorname{Pr}\left\{X_{i} \leq x_{i}\right\}=\prod_{i=1}^{n} \mathrm{~F}_{X_{i}}\left(x_{i}\right) \quad \text { for all values of } x_{1}, \ldots, x_{n}\label{1.20} \]

    En otras palabras,\(X_{1}, \ldots, X_{n}\) son independientes si los eventos\(X_{i} \leq x_{i}\) o\(1 \leq i \leq n\) son independientes para todas las elecciones de\(x_{1}, \ldots, x_{n}\). Si existe la densidad o PMF,\ ref {1.20} es equivalente a una forma de producto para la función de densidad o masa. Se dice que un conjunto de rv es independiente por pares si cada par de rv en el conjunto es independiente. Como se muestra en el Ejercicio 1.20, la independencia por pares no implica que todo el conjunto sea independiente.

    Los rv independientes a menudo también se distribuyen de manera idéntica, es decir, todos tienen la misma función de distribución. Estos casos surgen tan a menudo que abreviamos independientes distribuidos idénticamente por IID. Para el caso IID\ ref {1.20} se convierte

    \[\mathrm{F}_{X}\left(x_{1}, \ldots, x_{n}\right)=\prod_{i=1}^{n} \mathrm{~F}_{X}\left(x_{i}\right)\label{1.21} \]

    Procesos estocásticos y el proceso de Bernoulli

    Un proceso estocástico (o proceso aleatorio 15) es una colección infinita de rv, generalmente indexada por un número entero o un número real que a menudo se interpreta como tiempo.16 Así, cada punto de muestra del modelo de probabilidad se mapea a una colección infinita de valores de muestra de rv. cada punto de muestreo se asigna a una función de tiempo llamada ruta de muestreo o función de muestra. Estas rutas de muestra pueden variar continuamente con el tiempo o pueden variar solo en tiempos discretos, y si varían en momentos discretos, esos tiempos pueden ser deterministas o aleatorios.

    En muchos casos, esta colección de rv que comprende el proceso estocástico es lo único de interés. En este caso, los puntos de muestreo del modelo de probabilidad pueden tomarse como las rutas de muestreo del proceso. Conceptualmente, entonces, cada evento es una colección de rutas de muestra. A menudo estos eventos se definen en términos de un conjunto finito de rv.

    Como ejemplo de rutas de muestreo que varían solo en momentos discretos, podríamos estar preocupados por los momentos en que los clientes llegan a alguna instalación. Estos 'clientes' pueden ser clientes que ingresan a una tienda, trabajos entrantes para un sistema informático, paquetes que llegan a un sistema de comunicación o pedidos para un almacén de merchandising.

    El proceso de Bernoulli es un ejemplo de cómo podrían modelarse dichos clientes y es quizás el proceso estocástico no trivial más simple. Definimos este proceso aquí y desarrollamos algunas de sus muchas propiedades. Volveremos frecuentemente a él, tanto para usarlo como ejemplo como para desarrollar propiedades adicionales.

    Ejemplo 1.3.1. Un proceso de Bernoulli es una secuencia,\(Y_{1}, Y_{2}, \ldots\), de variables aleatorias binarias IID. 17 Dejar\(p=\operatorname{Pr}\left\{Y_{i}=1\right\}\) y\(1-p=\operatorname{Pr}\left\{Y_{i}=0\right\}\). Por lo general, visualizamos un proceso de Bernoulli como evolucionando en tiempo discreto con el evento\(\left\{Y_{i}=1\right\}\) representando a un cliente que llega a la hora\(i\) y no\(\left\{Y_{i}=0\right\}\) representa llegada. Así, a lo sumo se produce una llegada en cada tiempo entero. Visualizamos el proceso como comenzando en el tiempo 0, con la primera oportunidad de una llegada a la hora 1.

    Cuando se ve como llegadas en el tiempo, es interesante entender algo sobre los intervalos entre llegadas sucesivas, y sobre el número agregado de llegadas hasta un momento dado (ver Figura 1.2). Estos tiempos entre llegadas y números agregados de llegadas son rv que son funciones de la secuencia subyacente\(Y_{1}, Y_{2}, \ldots\),. El tema de los rv que se definen como funciones de otros rv (es decir, cuyos valores de muestra son funciones de los valores de muestra de los otros rv) se retoma en mayor generalidad en la Sección 1.3.7, pero los tiempos de interllegada y llegadas agregadas para los procesos de Bernoulli son tan especializados y simples que es mejor para tratarlos desde los primeros principios.

    Primero, considere la primera hora interllegada\(X_{1}\), que se define como la hora de la primera llegada. Si\(Y_{1}=1\), entonces (y sólo entonces)\(X_{1}=1\). Así\(\mathrm{p}_{X_{1}}(1)=p\). A continuación,\(X_{1}=2\) si y solo\(Y_{1}=0\) y\(Y_{2}=1\), entonces\(\mathrm{p}_{X_{1}}(2)=p q\). Continuando, vemos que\(X_{1}\) tiene el PMF geométrico,

    \(\mathrm{p}_{X_{1}}(j)=p(1-p)^{j-1}\)

    Cada tiempo de interllegada posterior se\(X_{k}\) puede encontrar de esta misma manera. 18 Tiene el mismo PMF geométrico y es estadísticamente independiente de\(X_{1}, \ldots, X_{k-1}\). Así, la secuencia de tiempos de interllegada es una secuencia IID de rv geométricas.

    Se puede ver a partir de la Figura 1.2 que una ruta de muestra de tiempos de interllegada también determina una ruta de muestra de los rv de llegada binarios,\(\left\{Y_{i} ; i \geq 1\right\}\). Así, el proceso de Bernoulli también se puede caracterizar como una secuencia de rv geométricos IID.

    Para nuestros propósitos actuales, los rv más importantes en un proceso de Bernoulli son las sumas parciales\(S_{n}=\sum_{i=1}^{n} Y_{i}\). Cada rv\(S_{n}\) es el número de llegadas hasta e incluido el tiempo,\(n\) es decir,

    Screen Shot 2021-08-07 at 7.59.02 PM.png
    Figura 1.2: Ilustración de una ruta de muestreo para un proceso de Bernoulli: Los valores de muestra de los rv binarios se\(Y_{i}\) muestran debajo de los instantes de tiempo. El valor de muestra del número agregado de llegadas,\(S_{n}=\sum_{i=1}^{n} Y_{i}\), es la función de paso ilustrada, y los intervalos entre llegadas son los intervalos entre etapas.

    \(S_{n}\)es simplemente la suma de rv\(n\) binarios y así tiene la distribución binomial. El PMF\(\mathrm{p}_{S_{n}}(k)\) es la probabilidad de que\(k\) fuera\(n\) del\(Y_{i} \text { 's }\) tener el valor 1. Hay\(\left.\left(\begin{array}{l} n \\ k \end{array}\right)\right\}=\frac{n !}{k !(n-k) !}\) arreglos de números\(n\) binarios con\(k\) 1's, y cada uno tiene probabilidad\(p^{k} q^{n-k}\). Así

    \[\mathbf{p}_{S_{n}}(k)=\left(\begin{array}{l} n \\ k \end{array}\right) p^{k} q^{n-k}\label{1.22} \]

    Utilizaremos el binomio PMF ampliamente como ejemplo para explicar las leyes de los grandes números más adelante en este capítulo, y a menudo lo usaremos en capítulos posteriores como ejemplo de una suma de IID rv. Para estos ejemplos, necesitamos saber cómo\(\mathrm{p}_{S_{n}}(k)\) se comporta asintóticamente como\(n \rightarrow \infty\) y\(k \rightarrow \infty\) con \(k / n\)esencialmente constante. La frecuencia relativa (\ k/n\) se denotará como\(\tilde{p}\). Aquí hacemos una breve digresión para afirmar y desarrollar una aproximación al binomio PMF que deja claro este comportamiento asintótico.

    Lema 1.3.1. \(\mathrm{p}_{S_{n}}(\tilde{p} n)\)Sea el PMF de la distribución binomial para un PMF binario subyacente\(\mathrm{p}_{Y}(1)=p>0\),\(\mathrm{p}_{Y}(0)=q>0\). Entonces para cada entero\(\tilde{p} n\),\(1 \leq \tilde{p} n \leq n-1\),

    \[\left.\left.\mathrm{p}_{S_{n}}(\tilde{p} n)\right)<\sqrt{\frac{\}1}{2 \pi n \tilde{p}(1-\tilde{p})}} \exp [n \phi(p, \tilde{p})]\right\} \text{where} \label{1.23} \]

    \[\phi(p, \tilde{p})=\tilde{p} \ln \left(\frac{p}{\tilde{p}}\right)+(1-\tilde{p}) \ln \left(\frac{1-p}{1-\tilde{p}}\right) \leq 0 \label{1.24} \]

    También,\(\phi(p, \tilde{p})<0\) para todos\(\tilde{p} \neq p\). Por último, para cualquiera\(\epsilon>0\), existe\(n(\epsilon)\) tal que para\(n>n(\epsilon)\),

    \[\left.\mathrm{p}_{S_{n}}(\tilde{p} n)>\left(1-\frac{1}{\sqrt{n}}\right) \sqrt{\frac{\}1}{2 \pi n \tilde{p}(1-\tilde{p})}} \exp [n \phi(p, \tilde{p})]\right\} \quad \text { for } \epsilon \leq \tilde{p} \leq 1-\epsilon\label{1.25} \]

    Discusión: El parámetro\(\tilde{p}=k / n\) es la frecuencia relativa de 1's en la\(n\) -tupla\(Y_{1}, \ldots, Y_{n}\). Para cada uno\(n\), a\(\tilde{p}\) la izquierda de\ ref {1.23} está restringido por lo que\(\tilde{p} n\) es un entero. El lema dice entonces que\(p_{S_{n}}(\tilde{p} n)\) es superior delimitado por una función exponencialmente decreciente de\(n\) para cada uno\(\tilde{p} \neq p\).

    Si\(\tilde{p}\) está delimitado lejos de 0 y 1, la relación de los límites superior e inferior en\(p_{S_{n}}(\tilde{p} n)\) se acerca a 1 como\(n \rightarrow \infty\). Un atado que es asintóticamente apretado de esta manera se denota como

    \[\left.\left.\mathrm{p}_{S_{n}}(\tilde{p} n)\right) \sim \sqrt{\frac{\}1}{2 \pi n \tilde{p}(1-\tilde{p})}} \exp [n \phi(p, \tilde{p})]\right\} \quad \text { for } \epsilon<\tilde{p}<1-\epsilon\label{1.26} \]

    donde el símbolo ~ significa que la relación del lado izquierdo y derecho se aproxima a 1 como\(n \rightarrow \infty\)

    \[\sqrt{2 \pi n}\left(\frac{n}{e}\right)^{n}<n !<\sqrt{2 \pi n}\left(\frac{n}{e}\right)^{n} e^{1 / 12 n}\label{1.27} \]

    ¡La proporción\(\sqrt{2 \pi n}(n / e)^{n} / n\)! aumenta monótonamente con\(n\) hacia el límite 1, y la relación\(\sqrt{2 \pi n}(n / e)^{n} \exp (1 / 12 n) / n!\) disminuye monótonamente hacia 1. El límite superior es más preciso, pero el límite inferior es más simple y se conoce como la aproximación de Stirling.

    Ya que\(\sqrt{2 \pi n}(n / e)^{n} / n!\) está aumentando en\(n\), vemos eso\(n ! / k !<\sqrt{n / k} n^{n} k^{-k} e^{-n+k} \text { for } k<n\).

    Combinando esto con\ ref {1.27} aplicado a\(n-k\),

    \[\left.\left(\begin{array}{l} n \\ k \end{array}\right)\right\}<\sqrt{\frac{\}n}{2 \pi k(n-k)}} \frac{n^{n}}{k^{k}(n-k)^{n-k}}\label{1.28} \]

    Usando\ ref {1.28} en\ ref {1.22} para el límite superior\(\mathrm{p}_{S_{n}}(k)\),

    \(\mathrm{p}_{S_{n}}(k)<\sqrt{\frac{\}n}{2 \pi k(n-k)}} \frac{p^{k} q^{n-k} n^{n}}{k^{k}(n-k)^{n-k}}\)

    Sustituyendo\(k\) por\(\tilde{p} n\), obtenemos\ ref {1.23} donde\(\phi(p, \tilde{p})\) viene dado por (1.24). Aplicando el mismo argumento a la desigualdad de la mano derecha en (1.27),

    \ [\ begin {alineado}
    \ left (\ begin {array} {l}
    n\\ k\ end {array}\ right) ^ {\}} &>\ sqrt {\ frac {n} {2\ pi k (n-k)}}\ frac {n^ {n}} {k^ {k} (n-k) ^ {n-k}}\ exp\ izquierda (-\ frac {1} {12 k} -\ frac {1} {12 (n-k)}\ derecha) ^ {\}}\\
    &>\ sqrt {\ frac {n} {2\ pi k (n-k)}}\ frac {n^ {n}} {k^ {k} (n-k) ^ {n-k}}\ izquierda [1-\ frac {1} {12 n\ tilde {p} (1-\ tilde {p})}\ derecha]
    \ final {alineado}\ etiqueta {1.29}\]

    Para\(\epsilon<\tilde{p}<1-\epsilon\), el término entre paréntesis en\ ref {1.29} es menor delimitado por\(1-1 /(12 n \epsilon(1-\epsilon)\), que es más bajo delimitado por\(1-1 / \sqrt{n}\) para todos los sucientemente grandes\(n\), estableciendo (1.25).

    Por último, para demostrar que\(\phi(p, \tilde{p}) \leq 0\), con estricta desigualdad para\(\tilde{p} \neq p\), tomamos las dos primeras derivadas de\(\phi(p, \tilde{p})\) con respecto a\(\tilde{p}\).

    \(\left.\frac{\partial \phi(p, \tilde{p})}{\partial \tilde{p}}=\ln \left(\frac{p(1-\tilde{p})}{\tilde{p}(1-p)}\right)\right\} \quad \quad \quad \quad \frac{\partial f^{2}(p, \tilde{p})}{\partial \tilde{p}^{2}}=\frac{-1}{\tilde{p}(1-\tilde{p})}\)

    Dado que la segunda derivada es negativa para\(0<\tilde{p}<1\), el máximo de\(\phi(p, \tilde{p})\) con respecto a\(\tilde{p}\) es 0, alcanzado en\(\tilde{p}=p\). Así\(\phi(p, \tilde{p})<0\) para\(\tilde{p} \neq p\). Además,\(\phi(p, \tilde{p})\) disminuye a medida que\(\tilde{p}\) se mueve en cualquier dirección alejándose de\(p\).

    Diversos aspectos de este lema serán discutidos posteriormente con respecto a cada una de las leyes de grandes números.

    Hemos visto que el proceso de Bernoulli también se puede caracterizar como una secuencia de intervalos geométricos entre llegadas IID. Una generalización interesante de esto surge al permitir que los intervalos entre llegadas sean arbitrarios, discretos o continuos, no negativos, en lugar de rv geométricos, procesos que se conocen como procesos de renovación y son el tema del Capítulo 3. Los procesos de Poisson son casos especiales de procesos de renovación en los que los intervalos entre llegadas tienen un PDF exponencial. Estos son tratados en el Capítulo 2 y tienen muchas conexiones con los procesos de Bernoulli.

    Los procesos de renovación son ejemplos de procesos estocásticos discretos. La característica distintiva de tales procesos es que cosas interesantes (llegadas, salidas, cambios de estado) ocurren en instantes discretos de tiempo separados por intervalos deterministas o aleatorios. Los procesos estocásticos discretos deben distinguirse de los procesos estocásticos similares al ruido en los que los cambios ocurren continuamente y las trayectorias de muestra son funciones continuamente variables del tiempo. La descripción anterior de los procesos estocásticos discretos no pretende ser precisa. Los diversos tipos de procesos estocásticos desarrollados en capítulos posteriores son todos discretos en el sentido anterior, sin embargo, y nos referimos a estos procesos, algo vagamente, como procesos estocásticos discretos.

    Los procesos estocásticos discretos encuentran aplicaciones amplias y diversas en investigación de operaciones, comunicación, control, sistemas informáticos, ciencias de la gestión, finanzas, etc. Paradójicamente, pasaremos relativamente poco de nuestro tiempo discutiendo estas aplicaciones particulares, y más bien desarrollaremos resultados e ideas sobre estos procesos en general. Se discutirán muchos ejemplos extraídos de los campos anteriores, pero los ejemplos serán simples, evitando muchas de las complicaciones que requieren una comprensión integral del área de aplicación en sí.

    Expectativa

    El valor esperado E [X] de una variable aleatoria X también se denomina expectativa o media y frecuentemente se denota como\(\bar{X}\). Antes de dar una definición general, discutimos varios casos especiales. Primero considere las rv discretas no negativas. El valor esperado\(\mathrm{E}[X]\) viene dado por

    \[\mathrm{E}[X]=\sum_{x} x \mathrm{p}_{X}(x)\label{1.30} \]

    Si X tiene un número finito de posibles valores de muestra, la suma anterior debe ser finita ya que cada valor de muestra debe ser finito. Por otro lado, si X tiene un número contable de valores de muestra no negativos, la suma en\ ref {1.30} podría ser finita o infinita. El ejemplo 1.3.2 ilustra un caso en el que la suma es infinita. Se dice que la expectativa existe sólo si la suma es finita (es decir, si la suma converge a un número real), y en este caso E [X] viene dada por (1.30). Si la suma es infinita, decimos que E [X] no existe, pero también decimos 21 que E [X] =\(\infty\). En otras palabras, se puede usar\ ref {1.30} en ambos casos, pero se dice que E [X] existe solo si la suma es finita.

    Ejemplo 1.3.2. Este ejemplo será útil frecuentemente para ilustrar rv que tienen una expectativa infinita. Dejar\(N\) ser un rv positivo con valor entero con la función de distribución\(\mathrm{F}_{N}(n)=n /(n+1)\) para cada entero\(n \geq 1\). Entonces\(N\) es claramente un rv positivo desde\(\mathrm{F}_{N}(0)=0\) y\(\lim _{N \rightarrow \infty} \mathrm{F}_{N}(n)=1\). Para cada uno\(n \geq 1\), el PMF viene dado por

    \[\mathrm{p}_{N}(n)=\mathrm{F}_{N}(n)-\mathrm{F}_{N}(n-1)=\frac{n}{n+1}-\frac{n-1}{n}=\frac{1}{n(n+1)}\label{1.31} \]

    Ya que\(\mathrm{p}_{N}(n)\) es un PMF, vemos eso\(\sum_{n=1}^{\infty} 1 /[n(n+1)]=1\), que es una suma frecuentemente útil. La siguiente ecuación, sin embargo, muestra que\(\mathrm{E}[N]\) no existe y tiene un valor infinito.

    \(\left.\left.\mathrm{E}[N]=\sum_{n=1}^{\infty} n \mathrm{p}_{N}(n)=\sum_{n=1}^{\infty}\right\}_{n(n+1)}=\sum_{n=1}^{\infty}\right\} \frac{1}{n+1}=\infty\),

    donde hemos utilizado el hecho de que la serie armónica diverge.

    A continuación derivamos una expresión alternativa para el valor esperado de un rv discreto no negativo. Esta nueva expresión se da directamente en términos de la función de distribución. Luego usamos esta nueva expresión como una definición general de expectativa que se aplica a todas las rv no negativas, ya sean discretas, continuas o arbitrarias. No contiene ninguna de las preguntas de convergencia que puedan causar confusión para rv arbitrarias o para rv continuas con densidades muy salvajes.

    Screen Shot 2021-08-07 a las 10.57.29 PM.png
    Figura 1.3: La figura muestra la función\(\mathrm{F}_{X}^{c}\) de distribución complementaria de un rv discreto no negativo\(X\). Para este ejemplo,\(X\) toma cuatro valores posibles,\(0<a_{1}<a_2<a_3<a_4\). Así\(\mathrm{F}_{X}^{c}(x)=\operatorname{Pr}\{X>x\}=1\) para\(x<a_{1}\). Para\(a_{1} \leq x<a_{2}\),\(\operatorname{Pr}\{X>x\}=1-\mathrm{p}_{X}\left(a_{1}\right)\), y\(\operatorname{Pr}\{X>x\}\) tiene gotas similares como\(x\) alcances\(a_{2}\),\(a_{3}\), y\(a_{4}\). \(\mathrm{E}[X]\), de (1.30), es\(\sum_{i} a_{i} \mathrm{p}_{X}\left(a_{i}\right)\), que es la suma de los rectángulos en la figura. Esta es también el área bajo la curva\(\mathrm{F}_{X}^{c}(x)\), es decir,\(\int_{0}^{\infty} \mathrm{F}_{X}^{c}(x) d x\). Se puede observar que este argumento se aplica a cualquier rv no negativo, verificando así (1.32).

    Para una rv discreta no negativa\(X\), la Figura 1.3 ilustra que\ ref {1.30} es simplemente la integral de la función de distribución complementaria, donde la función\(\mathrm{F}^{\mathrm{c}}\) de distribución complementaria de un rv se define como\(\mathrm{F}_{X}^{\mathrm{c}}(x)=\operatorname{Pr}\{X>x\}=1-\mathrm{F}_{X}(x)\).

    \[\mathrm{E}[X]=\int_{0}^{\}\infty} \mathrm{F}_{X}^{c} d x=\int_{0}^{\}\infty} \operatorname{Pr}\{X>x\} d x\label{1.32} \]

    Aunque la Figura 1.3 solo ilustra la igualdad de\ ref {1.30} y\ ref {1.32} para un caso especial, se ve fácilmente que el argumento se aplica a cualquier rv discreto no negativo, incluyendo aquellos con muchos valores contables, al equiparar la suma de los rectángulos indicados con la integral.

    Para una rv continua no negativa\(X\), la definición convencional de expectativa viene dada por

    \[\mathrm{E}[X]=\lim _{b \rightarrow \infty} \int_{0}^{\}b} x \mathrm{f}_{X}(x) d x\label{1.33} \]

    Supongamos que la integral es vista como un límite de sumas de Riemann. Cada suma de Riemann puede verse como la expectativa de una aproximación discreta a la rv continua. La expectativa correspondiente de la aproximación viene dada por\ ref {1.32} usando la aproximada\(F_{X}\). Así (1.32), utilizando el verdadero\(\mathrm{F}_{X}\), arroja el valor esperado de\(X\). Esto también se puede ver usando la integración por partes. No hay sutilezas matemáticas en la integración de una función arbitraria no negativa no creciente, y esta integral debe tener un límite finito o infinito. Esto nos lleva a la siguiente definición fundamental de expectativa para rv no negativos:

    Definición 1.3.6. La expectativa E [X] de un rv no negativo\(X\) se define por (1.32). Se dice que la expectativa existe si y sólo si la integral es finita. De lo contrario se dice que la expectativa no existe y también se dice que es infinita.

    A continuación, considere rv con valores de muestra tanto positivos como negativos. Si X tiene un número finito de valores de muestra positivos y negativos, digamos que\(a_{1}, a_{2}, \ldots, a_{n}\) la expectativa E [X] viene dada por

    \ [\ begin {alineado}
    \ mathrm {E} [X] &=\ suma_ {i} a_ {i}\ mathrm {p} _ _ {X}\ izquierda (a_ {i}\ derecha)\\
    &\ izquierda. \ izquierda. =\ suma_ {a_ {i}\ leq 0}\ derecha\} a_i\ mathrm {p} _ {X}\ izquierda (a_ {i}\ derecha) +\ suma_ {a_ {i} >0}\ derecha\} a_ {i}\ mathrm {p} _ _ {X}\ izquierda (a_ {i}\ derecha)
    \ final {alineada}\ etiqueta {34}\]

    Si\(X\) tiene un conjunto contablemente infinito de valores de muestra, entonces\ ref {1.34} todavía se puede usar si cada una de las sumas en\ ref {1.34} converge a un valor finito, y de lo contrario la expectativa no existe (como un número real). Se puede ver que cada suma en\ ref {1.34} converge a un valor finito si y solo si E [|X|] existe (es decir, converge a un valor finito) para el rv no negativo |X|.

    Si E [X] no existe (como número real), todavía podría tener el valor\(\infty\) si la primera suma converge y la segunda no, o el valor\(-\infty\) si la segunda suma converge y la primera no. Si ambas sumas divergen, entonces E [X] no está definido, incluso como un número real extendido. En este último caso, las sumas parciales pueden ser arbitrariamente pequeñas o grandes dependiendo del orden en que se sumen los términos de\ ref {1.34} (ver Ejercicio 1.7).

    Como se ilustra para un número finito de valores de muestra en la Figura 1.4, la expresión en\ ref {1.34} también se puede expresar directamente en términos de la función de distribución y la función de distribución complementaria como

    \[\mathrm{E}[X]=-\int_{-\infty}^{\}0} \mathrm{~F}_{X}(x) d x+\int_{0}^{\}\infty} \mathrm{F}_{X}^{c}(x) d x\label{1.35} \]

    Ya que\(\mathrm{F}_{X}^{\mathrm{c}}(x)=1-\mathrm{F}_{X}(x)\), esto también se puede expresar como

    \(\mathrm{E}[X]=\int_{-\infty}^{\}\infty}\left[u(x)-\mathrm{F}_{X}(x)\right] d x\)

    donde\(u(x)\) esta el paso de la unidad,\(u(x)=1\) para\(x \geq 0\) y de\(u(x)=0\) otra manera.

    Screen Shot 2021-08-07 a las 11.46.23 PM.png
    Figura 1.4: Para este ejemplo,\(X\) toma cuatro posibles valores de muestra,\(a_{1}<a_{2}<0<a_3<a_4\). La figura traza\(\mathrm{F}_{X}(x)\) para\(x \leq 0\) y\(\mathrm{F}_{X}^{c}(x)\) para\(x>0\). Al igual que en la Figura 1.3,\(\int_{x \geq 0} \mathrm{~F}_{X}^{\mathrm{c}}(x) d x=a_{3} \mathrm{f}_{X}\left(a_{3}\right)+a_{4} \mathrm{f}_{X}\left(a_{4}\right)\). De igual manera,\(\int_{x<0} \mathrm{~F}_{X}(x) d x=-a_{1} \mathrm{f}_{X}\left(a_{1}\right)-a_{2} \mathrm{f}_{X}\left(a_{2}\right)\).

    La primera integral en\ ref {1.35} corresponde a los valores de muestra negativos y la segunda a los valores de muestra positivos, y E [X] existe si y solo si ambas integrales son finitas (es decir, si E [|X|] es finita.

    Para rv de valor continuo con valores de muestra positivos y negativos, la definición convencional de expectativa (asumiendo que E [|X|] existe) viene dada por

    \[\mathrm{E}[X]=\int_{-\infty}^{\}\infty} x \mathrm{f}_{X}(x) d x\label{1.36} \]

    Esto es igual a\ ref {1.35} por el mismo argumento que con rv no negativas. también, al igual que con las rv no negativas,\ ref {1.35} también se aplica a las rv arbitrarias. Así tenemos la siguiente definición fundamental de expectativa:

    Definición 1.3.7. La expectativa E [X] de una rv\(X\) existe, con el valor dado en (1.35), si cada uno de los dos términos en\ ref {1.35} es finito. La expectativa no existe, pero tiene valor\(\infty\)\((-\infty)\), si el primer término es finito (infinito) y el segundo infinito (finito). La expectativa no existe y es indefinida si ambos términos son infinitos.

    No debemos ver la expresión general en\ ref {1.35} para expectativa como reemplazar la necesidad de las expresiones convencionales en\ ref {1.36} y\ ref {1.34} para rv continuas y discretas respectivamente. Utilizaremos todas estas expresiones con frecuencia, usando la que sea más conveniente. Las principales ventajas de\ ref {1.35} son que se aplica por igual a todos los rv y que no plantea dudas sobre la convergencia.

    Ejemplo 1.3.3. El rv Cauchy\(X\) es el ejemplo clásico de un rv cuya expectativa no existe y es indefinida. La densidad de probabilidad es\(\mathrm{f}_{X}(x)=\frac{1}{\pi\left(1+x^{2}\right)}\). Así\(x \mathrm{f}_{X}(x)\) es proporcional\(1 / x\) tanto como como\(x \rightarrow \infty\) como\(x \rightarrow-\infty\). De ello se deduce\(\int_{0}^{\infty} x f_{X}(x) d x\) y ambos\(\int_{-\infty}^{0}-x f_{X}(x) d x\) son infinitos. Por otro lado, vemos a partir de la simetría que el valor principal de Cauchy de la integral en\ ref {1.36} viene dado por

    \(\lim _{A \rightarrow \infty} \int_{-A}^{\}A} \frac{x}{\pi(1+x)^{2}} d x=0\)

    Por lo general, hay poca motivación para considerar que los límites superior e inferior de la integración tienen la misma magnitud, y el valor principal de Cauchy suele tener poca significación para las expectativas.

    Variables aleatorias como funciones de otras variables aleatorias

    Las variables aleatorias (rv) a menudo se definen en términos entre sí. Por ejemplo, si\(h\) es una función de\(\mathbb{R}\) a\(\mathbb{R}\) y\(X\) es un rv, entonces\(Y=h(X)\) es la variable aleatoria que mapea cada punto de muestra\(\omega\) a la función compuesta\(h(X(\omega))\). La función de distribución de se\(Y\) puede encontrar a partir de esto, y el valor esperado de\(Y\) puede entonces ser evaluado por (1.35).

    A menudo es más conveniente encontrar E [Y] directamente usando la función de distribución de\(X\). El ejercicio 1.16 indica que E [Y] viene dado por\(\left.\int\right\} h(x) \mathrm{f}_{X}(x) d x\) para rv continuas y por\(\sum_{x} h(x) \mathrm{p}_{X}(x)\) para rv discretas. para evitar continuar usando expresiones separadas para rv continuas y discretas, expresamos ambas relaciones por

    \[\mathrm{E}[Y]=\int_{-\infty}^{\}\infty} h(x) d \mathrm{~F}_{X}(x)\label{1.37} \]

    Esto se conoce como integral de Stieltjes, que puede ser utilizado como generalización tanto de los casos continuos como discretos. Para la mayoría de los propósitos, utilizamos las integrales de Stieltjes 22 como taquigrafía notacional para cualquiera\(\left.\int\right\} h(x) \mathrm{f}_{X}(x) d x\) o\(\sum_{x} h(x) \mathrm{p}_{X}(x)\).

    Saber que E [X] existe no garantiza que E [Y] exista, sino que trataremos la cuestión de la existencia tal como surge en lugar de intentar establecer alguna regla general.

    Ejemplos particularmente importantes de tales valores esperados son los momentos\(\mathrm{E}\left[X^{n}\right]\) de una rv X y los momentos centrales\(\left.\mathrm{E}\left[(X-\bar{X})^{n}\right]\right\}\) de\(X\), donde\(\bar{X}\) está la media\(\mathrm{E}[X]\). Al segundo momento central se le llama varianza, denotada por\(\sigma_{X}^{2}\) o VAR [X]. Está dado por

    \[\left.\sigma_{X}^{2}=\mathrm{E}\left[(X-\bar{X})^{2}\right]\right\} \mathrm{E}\left[X^{2}\right]-\bar{X}^{2}\label{1.38} \]

    La desviación estándar\(\sigma_{X}\) de\(X\) es la raíz cuadrada de la varianza y proporciona una medida de dispersión de la rv alrededor de la media. Así, la media es una medida aproximada de valores típicos para el resultado de la rv, y\(\sigma_{X}\) es una medida de la diferencia típica entre\(X\) y\(\bar{X}\). Existen otras medidas de valor típico (como la mediana y el modo) y otras medidas de dispersión, pero la media y la desviación estándar tienen una serie de propiedades especiales que las hacen importantes. Uno de estos (ver Ejercicio 1.21) es que\(\left.\mathrm{E}\left[(X-a)^{2}\right]\right\}\) se minimiza sobre\(\alpha\) cuándo\(\alpha=\mathrm{E}[X]\).

    Siguiente supongamos\(X\) y\(Y\) son rv y considera el\(\mathrm{rv}^{23} Z=X+Y\). Si asumimos eso\(X\) y\(Y\) somos independientes, entonces la función de distribución de\(Z=X+Y\) viene dada por 24

    \[\mathrm{F}_{Z}(z)=\int_{-\infty}^{\}\infty} \mathrm{F}_{X}(z-y) d \mathrm{~F}_{Y}(y)=\int_{-\infty}^{\}\infty} \mathrm{F}_{Y}(z-x) d \mathrm{~F}_{X}(x)\label{1.39} \]

    Si\(X\) y\(Y\) ambos tienen densidades, esto se puede reescribir como

    \[\mathrm{f}_{Z}(z)=\int_{-\infty}^{\}\infty} \mathrm{f}_{X}(z-y) \mathrm{f}_{Y}(y) d y=\int_{-\infty}^{\}\infty} \mathrm{f}_{Y}(z-x) \mathrm{f}_{X}(x) d x\label{1.40} \]

    Eq. \ ref {1.40} es la ecuación de convolución familiar de los sistemas lineales, y de manera similar nos referimos a\ ref {1.39} como la convolución de funciones de distribución (aunque tiene una forma funcional diferente de (1.40)). Si\(X\) y\(Y\) son variables aleatorias no negativas, entonces los integrands en\ ref {1.39} y\ ref {1.40} son distintos de cero solo entre 0 y\(z\), por lo que a menudo usamos 0 y\(z\) como los límites en\ ref {1.39} y (1.40).

    Si\(X_{1}, X_{2}, \ldots, X_{n}\) son rv independientes, entonces la distribución de los rv se\(S_{n}=X_{1}+X_{2}+\cdots+X_n\) puede encontrar primero convolucionando las distribuciones de\(X_{1}\) y\(X_{2}\) para obtener la distribución de\(S_{2}\) y luego, para cada uno\(i \geq 2\), convolucionando la distribución de\(S_{i}\) y\(X_{i+1}\) para obtener el distribución de\(S_{i+1}\). Las distribuciones se pueden convolucionar en cualquier orden para obtener la misma distribución resultante.

    Sean o\(X_{1}, X_{2}, \ldots, X_{n}\) no independientes, el valor esperado de\(S_{n}=X_{1}+X_{2}+\dots+X_n\) satisface

    \[\mathrm{E}\left[S_{n}\right]=\mathrm{E}\left[X_{1}+X_{2}+\cdots+X_{n}\right]=\mathrm{E}\left[X_{1}\right]+\mathrm{E}\left[X_{2}\right]+\cdots+\mathrm{E}\left[X_{n}\right]\label{1.41} \]

    Esto dice que el valor esperado de una suma es igual a la suma de los valores esperados, sean o no los rv independientes (ver ejercicio 1.11). El siguiente ejemplo muestra cómo esto puede ser una valiosa ayuda para resolver problemas con una elección adecuada de rv.

    Ejemplo 1.3.4. Considere un switch con n nodos de entrada y n nodos de salida. Supongamos que cada entrada está conectada aleatoriamente a una única salida de tal manera que cada salida también está conectada a una sola entrada. Es decir, cada salida está conectada a la entrada 1 con probabilidad 1/n Dada esta conexión, cada una de las salidas restantes se conecta a la entrada 2 con probabilidad 1/ (n 1), y así sucesivamente.

    Se dice que un nodo de entrada coincide si está conectado a la salida del mismo número. Queremos mostrar que el número esperado de coincidencias (para cualquier n dado) es 1. Tenga en cuenta que el primer nodo coincide con la probabilidad 1/n, y por lo tanto la expectativa de una coincidencia para el nodo 1 es 1/n. El hecho de que el segundo nodo de entrada coincida o no depende de la elección de salida para el primer nodo de entrada, pero se puede ver a partir de la simetría que la distribución marginal para el nodo de salida conectado a la entrada 2 es 1/n para cada salida. Por lo tanto, la expectativa de una coincidencia para el nodo 2 también es 1/n. De la misma manera, la expectativa de una coincidencia para cada nodo de entrada es 1/n. Desde (1.41), el número total esperado de coincidencias es la suma sobre el número esperado para cada entrada, y por lo tanto es igual a 1. Este ejercicio sería bastante difícil sin el uso de (1.41).

    Si los rv\(X_{1}, \ldots, X_{n}\) son independientes, entonces, como se muestra en los ejercicios 1.11 y 1.18, la varianza de\(S_{n}=X_{1}+\cdots+X_{n}\) viene dada por

    \[\sigma_{S_{n}}^{2}=\sum_{i=1}^{n} \sigma_{X_{i}}^{2}\label{1.42} \]

    Si también\(X_{1}, \ldots, X_{n}\) están distribuidos de manera idéntica (es decir,\(X_{1}, \ldots, X_{n}\) son IID) con varianza\(\sigma_{X}^{2}\), entonces\(\sigma_{S_{n}}^{2}=n \sigma_{X}^{2}\). Así la desviación estándar de\(S_{n}\) es\(\sigma_{S_{n}}=\sqrt{n} \sigma_{X}\). Las sumas de IID rv 2 aparecen en todas partes en la teoría de la probabilidad y juegan un papel especialmente central en las leyes de los grandes números. Es importante recordar que la media de\(S_{n}\) es lineal en\(n\) pero la desviación estándar aumenta solo con la raíz cuadrada de\(n\). La Figura 1.5 ilustra este comportamiento.

    Screen Shot 2021-08-09 a las 2.19.46 PM.png
    Figura 1.5: La función\(\mathrm{F}_{S_{n}}(s)\) de distribución de\(S_{n}=X_{1}+\cdots+X_{n}\) donde\(X_{1}, \ldots, X_{n}\) son típicos IID rv y\(n\) toma los valores 4, 20 y 50. El rv particular en la figura es binario con pX (1) = 1/4, pX (0) = 3/4. Tenga en cuenta que la media de\(S_{n}\) es proporcional a\(n\) y la desviación estándar a\(\sqrt{n}\).

    Expectativas condicionales

    Así como la distribución condicional de una rv condicionada a un valor muestral de otra rv es importante, la expectativa condicional de una rv basada en el valor muestral de otra es igualmente importante. Inicialmente se deja que X sea una rv discreta positiva y que y sea un valor de muestra de otra rv discreta Y tal que pY\ ref {y} > 0. Entonces la expectativa condicional de X dada Y = y se define como

    \[\mathrm{E}[X \mid Y=y]=\sum_{x} x \mathrm{p}_{X \mid Y}(x \mid y)\label{1.43} \]

    Este es simplemente el valor esperado ordinario de X usando las probabilidades condicionales en el espacio muestral reducido correspondiente a Y = y Este valor puede ser finito o infinito como antes. De manera más general, si X puede tomar valores positivos o negativos, entonces existe la posibilidad de que la expectativa condicional sea indefinida. En otras palabras, para rv discretas, la expectativa condicional es exactamente la misma que la expectativa ordinaria, excepto que se toma usando probabilidades condicionales sobre el espacio muestral reducido.

    Más generalmente aún, deje que X sea un rv arbitrario y deje que y sea un valor de muestra de un rv discreto Y con\(\mathrm{p}_{Y}(y)>0\). La función de distribución condicional de X condicional en Y = y se define como

    \(\mathrm{F}_{X \mid Y}(x \mid y)=\frac{\operatorname{Pr}\{X \leq x, Y=y\}}{\operatorname{Pr}\{Y=y\}}\)

    Dado que se trata de una función de distribución ordinaria en el espacio muestral reducido donde Y = y,\ ref {1.35} expresa la expectativa de X condicional en Y = y como

    \[\mathrm{E}[X \mid Y=y]=-\int_{-\infty}^{\}0} \mathrm{~F}_{X \mid Y}(x \mid y) d x+\int_{0}^{\}\infty} \mathrm{F}_{X \mid Y}(x \mid y) d x\label{1.44} \]

    Las formas de expectativa condicional en\ ref {1.43} y\ ref {1.44} se dan para valores de muestra individuales de Y para los cuales\(\mathrm{p}_{Y}(y)>0\).

    A continuación mostramos que la expectativa condicional de X condicional a una rv discreta Y también puede verse como una rv. Con la posible excepción de un conjunto de probabilidad cero, cada uno\(\omega \in \Omega\) mapea a {Y = y} para algunos\(\mathrm{p}_{Y}(y)>0\) y con y\(\mathrm{E}[X \mid Y=y]\) se define para esa y Así podemos definir\(\mathrm{E}[X \mid Y] \mathrm{as}^{25}\) un rv que es una función de Y, mapeando\(\omega\) a un valor de muestra, digamos y de Y, y mapeando ese y a\(\mathrm{E}[X \mid Y=y]\). Respecto a una expectativa condicional como un rv que es función del acondicionamiento rv es una herramienta poderosa tanto en la resolución de problemas como en el trabajo avanzado. Por ahora, usamos esto para expresar la media incondicional de X como

    \[\mathrm{E}[X]=\mathrm{E}[\mathrm{E}[X \mid Y]]\label{1.45} \]

    donde la expectativa interna es superior a X por cada valor de Y y la expectativa externa es sobre la rv E [X | Y], que es una función de Y.

    Ejemplo 1.3.5. Considera rodar dos dados, digamos un dado rojo y otro negro. Que\(X_{1}\) sea el número en la cara superior del dado rojo, y\(X_{2}\) eso para el negro muere. Vamos\(S=X_{1}+X_{2}\). Así\(X_{1}\) y\(X_{2}\) son IID enteros rv, cada uno distribuido uniformemente de 1 a 6. Condicional\(S=j\),\(X_{1}\) se distribuye uniformemente entre 1 y\(j-1\) para\(j \leq 7\) y entre\(j-6\) y 6 para\(j \geq 7\). Para cada uno\(j \leq 7\), se deduce que\(\mathrm{E}\left[X_{1} \mid S=j\right]=j / 2\). De igual manera, para\(j \geq 7\),\(\mathrm{E}\left[X_{1} \mid S=j\right]=j / 2\). Esto también se puede ver por la simetría entre\(X_{1}\) y\(X_{2}\).

    El rv\(\mathrm{E}\left[X_{1} \mid S\right]\) es así un rv discreto que toma valores de 1 a 6 en pasos de 1/2 ya que el valor de muestra de | S va de 2 a 12. El PMF de\(\mathrm{E}\left[X_{1} \mid S\right]\) está dado por\(\mathrm{p}_{\mathrm{E}\left[X_{1} \mid S\right]}(j / 2)=\mathrm{p}_{S}(j)\). Usando (1.45), podemos calcular\(\mathrm{E}\left[X_{1}\right]\) como

    \(\left.\left.\mathrm{E}\left[X_{1}\right]=\mathrm{E}\left[\mathrm{E}\left[X_{1} \mid S\right]\right]\right\}=\sum_{j=2}^{12}\right\} \frac{j}{2} \mathrm{p}_{S}(j)=\frac{\mathrm{E}[S]}{2}=\frac{7}{2}\)

    Este ejemplo no pretende mostrar el valor de\ ref {1.45} en el cálculo de la expectativa, ya que inicialmente\(\mathrm{E}\left[X_{1}\right]=7 / 2\) es obvio a partir de la distribución uniforme de enteros de\(X_{1}\). El propósito es simplemente ilustrar lo que\(\mathrm{E}\left[X_{1} \mid S\right]\) significa el rv.

    Para ilustrar\ ref {1.45} de una manera más general, sin dejar de asumir que X es discreto, podemos escribir esta expectativa usando\ ref {1.43} para\(\mathrm{E}[X \mid Y=y]\).

    \ [\ begin {alineado}
    \ mathrm {E} [X] &=\ mathrm {E} [\ mathrm {E} [X\ mid Y]\} =\ sum_ {y}\ mathrm {p} _ {Y} (y)\ mathrm {E} [X\ mid y=Y]\\
    &=\ sum_ {y}\ mathrm {p} _ {Y} (y)\ sum_ {x} x\ mathrm {p} _ {X\ mid Y} (x\ mid y)
    \ end {alineado}\ label {1.46}\]

    Operacionalmente, no hay nada muy elegante en el ejemplo o en (1.45). Combinando las sumas,\ ref {1.46} simplemente dice eso\(\mathrm{E}[X]=\sum_{y, x} x \mathrm{p}_{Y X}(y, x)\). Como concepto, sin embargo, ver la expectativa condicional\(\mathrm{E}[X \mid Y]\) como un rv basado en el acondicionamiento rv Y suele ser una herramienta teórica útil. Este enfoque es igualmente útil como herramienta en la resolución de problemas, ya que hay muchos problemas donde es fácil encontrar expectativas condicionales, y luego encontrar la expectativa total promediando sobre la variable de condicionamiento. Por esta razón, este resultado a veces se denomina ya sea el teorema de la expectativa total o el teorema de la expectativa iterada. El ejercicio 1.17 ilustra las ventajas de este enfoque, particularmente cuando inicialmente no está claro si la expectativa es finita o no. El siguiente ejemplo de precaución, sin embargo, muestra que este enfoque a veces puede ocultar preguntas de convergencia y dar la respuesta equivocada.

    Ejemplo 1.3.6. Que Y sea una rv geométrica con el entero\(\mathrm{PMF} \mathrm{p}_{Y}(y)=2^{-y}\) for\(y \geq 1\). Sea X un entero rv que, condicional a Y, es binario con valores equiprobables\(\pm 2^{y}\) dados Y = y. entonces vemos eso\(\mathrm{E}[X \mid Y=y]=0\) para todos y, y así,\ ref {1.46} indica que\(\mathrm{E}[X]=0\). Por otro lado, es fácil ver eso\(\mathrm{p}_{X}\left(2^{k}\right)=\mathrm{p}_{X}\left(-2^{k}\right)=2^{-k-1}\) para cada entero\(k \geq 1\). Así la expectativa sobre los valores positivos de X es\(\infty\) y eso sobre los valores negativos es\(-\infty\). En otras palabras, el valor esperado de X es indefinido y\ ref {1.46} es incorrecto.

    La diculdad en el ejemplo anterior no puede ocurrir si X es un rv no negativo. Entonces\ ref {1.46} es simplemente una suma de un número contable de términos no negativos, y así o bien converge a una suma finita independiente del orden de suma, o diverge a\(\infty\), de nuevo independiente del orden de suma.

    Si X tiene componentes tanto positivos como negativos, podemos separarlo en\(X=X^{+}+X^{-}\) donde\(X^{+}=\max (0, X)\) y\(X^{-}=\min (X, 0)\). Entonces\ ref {1.46} aplica a\(X^{+}\) y\(-X^{-}\) por separado. Si a lo sumo uno es infinito, entonces\ ref {1.46} se aplica a X, y de lo contrario X no está definido. Esto se resume en el siguiente teorema:

    Teorema 1.3.1 (Expectativa total). Que X e Y sean rv discretos. Si X no es negativo, entonces\(\mathrm{E}[X]=\mathrm{E}[\mathrm{E}[X \mid Y]]\}=\sum_{y} \mathrm{p}_{Y}(y) \mathrm{E}[X \mid Y=y]\). Si X tiene valores tanto positivos como negativos, y si a lo sumo uno de\(\mathrm{E}\left[X^{+}\right]\) y\(\mathrm{E}\left[-X^{-}\right]\) es infinito, entonces\(\mathrm{E}[X]=\mathrm{E}[\mathrm{E}[X \mid Y]]\}=\sum_y\mathrm{p_Y}(y)\mathrm{E[X|Y]=}y]\).

    Hemos visto anteriormente que si Y es una rv discreta, entonces la expectativa condicional\(\mathrm{E}[X \mid Y=y]\) es poco más complicada que la expectativa incondicional, y esto es cierto ya sea que X sea discreto, continuo o arbitrario. Si X e Y son continuos, esencialmente podemos extender estos resultados a densidades de probabilidad. En particular, definiendo\(\mathrm{E}[X \mid Y=y]\) como

    \[\mathrm{E}[X \mid Y=y]=\int_{-\infty}^{\}\infty} x \mathrm{f}_{X \mid Y}(x \mid y)\label{1.47} \]

    tenemos

    \[\mathrm{E}[X]=\int_{-\infty}^{\}\infty} \mathrm{f}_{Y}(y) \mathrm{E}[X \mid Y=y] d y=\int_{-\infty}^{\}\infty} \mathrm{f}_{Y}(y) \int_{-\infty}^{\}\infty} x \mathrm{f}_{X \mid Y}(x \mid y) d x d y\label{1.48} \]

    No declaramos esto como teorema porque los detalles sobre la integración no parecen necesarios para los lugares donde es útil.

    Indicador de variables aleatorias

    Para cualquier evento A, la variable aleatoria indicadora de A, denotada\(\mathbb{I}_{A}\), es una rv binaria que tiene el valor 1 para todos\(\omega \in A\) y el valor 0 en caso contrario. Entonces tiene el\(\operatorname{PMF} \mathrm{p}_{\mathbb{I}_{A}}(1)=\operatorname{Pr}\{A\}\) y\(\mathrm{p}_{\mathbb{I}_{A}}(0)=1-\operatorname{Pr}\{A\}\). La función de distribución correspondiente\(\mathrm{F}_{\mathbb{I}_{A}}\) se ilustra entonces en la Figura 1.6. Se ve fácilmente eso\(\mathrm{E}\left[\mathbb{I}_{A}\right]=\operatorname{Pr}\{A\}\).

    Screen Shot 2021-08-09 a las 4.42.28 PM.png
    Figura 1.6: La función\(\mathrm{F}_{\mathbb{I}_{A}}\) de distribución de una variable aleatoria indicadora\(\mathbb{I}_{A}\).

    Los indicadores rv son útiles porque nos permiten aplicar los muchos resultados conocidos sobre rv y particularmente rv binarios a eventos. Por ejemplo, las leyes de grandes números se expresan en términos de sumas de rv, y todos esos resultados se traducen en resultados sobre frecuencias relativas mediante el uso de funciones indicadoras.

    Funciones de generación de momentos y otras transformadas

    La función de generación de momento (MGF) para un rv X viene dada por

    \[\left.\mathrm{g}_{X}(r)=\mathrm{E}\left[e^{r X}\right]\right\} =\int_{-\infty}^{\}\infty} e^{r x} d \mathrm{~F}_{X}(x)\label{1.49} \]

    donde r es una variable real. El integrando no es negativo, y podemos estudiar dónde existe la integral (es decir, dónde es finita) separándola de la siguiente manera:

    \[\mathrm{g}_{X}(r)=\int_{0}^{\}\infty} e^{r x} d \mathrm{~F}_{X}(x)+\int_{-\infty}^{\}0} e^{r x} d \mathrm{~F}_{X}(x)\label{1.50} \]

    Ambas integrales existen para\(r=0\), ya que la primera es\(\operatorname{Pr}\{X>0\}\) y la segunda es\(\operatorname{Pr}\{X \leq 0\}\). La primera integral está aumentando en r, y así si existe para un valor de r, también existe para todos los valores más pequeños. Por ejemplo, si X es una rv exponencial no negativa con la densidad\(\mathrm{f}_{X}(x)=e^{-x}\), entonces la primera integral existe si y solo\(r<1\), donde tiene el valor\(\frac{1}{1-r}\). Como otro ejemplo, si X satisface Pr {X > A} = 0 para alguna A finita, entonces la primera integral es como mucho\(e^{r A}\), que es finita para todos r reales.

    \(r_{+}(X)\)Sea el supremo de valores\(r\) para los que existe la primera integral. La primera integral existe para todos\(r<r_{+}(X)\), y\(0 \leq r_{+}(X) \leq \infty\). De la misma manera, dejemos\(r_{-}(X)\) ser el infimum de valores de\(r\) para los que existe la segunda integral. La segunda integral existe para todos\(r>r_{-}(X)\) y\(r_{-}(X)\) satisface\(0 \geq r_{-}(X) \geq-\infty\).

    Combinando las dos integrales, la región sobre la cual existe el MGF de un rv arbitrario es un intervalo\(I(X)\) de\(r_{-}(X) \leq 0 \text { to } r_{+}(X) \geq 0\). Uno o ambos puntos finales,\(r_{-}(X)\) y\(r_{+}(X)\), podrían estar incluidos en\(I(X)\), y uno o ambos pueden ser 0 o infinito. Denotamos estas cantidades como I,\(r_{-}\), y\(r_{+}\) cuando el rv X es claro desde el contexto. El Apéndice A da el intervalo I para una serie de rv estándar y el Ejercicio 1.22 ilustra I (X) más adelante.

    Si Gx (r) existe en una región abierta de r alrededor de 0 (es decir, si\(r_{-}<0<r_{+}\)), entonces las derivadas 26 de todos los órdenes existen en esa región. Ellos son dados por

    \[\frac{\partial^{k} \mathrm{~g}_{X}(r)}{\partial r^{k}}=\int_{-\infty}^{\}\infty} x^{k} e^{r x} d \mathrm{~F}_{X}(x) \quad ;\left.\quad \frac{\partial^{k} \mathrm{~g}_{X}(r)}{\partial r^{k}}\right|_{r=0}=\mathrm{E}\left[X^{k}\right]\label{1.51} \]

    Esto demuestra que encontrar la función de generación de momentos a menudo proporciona una manera conveniente de calcular los momentos de una variable aleatoria. Sin embargo, si algún momento no existe, entonces el MGF también debe fallar al existir sobre cada intervalo abierto que contenga 0 (ver Ejercicio 1.31).

    Otra característica conveniente de las funciones de generación de momentos es su uso en el tratamiento de sumas de rv independientes. por ejemplo, let\(S_{n}=X_{1}+X_{2}+\cdots+X_{n}\). Entonces

    \[\left.\left.\left.\mathrm{g}_{S_{n}}(r)=\mathrm{E}\left[e^{r S_{n}}\right]\right\} =\mathrm{E}\left[\exp \left(\sum_{i=1}^{n} r X_{i}\right)\right]\right\}=\mathrm{E}\left[\prod_{i=1}^{n} \exp \left(r X_{i}\right)\right]\right\} \prod_{i=1}^{n} \mathrm{~g}_{X_{i}}(r)\label{1.52} \]

    En el último paso aquí, hemos utilizado un resultado del Ejercicio 1.11, que muestra que para rv independientes, la media del producto es igual al producto de las medias. Si también\(X_{1}, \ldots, X_{n}\) son IID, entonces

    \[g_{S_{n}}(r)=\left[\mathrm{g}_{X}(r)\right]^{n}\label{1.53} \]

    Utilizaremos esta propiedad frecuentemente en el tratamiento de sumas de IID rv. Tenga en cuenta que esto también implica que la región sobre la que existen los MGF de\(S_{n}\) y X son las mismas, es decir,\(I\left(S_{n}\right)=I(X)\).

    La variable real r en el MGF también puede ser vista como una variable compleja, dando lugar a una serie de otras transformaciones. Un caso particularmente importante es ver r como una variable imaginaria pura, decir\(i \omega\) dónde\(i=\sqrt{-1}\) y\(\omega\) es real. El MGF se llama entonces la función característica. Ya que\(\left|e^{i \omega x}\right|\) es 1 para todos\(x\),\(g_{X}(i \omega)\) existe para todos los rv X y todos reales\(\omega\), y su magnitud es como mucho una. Obsérvese que\(g_{X}(-i \omega)\) es la transformada de Fourier de la densidad de X, por lo que la transformada de Fourier y la función característica son las mismas excepto por esta pequeña diferencia notacional.

    La transformada Z es el resultado de reemplazar\(e^{r}\) con\(z\) in\(g_{X}(r)\). Esto es útil principalmente para rv con valor entero, pero si se puede evaluar una transformada, la otra se puede encontrar inmediatamente. Finalmente, si usamos\(-s\), vista como una variable compleja, en lugar de\(r\), obtenemos la transformada de Laplace de dos lados de la densidad de la variable aleatoria. Tenga en cuenta que para todas estas transformaciones, la multiplicación en el dominio de transformación corresponde a la convolución de las funciones de distribución o densidades, y a la suma de rv independientes. La simplicidad de tomar productos de transformaciones es una razón principal por la que las transformaciones son tan útiles en la teoría de la probabilidad.


    Referencia

    12 Por ejemplo, supongamos que\(\Omega\) es el intervalo cerrado [0, 1] de números reales con una distribución de probabilidad uniforme sobre [0, 1]. Si\(X(\omega)=1 / \omega\), entonces el punto de muestreo 0 se mapea\(\infty\) pero\(X\) sigue siendo considerado como un rv. Estos subconjuntos de probabilidad 0 suelen ser ignorados, tanto por ingenieros como matemáticos. Así, por ejemplo, el conjunto\(\{\omega \in \Omega: X(\omega) \leq x\}\) significa el conjunto para el cual\(X(\omega)\) está definido y satisface\(X(\omega) \leq x\).

    13 Estas dos últimas modificaciones son limitaciones técnicas relacionadas con la teoría de medidas. Por lo general, pueden ser ignorados, ya que están satisfechos en todas menos en las condiciones más extrañas. Sin embargo, así como es importante saber que no todos los subconjuntos en un espacio de probabilidad son eventos, uno debe saber que no todas las funciones de\(\Omega\) a\(\mathbb{R}\) son rv.

    14 La función de distribución a veces se conoce como la función de distribución acumulativa.

    15 Estocástico y aleatorio son sinónimos, pero aleatorio se ha vuelto más popular para los rv y estocástico para los procesos estocásticos. La razón de la elección del autor es que la intuición de sentido común asociada con la aleatoriedad parece más importante que la precisión matemática en el razonamiento sobre los rv, mientras que para los procesos estocásticos, la intuición del sentido común causa confusión con mucha más frecuencia que con los rv. estocástico advierte al lector que tenga más cuidado.

    16 Esta definición es deliberadamente vaga, y la elección de si llamar a una secuencia de rv un proceso o una secuencia es una cuestión de costumbre y elección.

    17 Decimos que una secuencia\(Y_{1}, Y_{2}, \ldots\), de rv son IID si por cada entero\(n\), los rv\(Y_{1}, \ldots, Y_{n}\) son IID. Hay algunas sutilezas en ir al límite\(n \rightarrow \infty\), pero podemos evitar la mayoría de esas sutilezas trabajando con\(n\) -tuplas finitas e yendo al límite al final.

    18 Este es uno de esos argumentos enloquecedor que, aunque intuitivamente obvio, requiere de algún razonamiento cuidadoso para ser completamente convincente. Pasamos por varios argumentos similares con mucho cuidado en el Capítulo 2, y sugerimos que los lectores escépticos esperen hasta entonces para demostrarlo rigurosamente.

    19 Las pruebas con asterisco pueden omitirse sin una pérdida esencial de continuidad

    20 Véase Feller [7] para una derivación de estos resultados sobre los límites de Stirling. Feller también muestra que ese límite inferior mejorado a\(n !\) viene dado por\(\sqrt{2 \pi n}(n / e)^{n} \exp \left[\frac{1}{12 n}-\frac{1}{360 n^{3}}\right]\).

    22 Más específicamente, la integral de Riemann-Stieltjes, abreviada aquí como la integral Stieltjes, se denota como\(\int_{a}^{b} h(x) d F_{X}(x)\). Esta integral se define como el límite de una suma Riemann generalizada,\(\lim _{\delta \rightarrow 0} \sum_{n} h\left(x_{n}\right)\left[\mathrm{F}\left(y_{n}\right)-\right.\mathrm{F}(y_{n-1})]\) donde\(\left\{y_{n} ; n \geq 1\right\}\) es una secuencia de números crecientes de a a b satisfactoria\(y_{n}-y_{n-1} \leq \delta\) y\(y_{n-1}<x_{n} \leq y_{n}\) para todos\(n\) La integral Stieltjes existe sobre límites finitos si el límite existe y es independiente de las elecciones de \(\left\{y_{n}\right\}\)y\(\left\{x_{n}\right\}\) como\(\delta \rightarrow 0\). Existe sobre límites infinitos si existe sobre longitudes finitas y se puede tomar un límite sobre los límites de integración. Ver Rudin [18] para un excelente tratamiento elemental de la integración de Stieltjes, y ver Ejercicio 1.12 para algunos ejemplos.

    23 La cuestión de si una función de valor real de rv es en sí misma una rv suele abordarse mediante el uso de la teoría de medidas, y dado que en este texto no usamos ni desarrollamos el teario de medidas, usualmente simplemente asumimos (dentro de los límites del sentido común) que tal función es en sí misma una rv. Sin embargo, la suma\(X+Y\) de rv es tan importante a lo largo de esta asignatura que el Ejercicio 1.10 proporciona una derivación guiada de este resultado para\(X+Y\). De la misma manera, la suma\(S_{n}=X_{1}+\cdots+X_{n}\) de cualquier colección finita de rv es también una rv.

    24 Consulte el Ejercicio 1.12 para conocer algunas peculiaridades sobre esta definición.

    25 Esto supone que\(\mathrm{E}[X \mid Y=y]\) es finito para cada y, que es una de las razones por las que se dice que las expectativas existen sólo si son finitas.

    26 Este resultado depende de intercambiar el orden de diferenciación (con respecto a\(r\)) y la integración (con respecto a\(x\)). Esto puede demostrarse permisible porque\(\mathrm{g}_{X}(r)\) existe\(r\) tanto para mayores como para menores que 0, lo que a su vez implica, primero, que\(1-\mathrm{F}_{X}(x)\) debe acercarse a 0 exponencialmente como\(x \rightarrow \infty\) y, segundo, que\(\mathrm{F}_{X}(x)\) debe acercarse a 0 exponencialmente como\(x \rightarrow-\infty\).


    This page titled 1.3: Revisión de probabilidad is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Robert Gallager (MIT OpenCourseWare) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.