Saltar al contenido principal
LibreTexts Español

4.1: Definiciones y Propiedades Básicas

  • Page ID
    151913
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)
    \(\renewcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\bs}{\boldsymbol}\)

    El valor esperado es uno de los conceptos más importantes en probabilidad. El valor esperado de una variable aleatoria de valor real da el centro de la distribución de la variable, en un sentido especial. Adicionalmente, al calcular los valores esperados de diversas transformaciones reales de una variable aleatoria general, se extraen varias características interesantes de la distribución de la variable, incluyendo medidas de dispersión, simetría y correlación. En cierto sentido, el valor esperado es un concepto más general que la probabilidad misma.

    Conceptos Básicos

    Definiciones

    Como es habitual, comenzamos con un experimento aleatorio modelado por un espacio de probabilidad\((\Omega, \mathscr F, \P)\). Entonces, para revisar,\(\Omega\) es el conjunto de resultados,\(\mathscr F\) la recolección de eventos y\(\P\) la medida de probabilidad en el espacio muestral\((\Omega, \mathscr F)\). En las siguientes definiciones, asumimos que\(X\) es una variable aleatoria para el experimento, tomando valores en\(S \subseteq \R\).

    Si\(X\) tiene una distribución discreta con función de densidad de probabilidad\(f\) (por lo que\(S\) es contable), entonces el valor esperado de\(X\) se define de la siguiente manera (suponiendo que la suma está bien definida):\[ \E(X) = \sum_{x \in S} x f(x) \]

    La suma que define el valor esperado tiene sentido si la suma sobre el positivo\( x \in S \) es finita o la suma sobre el negativo\( x \in S \) es finita (o ambas). Esto asegura que la totalidad de la suma existe (como un número real extendido) y no depende del orden de los términos. Entonces como veremos, es posible que\( \E(X) \) sea un número real o\( \infty \) o\( -\infty \) o simplemente no exista. Por supuesto, si\(S\) es finito el valor esperado siempre existe como número real.

    Si\(X\) tiene una distribución continua con función de densidad de probabilidad\(f\) (y así\(S\) es típicamente un intervalo o una unión de intervalos disjuntos), entonces el valor esperado de\(X\) se define de la siguiente manera (asumiendo que la integral está bien definida):\[ \E(X) = \int_S x f(x) \, dx \]

    Las funciones de densidad de probabilidad en probabilidad aplicada básica que describen distribuciones continuas son continuas por tramos. Entonces la integral anterior tiene sentido si la integral sobre positiva\( x \in S \) es finita o la integral sobre negativa\( x \in S \) es finita (o ambas). Esto asegura que toda la integral exista (como un número real extendido). Entonces como en el caso discreto, es posible\( \E(X) \) que exista como un número real o como\( \infty \) o como\( -\infty \) o no existir en absoluto. Como puede adivinar, la definición para una distribución mixta es una combinación de las definiciones para los casos discretos y continuos.

    Si\(X\) tiene una distribución mixta, con densidad discreta parcial\(g\)\(D\) encendida y densidad continua parcial\(h\) en\(C\), donde\(D\) y\(C\) son disjuntas,\(D\) es contable,\(C\) es típicamente un intervalo, y\(S = D \cup C\). El valor esperado de\(X\) se define de la siguiente manera (asumiendo que la expresión de la derecha está bien definida):\[ \E(X) = \sum_{x \in D} x g(x) + \int_C x h(x) \, dx \]

    Para que el valor esperado anterior tenga sentido, la suma debe estar bien definida, ya que en el caso discreto, la integral debe estar bien definida, como en el caso continuo, y debemos evitar la temida forma indeterminada\( \infty - \infty \). En la siguiente sección sobre propiedades adicionales, veremos que las diversas definiciones dadas aquí se pueden unificar en una sola definición que funcione independientemente del tipo de distribución de\( X \). En la sección avanzada se da una definición aún más general sobre el valor esperado como integral.

    Interpretación

    El valor esperado de también\(X\) se llama la media de la distribución de\(X\) y se denota frecuentemente\(\mu\). La media es el centro de la distribución de probabilidad de\(X\) en un sentido especial. En efecto, si pensamos en la distribución como una distribución de masa (con masa total 1), entonces la media es el centro de masa tal como se define en la física. Las dos imágenes siguientes muestran funciones de densidad de probabilidad discreta y continua; en cada caso la media\(\mu\) es el centro de masa, el punto de equilibrio.

    DiscreteCenterMass.png

    Figura\(\PageIndex{1}\): La media\( \mu \) como centro de masa de una distribución discreta.

    ContinuousCenterMass.png

    Figura\(\PageIndex{2}\): La media\( \mu \) como centro de masa de una distribución continua.

    Recordemos las otras medidas del centro de una distribución que hemos estudiado:

    • Un modo es cualquiera\(x \in S\) que maximiza\(f\).
    • Una mediana es cualquiera\(x \in \R\) que satisfaga\(\P(X \lt x) \le \frac{1}{2}\) y\(\P(X \le x) \ge \frac{1}{2}\).

    Para entender el valor esperado de manera probabilística, supongamos que creamos un nuevo experimento compuesto repitiendo el experimento básico una y otra vez. Esto da una secuencia de variables aleatorias independientes\((X_1, X_2, \ldots)\), cada una con la misma distribución que\(X\). En términos estadísticos, estamos muestreando a partir de la distribución de\(X\). El valor promedio, o media muestral, después de las\(n\) corridas es\[ M_n = \frac{1}{n} \sum_{i=1}^n X_i \] Note que\( M_n \) es una variable aleatoria en el experimento compuesto. El hecho importante es que el valor promedio\(M_n\) converge al valor esperado\(\E(X)\) como\(n \to \infty\). El enunciado preciso de esto es la ley de los grandes números, uno de los teoremas fundamentales de la probabilidad. Verás la ley de grandes números en el trabajo en muchos de los ejercicios de simulación que se dan a continuación.

    Extensiones

    Si\(a \in \R\) y\(n \in \N\), el momento de\(X\) aproximadamente\(a\) de orden\(n\) se define para ser\[ \E\left[(X - a)^n\right]\] (asumiendo por supuesto que este valor esperado existe).

    Los momentos alrededor de 0 se denominan simplemente momentos (o a veces momentos crudos). Los momentos sobre\(\mu\) son los momentos centrales. El segundo momento central es particularmente importante, y se estudia en detalle en la sección de varianza. En algunos casos, si conocemos todos los momentos de\(X\), podemos determinar la distribución completa de\(X\). Esta idea se explora en la sección de generación de funciones.

    El valor esperado de una variable aleatoria\(X\) se basa, por supuesto, en la medida de probabilidad\(\P\) para el experimento. Esta medida de probabilidad podría ser una medida de probabilidad condicional, condicionada a un evento dado\(A \in \mathscr F\) para el experimento (con\(\P(A) \gt 0\)). La notación habitual es\(\E(X \mid A)\), y este valor esperado es calculado por las definiciones dadas anteriormente, excepto que la función de densidad de probabilidad condicional\(x \mapsto f(x \mid A)\) reemplaza a la función de densidad de probabilidad ordinaria\(f\). Es muy importante darse cuenta de que, a excepción de la notación, no hay conceptos nuevos involucrados. Todos los resultados que obtenemos para el valor esperado en general tienen análogos para estos valores esperados condicionales. Por otro lado, estudiaremos una noción más general de valor esperado condicional en una sección posterior.

    Propiedades Básicas

    El propósito de esta subsección es estudiar algunas de las propiedades esenciales de valor esperado. A menos que se indique lo contrario, asumiremos que existen los valores esperados indicados, y que los diversos conjuntos y funciones que utilizamos son medibles. Comenzamos con dos resultados simples pero aún esenciales.

    Variables simples

    Primero, recordemos que una constante\(c \in \R\) puede ser considerada como una variable aleatoria (en cualquier espacio de probabilidad) que toma solo el valor\(c\) con probabilidad 1. La distribución correspondiente a veces se denomina masa puntual en\(c\).

    Si\( c \) es una variable aleatoria constante, entonces\(\E(c) = c\).

    Prueba

    Como variable aleatoria,\( c \) tiene una distribución discreta, entonces\( \E(c) = c \cdot 1 = c \).

    A continuación, recordemos que una variable indicadora es una variable aleatoria que toma solo los valores 0 y 1.

    Si\(X\) es una variable indicadora entonces\(\E(X) = \P(X = 1)\).

    Prueba

    \( X \)es discreto así que por definición,\( \E(X) = 1 \cdot \P(X = 1) + 0 \cdot \P(X = 0) = \P(X = 1) \).

    En particular, si\(\bs{1}_A\) es la variable indicadora de un evento\(A\), entonces, entonces\(\E\left(\bs{1}_A\right) = \P(A)\), en cierto sentido, el valor esperado subsume la probabilidad. Para un libro que toma el valor esperado, más que la probabilidad, como concepto fundamental de partida, véase el libro Probabilidad vía Expectativa, de Peter Whittle.

    Teorema de Cambio de Variables

    El valor esperado de una variable aleatoria de valor real da el centro de la distribución de la variable. Esta idea es mucho más poderosa de lo que podría aparecer primero. Al encontrar valores esperados de varias funciones de una variable aleatoria general, podemos medir muchas características interesantes de su distribución.

    Por lo tanto, supongamos que\(X\) es una variable aleatoria que toma valores en un conjunto general\(S\), y supongamos que\(r\) es una función desde\(S\) dentro\(\R\). Entonces\(r(X)\) es una variable aleatoria de valor real, y así tiene sentido computar\(\E\left[r(X)\right]\) (asumiendo como de costumbre que este valor esperado existe). Sin embargo, para calcular este valor esperado a partir de la definición requeriría conocer la función de densidad de probabilidad de la variable transformada\(r(X)\) (un problema difícil, en general). Afortunadamente, hay una manera mucho mejor, dada por el cambio de teorema de variables por valor esperado. A este teorema se le hace referencia a veces como la ley del estadístico inconsciente, presumiblemente porque es tan básico y natural que a menudo se usa sin darse cuenta de que es un teorema, y no una definición.

    Si\(X\) tiene una distribución discreta en un conjunto contable\(S\) con función de densidad de probabilidad\(f\). entonces\[ \E\left[r(X)\right] = \sum_{x \in S} r(x) f(x) \]

    Prueba
    DiscreteDiscrete.png
    Figura\(\PageIndex{3}\): El cambio de teorema de variables cuando\( X \) tiene una distribución discreta.

    El siguiente resultado es el cambio de teorema de variables cuando\(X\) tiene una distribución continua. Demostraremos la versión continua por etapas, primero cuando\( r \) tenga rango discreto por debajo y luego en la siguiente sección en plena generalidad. A pesar de que la prueba completa se retrasa, sin embargo, utilizaremos el teorema del cambio de variables en las pruebas de muchas de las otras propiedades de valor esperado.

    Supongamos que\(X\) tiene una distribución continua\( S \subseteq \R^n \) con función de densidad de probabilidad\( f \), y eso\(r: S \to \R\). Entonces\[ \E\left[r(X)\right] = \int_S r(x) f(x) \, dx \]

    Prueba cuando\(r\) tiene rango discreto
    ContinuousDiscrete.png
    Figura\(\PageIndex{4}\): El cambio de teorema de variables cuando\( X \) tiene una distribución continua y\( r \) tiene rango contable.

    Los resultados a continuación dan propiedades básicas de valor esperado. Estas propiedades son ciertas en general, pero limitaremos las pruebas principalmente al caso continuo. Las pruebas para el caso discreto son análogas, con sumas que reemplazan a las integrales. El teorema del cambio de variables es la principal herramienta que necesitaremos. En estos teoremas\(X\) y\(Y\) son variables aleatorias de valor real para un experimento (es decir, definidas sobre un espacio de probabilidad subyacente) y\(c\) es una constante. Como es habitual, suponemos que existen los valores esperados indicados. Asegúrate de probar las pruebas tú mismo antes de leer las que aparecen en el texto.

    Linealidad

    Nuestra primera propiedad es la propiedad aditiva.

    \(\E(X + Y) = \E(X) + \E(Y)\)

    Prueba

    Aplicamos el teorema del cambio de variables con la función\(r(x, y) = x + y\). Supongamos que\( (X, Y) \) tiene una distribución continua con PDF\( f \), y que\( X \) toma valores\( S \subseteq \R \) y\( Y \) toma valores\( T \subseteq \R \). Recordemos que\( X \) tiene PDF\(g\) dado por\( g(x) = \int_T f(x, y) \, dy \) para\( x \in S \) y\( Y \) tiene PDF\(h\) dado por\( h(y) = \int_S f(x, y) \, dx \) para\( y \in T \). Así\ comenzar {alinear}\ E (X + Y) & =\ int_ {S\ veces T} (x + y) f (x, y)\, d (x, y) =\ int_ {S\ veces T} x f (x, y)\, d (x, y) +\ int_ {S\ veces T} y f (x, y)\, d (x, y)\\ & =\ int_s x\ izquierda (\ int_t f (x, y)\, dy\ derecha)\, dx +\ int_t y\ izquierda (\ int_s f (x, y)\, dx\ derecha)\, dy =\ int_s x g (x)\, dx +\ int_t y h ( y)\, dy =\ E (X) +\ E (Y)\ end {align} Escribir las dobles integrales como integrales iteradas es un caso especial del teorema de Fubini. La prueba en el caso discreto es la misma, con sumas que sustituyen a las integrales.

    Nuestra siguiente propiedad es la propiedad de escalado.

    \(\E(c X) = c \, \E(X)\)

    Prueba

    Aplicamos la fórmula de cambio de variables con la función\(r(x) = c x\). Supongamos que\( X \) tiene una distribución continua\( S \subseteq \R \) encendida con PDF\( f \). Entonces\[ \E(c X) = \int_S c \, x f(x) \, dx = c \int_S x f(x) \, dx = c \E(X) \] Otra vez, la prueba en el caso discreto es la misma, con sumas que sustituyen a las integrales.

    Aquí está la linealidad del valor esperado en plena generalidad. Es un simple corolario de los dos resultados anteriores.

    Supongamos que\((X_1, X_2, \ldots)\) es una secuencia de variables aleatorias de valor real definidas en el espacio de probabilidad subyacente y que\((a_1, a_2, \ldots, a_n)\) es una secuencia de constantes. Entonces\[\E\left(\sum_{i=1}^n a_i X_i\right) = \sum_{i=1}^n a_i \E(X_i)\]

    Así, el valor esperado es una operación lineal sobre la colección de variables aleatorias de valor real para el experimento. La linealidad del valor esperado es tan básica que es importante entender esta propiedad a nivel intuitivo. En efecto, está implícito en la interpretación del valor esperado dado en la ley de los grandes números.

    Supongamos que\((X_1, X_2, \ldots, X_n)\) es una secuencia de variables aleatorias de valor real con media común\(\mu\).

    1. Dejar\(Y = \sum_{i=1}^n X_i\), la suma de las variables. Entonces\(\E(Y) = n \mu\).
    2. Let\(M = \frac{1}{n} \sum_{i=1}^n X_i\), el promedio de las variables. Entonces\(\E(M) = \mu\).
    Prueba
    1. Por la propiedad aditiva,\[ \E(Y) = \E\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \E(X_i) = \sum_{i=1}^n \mu = n \mu \]
    2. Tenga en cuenta que\( M = Y / n \). De ahí a partir de la propiedad de escalado y parte (a),\( \E(M) = \E(Y) / n = \mu \).

    Si las variables aleatorias en el resultado anterior también son independientes e idénticamente distribuidas, entonces en términos estadísticos, la secuencia es una muestra aleatoria de tamaño\(n\) de la distribución común, y\( M \) es la media muestral.

    En varios casos importantes, una variable aleatoria de una distribución especial se puede descomponer en una suma de variables aleatorias más simples, y luego se puede usar la parte (a) del último teorema para calcular el valor esperado.

    Desigualdades

    Los siguientes ejercicios dan algunas desigualdades básicas para el valor esperado. La primera, conocida como la propiedad positiva es la más obvia, pero también es la principal herramienta para probar las demás.

    Supongamos que\(\P(X \ge 0) = 1\). Entonces

    1. \(\E(X) \ge 0\)
    2. Si\( \P(X \gt 0) \gt 0 \) entonces\( \E(X) \gt 0 \).
    Prueba
    1. Este resultado se desprende de la definición, ya que podemos tomar el conjunto de valores\( S \) de\( X \) para ser un subconjunto de\( [0, \infty) \).
    2. Supongamos que\( \P(X \gt 0) \gt 0 \) (además de\( \P(X \ge 0) = 1 \)). Por el teorema de continuidad para eventos crecientes, existe\( \epsilon \gt 0 \) tal que\( \P(X \ge \epsilon) \gt 0 \). Por lo tanto\( X - \epsilon \bs{1}(X \ge \epsilon) \ge 0 \) (con probabilidad 1). Por parte (a), linealidad, y Teorema 2,\( \E(X) - \epsilon \P(X \ge \epsilon) \gt 0 \) así\( \E(X) \ge \epsilon \P(X \ge \epsilon) \gt 0 \).

    A continuación se encuentra la propiedad creciente, quizás la propiedad más importante de valor esperado, después de la linealidad.

    Supongamos que\(\P(X \le Y) = 1\). Entonces

    1. \(\E(X) \le \E(Y)\)
    2. Si\( \P(X \lt Y) \gt 0 \) entonces\( \E(X) \lt \E(Y) \).
    Prueba
    1. El supuesto es equivalente a\( \P(Y - X \ge 0) = 1 \). Así,\( \E(Y - X) \ge 0 \) por la parte (a) de la propiedad positiva. Pero luego\( \E(Y) - \E(X) \ge 0 \) por la linealidad del valor esperado.
    2. De igual manera, este resultado se desprende de la parte (b) de la propiedad positiva.

    Desigualdades de valor absoluto:

    1. \(\left|\E(X)\right| \le \E\left(\left|X\right|\right)\)
    2. Si\( \P(X \gt 0) \gt 0 \) y\( \P(X \lt 0) \gt 0 \) entonces\( \left|\E(X)\right| \lt \E\left(\left|X\right|\right) \).
    Prueba
    1. Tenga en cuenta que\( -\left|X\right| \le X \le \left|X\right| \) (con probabilidad 1) así por parte (a) de la propiedad creciente,\( \E\left(-\left|X\right|\right) \le \E(X) \le \E\left(\left|X\right|\right) \). Por linealidad,\( -\E\left(\left|X\right|\right) \le \E(X) \le \E\left(\left|X\right|\right) \) lo que implica\( \left|\E(X)\right| \le \E\left(\left|X\right|\right) \).
    2. Si\( \P(X \gt 0) \gt 0 \) entonces\( \P\left(-\left|X\right| \lt X\right) \gt 0 \), y si\( \P(X \lt 0) \gt 0 \) entonces\( \P\left(X \lt \left|X\right|\right) \gt 0 \). De ahí por la parte (b) de la propiedad creciente,\( -\E\left(\left|X\right|\right) \lt \E(X) \lt \E\left(\left|X\right|\right) \) y por lo tanto\( \left|\E(X)\right| \lt \E\left(\left|X\right|\right) \).

    Solo en Lake Woebegone están todos los niños por encima de la media:

    Si\( \P\left[X \ne \E(X)\right] \gt 0 \) entonces

    1. \(\P\left[X \gt \E(X)\right] \gt 0\)
    2. \(\P\left[X \lt \E(X)\right] \gt 0\)
    Prueba
    1. Demostramos lo contrapositivo. Así supongamos\( \P\left[X \gt \E(X)\right] = 0 \) que para eso\( \P\left[X \le \E(X)\right] = 1 \). Si\( \P\left[X \lt \E(X)\right] \gt 0 \) entonces por la creciente propiedad que tenemos\( \E(X) \lt \E(X) \), una contradicción. Por lo tanto\( \P\left[X = \E(X)\right] = 1\).
    2. Del mismo modo, si\( \P\left[X \lt \E(X)\right] = 0 \) entonces\( \P\left[X = \E(X)\right] = 1 \).

    Así, si no\( X \) es una constante (con probabilidad 1), entonces se\( X \) deben tomar valores mayores que su media con probabilidad positiva y valores menores que su media con probabilidad positiva.

    Simetría

    Nuevamente, supongamos que\( X \) es una variable aleatoria que toma valores\( \R \). La distribución de\( X \) es simétrica sobre\( a \in \R \) si la distribución de\( a - X \) es la misma que la distribución de\( X - a \).

    Supongamos que la distribución de\( X \) es simétrica sobre\( a \in \R \). Si\(\E(X)\) existe, entonces\(\E(X) = a\).

    Prueba

    Por supuesto, la distribución de\(X - a\) es la misma que la distribución de\(a - X\). Ya que\( \E(X) \) existe\( \E(a - X) = \E(X - a) \) lo tenemos por linealidad\( a - \E(X) = \E(X) - a \). Equivalentemente\( 2 \E(X) = 2 a \).

    El resultado anterior se aplica si\(X\) tiene una distribución continua on\(\R\) con una densidad de probabilidad\(f\) que es simétrica sobre\(a\); es decir,\(f(a + x) = f(a - x)\) para\(x \in \R\).

    Independencia

    Si\(X\) y\(Y\) son variables aleatorias independientes de valor real entonces\(\E(X Y) = \E(X) \E(Y)\).

    Prueba

    Supongamos que\( X \) tiene una distribución continua\( S \subseteq \R \) encendida con PDF\( g \) y que\( Y \) tiene una distribución continua\( T \subseteq \R \) encendida con PDF\( h \). Después\( (X, Y) \) tiene PDF\( f(x, y) = g(x) h(y) \) encendido\( S \times T \). Aplicamos el teorema del cambio de variables con la función\(r(x, y) = x y\). \[ \E(X Y) = \int_{S \times T} x y f(x, y) \, d(x, y) = \int_{S \times T} x y g(x) h(y) \, d(x, y) = \int_S x g(x) \, dx \int_T y h(y) \, dy = \E(X) \E(Y) \]La prueba en el caso discreto es similar con sumas que reemplazan integrales.

    Del último resultado se deduce que las variables aleatorias independientes no están correlacionadas (concepto que estudiaremos en una sección posterior). Además, este resultado es más poderoso de lo que podría aparecer primero. Supongamos que\(X\) y\(Y\) son variables aleatorias independientes tomando valores en espacios generales\(S\) y\(T\) respectivamente, y eso\(u: S \to \R\) y\(v: T \to \R\). Entonces\(u(X)\) y\(v(Y)\) son variables aleatorias independientes, de valor real y por lo tanto\[ \E\left[u(X) v(Y)\right] = \E\left[u(X)\right] \E\left[v(Y)\right] \]

    Ejemplos y Aplicaciones

    Como siempre, asegúrate de probar las pruebas y cálculos tú mismo antes de leer las pruebas y respuestas en el texto.

    Distribuciones Uniformes

    Las distribuciones discretas uniformes son ampliamente utilizadas en la probabilidad combinatoria, y modelan un punto elegido al azar de un conjunto finito.

    Supongamos que\(X\) tiene la distribución uniforme discreta en un conjunto finito\(S \subseteq \R\).

    1. \(\E(X)\)es el promedio aritmético de los números en\(S\).
    2. Si los puntos en\( S \) están espaciados uniformemente con los puntos finales\(a, \, b\), entonces\(\E(X) = \frac{a + b}{2}\), el promedio de los puntos finales.
    Prueba
    1. Vamos\( n = \#(S) \), el número de puntos en\( S \). Entonces\( X \) tiene PDF\( f(x) = 1 / n \) para\( x \in S \) así\[ \E(X) = \sum_{x \in S} x \frac{1}{n} = \frac{1}{n} \sum_{x \in S} x\]
    2. Supongamos eso\( S = \{a, a + h, a + 2 h, \ldots a + (n - 1) h\} \) y vamos\( b = a + (n - 1) h \), el punto final correcto. Al igual que en (a),\( S \) tiene\( n \) puntos así usando (a) y la fórmula para la suma de los primeros enteros\( n - 1 \) positivos, tenemos\[ \E(X) = \frac{1}{n} \sum_{i=0}^{n-1} (a + i h) = \frac{1}{n}\left(n a + h \frac{(n - 1) n}{2}\right) = a + \frac{(n - 1) h}{2} = \frac{a + b}{2} \]

    Los resultados anteriores son fáciles de ver si pensamos en el centro de masa, ya que la distribución uniforme discreta corresponde a un conjunto finito de puntos con igual masa.\( \E(X) \)

    Abra el simulador de distribución especial y seleccione la distribución uniforme discreta. Esta es la distribución uniforme en\( n \) puntos, comenzando en\( a \), uniformemente espaciados a distancia\( h \). Varíe los parámetros y anote la ubicación de la media en relación con la función de densidad de probabilidad. Para valores seleccionados de los parámetros, ejecute la simulación 1000 veces y compare la media empírica con la media de distribución.

    A continuación, recordemos que la distribución uniforme continua en un intervalo acotado corresponde a seleccionar un punto al azar del intervalo. Las distribuciones uniformes continuas surgen en probabilidad geométrica y una variedad de otros problemas aplicados.

    Supongamos que\(X\) tiene la distribución uniforme continua en un intervalo\([a, b]\), donde\( a, \, b \in \R \) y\( a \lt b \).

    1. \(\E(X) = \frac{a + b}{2}\), el punto medio del intervalo.
    2. \( E\left(X^n\right) = \frac{1}{n + 1}\left(a^n + a^{n-1} b + \cdots + a b^{n-1} + b^n\right) \)para\( n \in \N \).
    Prueba
    1. Recordemos que\( X \) tiene PDF\( f(x) = \frac{1}{b - a} \). De ahí\[ \E(X) = \int_a^b x \frac{1}{b - a} \, dx = \frac{1}{b - a} \frac{b^2 - a^2}{2} = \frac{a + b}{2} \]
    2. Por el cambio de fórmula de variables,\[\E\left(X^n\right) = \int_a^b \frac{1}{b - a} x^n \, dx = \frac{b^{n+1} - a^{n+1}}{(n + 1)`(b - a)} = \frac{1}{n + 1}\left(a^n + a^{n-1} b + \cdots a b^{n-1} + b^n\right)\]

    La parte (a) es fácil de ver si pensamos en la media como el centro de masa, ya que la distribución uniforme corresponde a una distribución uniforme de la masa en el intervalo.

    Abra el simulador de distribución especial y seleccione la distribución uniforme continua. Esta es la distribución uniforme del intervalo\( [a, a + w] \). Varíe los parámetros y anote la ubicación de la media en relación con la función de densidad de probabilidad. Para valores seleccionados de los parámetros, ejecute la simulación 1000 veces y compare la media empírica con la media de distribución.

    A continuación, el valor promedio de una función en un intervalo, como se define en el cálculo, tiene una interpretación agradable en términos de la distribución uniforme.

    Supongamos que\(X\) se distribuye uniformemente en el intervalo\([a, b]\), y que\(g\) es una función integrable desde\([a, b]\) dentro\(\R\). Entonces\(\E\left[g(X)\right]\) es el valor promedio de\(g\) on\([a, b]\):\[ \E\left[g(X)\right] = \frac{1}{b - a} \int_a^b g(x) dx \]

    Prueba

    Este resultado se desprende inmediatamente del teorema del cambio de variables, ya que\( X \) tiene PDF\( f(x) = 1 / (b - a) \) para\( a \le x \le b \).

    Encuentre el valor promedio de las siguientes funciones en los intervalos dados:

    1. \(f(x) = x\)en\([2, 4]\)
    2. \(g(x) = x^2\)en\([0, 1]\)
    3. \(h(x) = \sin(x)\)encendido\([0, \pi]\).
    Responder
    1. \(3\)
    2. \(\frac{1}{3}\)
    3. \(\frac{2}{\pi}\)

    El siguiente ejercicio ilustra el valor del teorema del cambio de variables en el cálculo de los valores esperados.

    Supongamos que\(X\) se distribuye uniformemente en\([-1, 3]\).

    1. Dar la función de densidad de probabilidad de\( X \).
    2. Encuentra la función de densidad de probabilidad de\(X^2\).
    3. Encontrar\(E\left(X^2\right)\) usando la función de densidad de probabilidad en (b).
    4. Encontrar\(\E\left(X^2\right)\) usando el teorema del cambio de variables.
    Responder
    1. \(f(x) = \frac{1}{4}\)para\( -1 \le x \le 3 \)
    2. \(g(y) = \begin{cases} \frac{1}{4} y^{-1/2}, & 0 \lt y \lt 1 \\ \frac{1}{8} y^{-1/2}, & 1 \lt y \lt 9 \end{cases}\)
    3. \(\int_0^9 y g(y) \, dy = \frac{7}{3}\)
    4. \(\int_{-1}^3 x^2 f(x) \, dx = \frac{7}{3}\)

    La distribución uniforme discreta y la distribución uniforme continua se estudian con más detalle en el capítulo sobre Distribuciones Especiales.

    Dados

    Recordemos que un dado estándar es un dado de seis lados. Un dado justo es aquel en el que las caras son igualmente probables. Un troquel plano ace-seis es un dado estándar en el que las caras 1 y 6 tienen probabilidad\(\frac{1}{4}\) cada una, y las caras 2, 3, 4 y 5 tienen probabilidad\(\frac{1}{8}\) cada una.

    Se lanzan dos dados estándar y justos, y se\((X_1, X_2)\) registran los puntajes. Encuentra el valor esperado de cada una de las siguientes variables.

    1. \(Y = X_1 + X_2\), la suma de los puntajes.
    2. \(M = \frac{1}{2} (X_1 + X_2)\), el promedio de las puntuaciones.
    3. \(Z = X_1 X_2\), producto de las puntuaciones.
    4. \(U = \min\{X_1, X_2\}\), la puntuación mínima
    5. \(V = \max\{X_1, X_2\}\), la puntuación máxima.
    Responder
    1. \(7\)
    2. \(\frac{7}{2}\)
    3. \(\frac{49}{4}\)
    4. \(\frac{101}{36}\)
    5. \(\frac{19}{4}\)

    En el experimento de dados, seleccione dos justos mueren. Anote la forma de la función de densidad de probabilidad y la ubicación de la media para las variables suma, mínima y máxima. Ejecutar el experimento 1000 veces y comparar la media muestral y la media de distribución para cada una de estas variables.

    Se lanzan dos dados planos estándar, ase-seis, y se\((X_1, X_2)\) registran los puntajes. Encuentra el valor esperado de cada una de las siguientes variables.

    1. \(Y = X_1 + X_2\), la suma de los puntajes.
    2. \(M = \frac{1}{2} (X_1 + X_2)\), el promedio de las puntuaciones.
    3. \(Z = X_1 X_2\), producto de las puntuaciones.
    4. \(U = \min\{X_1, X_2\}\), la puntuación mínima
    5. \(V = \max\{X_1, X_2\}\), la puntuación máxima.
    Responder
    1. \(7\)
    2. \(\frac{7}{2}\)
    3. \(\frac{49}{4}\)
    4. \(\frac{77}{32}\)
    5. \(\frac{147}{32}\)

    En el experimento de dados, seleccione dos troqueles planos ace-seis. Anote la forma de la función de densidad de probabilidad y la ubicación de la media para las variables suma, mínima y máxima. Ejecutar el experimento 1000 veces y comparar la media muestral y la media de distribución para cada una de estas variables.

    Juicios de Bernoulli

    Recordemos que un proceso de ensayos de Bernoulli es una secuencia\(\bs{X} = (X_1, X_2, \ldots)\) de variables aleatorias indicadoras independientes, distribuidas idénticamente. En el lenguaje habitual de confiabilidad,\(X_i\) denota el resultado del ensayo\(i\), donde 1 denota éxito y 0 denota fracaso. La probabilidad de éxito\(p = \P(X_i = 1) \in [0, 1]\) es el parámetro básico del proceso. El proceso lleva el nombre de Jacob Bernoulli. Un capítulo separado sobre los juicios de Bernoulli explora este proceso en detalle.

    Porque\(n \in \N_+\), el número de éxitos en los primeros\(n\) ensayos es\(Y = \sum_{i=1}^n X_i\). Recordemos que esta variable aleatoria tiene la distribución binomial con parámetros\(n\) y\(p\), y tiene la función de densidad de probabilidad\(f\) dada por\[ f(y) = \binom{n}{y} p^y (1 - p)^{n - y}, \quad y \in \{0, 1, \ldots, n\} \]

    Si\(Y\) tiene la distribución binomial con parámetros\(n\) y\(p\) luego\(\E(Y) = n p\)

    Prueba de la definición

    Las herramientas críticas que necesitamos involucran coeficientes binomiales: la identidad\(y \binom{n}{y} = n \binom{n - 1}{y - 1}\) para\( y, \, n \in \N_+ \), y el teorema binomial:\ begin {align}\ E (Y) & =\ sum_ {y=0} ^n y\ binom {n} {y} p^y (1 - p) ^ {n-y} =\ sum_ {y=1} ^n\ binom {n - 1} {y - 1} ^n (1 - p) ^ {n-y}\\ & = n p\ suma_ {y=1} ^ {n-1}\ binom {n - 1} {y - 1} p^ {y-1} (1 - p) ^ {(n-1) - (y - 1)} = n p [p + (1 - p)] ^ {n-1} = n p\ end {align}

    Prueba usando la propiedad aditiva

    Ya que\( Y = \sum_{i=1}^n X_i \), el resultado sigue inmediatamente del valor esperado de una variable indicadora y de la propiedad aditiva, ya que\( \E(X_i) = p \) para cada una\( i \in \N_+ \).

    Obsérvese la superioridad de la segunda prueba a la primera. El resultado también tiene sentido intuitivo: en\( n \) ensayos con probabilidad de éxito\( p \), esperamos\( n p \) éxitos.

    En el experimento de monedas binomiales, variar\(n\)\(p\) y anotar la forma de la función de densidad de probabilidad y la ubicación de la media. Para valores seleccionados de\(n\) y\(p\), ejecute el experimento 1000 veces y compare la media de la muestra con la media de distribución.

    Supongamos eso\( p \in (0, 1] \), y vamos a\(N\) denotar el número de prueba del primer éxito. Esta variable aleatoria tiene la distribución geométrica on\(\N_+\) con parámetro\(p\), y tiene la función de densidad de probabilidad\(g\) dada por\[ g(n) = p (1 - p)^{n-1}, \quad n \in \N_+ \]

    Si\(N\) tiene la distribución geométrica\(\N_+\) con parámetro\(p \in (0, 1]\) entonces\(\E(N) = 1 / p\).

    Prueba

    La clave es la fórmula para el derivativo de una serie geométrica:\[ \E(N) = \sum_{n=1}^\infty n p (1 - p)^{n-1} = -p \frac{d}{dp} \sum_{n=0}^\infty (1 - p)^n = -p \frac{d}{dp} \frac{1}{p} = p \frac{1}{p^2} = \frac{1}{p}\]

    Nuevamente, el resultado tiene sentido intuitivo. Dado que\( p \) es la probabilidad de éxito, esperamos que ocurra un éxito después de\( 1 / p \) los ensayos.

    En el experimento binomial negativo, seleccione\(k = 1\) para obtener la distribución geométrica. Varíe\(p\) y anote la forma de la función de densidad de probabilidad y la ubicación de la media. Para valores seleccionados de\(p\), ejecute el experimento 1000 veces y compare la media de la muestra con la media de distribución.

    La distribución hipergeométrica

    Supongamos que una población consiste en\(m\) objetos;\(r\) de los objetos son tipo 1 y\(m - r\) son tipo 0. Se elige una muestra de\(n\) objetos al azar, sin reemplazo. Los parámetros\(m, \, r, \, n \in \N\) con\(r \le m\) y\(n \le m\). Let\(X_i\) denotar el tipo del objeto\(i\) th seleccionado. Recordemos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una secuencia de variable aleatoria indicadora idéntica distribuida (pero no independiente) con\( \P(X_i = 1) = r / m \) para cada una\( i \in \{1, 2, \ldots, n\} \).

    Dejar\(Y\) denotar el número de objetos tipo 1 en la muestra, de modo que eso\(Y = \sum_{i=1}^n X_i\). Recordemos que\(Y\) tiene la distribución hipergeométrica, que tiene la función de densidad de probabilidad\(f\) dada por\[ f(y) = \frac{\binom{r}{y} \binom{m - r}{n - y}}{\binom{m}{n}}, \quad y \in \{0, 1, \ldots, n\} \]

    Si\(Y\) tiene la distribución hipergeométrica con parámetros\(m\),\(n\), y\(r\) luego\(\E(Y) = n \frac{r}{m}\).

    Prueba de la definición

    Usando el PDF hipergeométrico,\[\E(Y) = \sum_{y=0}^n y \frac{\binom{r}{y} \binom{m - r}{n - y}}{\binom{m}{n}}\] Tenga en cuenta que el\(y = 0\) término es 0. Para los otros términos, podemos usar la identidad\(y \binom{r}{y} = r \binom{r-1}{y-1}\) para obtener\[\E(Y) = \frac{r}{\binom{m}{n}} \sum_{y=1}^n \binom{r - 1}{y - 1} \binom{m - r}{n - y}\] Pero sustituyendo\(k = y - 1\) y usando otra identidad fundamental,\[\sum_{y=1}^n \binom{r - 1}{y - 1} \binom{m - r}{n - y} = \sum_{k=0}^{n-1} \binom{r - 1}{k} \binom{m - r}{n - 1 - k} = \binom{m - 1}{n - 1}\] Así que sustituyendo y haciendo un poco de álgebra da\(\E(Y) = n \frac{r}{m}\).

    Prueba usando la propiedad aditiva

    Una prueba mucho mejor utiliza la propiedad aditiva y la representación de\(Y\) como suma de variables indicadoras. El resultado sigue inmediatamente ya que\( \E(X_i) = r / m \) para cada uno\( i \in \{1, 2, \ldots n\} \).

    En el experimento de bola y urna\(n\), variar\(r\),\(m\) y anotar la forma de la función de densidad de probabilidad y la ubicación de la media. Para valores seleccionados de los parámetros, ejecute el experimento 1000 veces y compare la media de la muestra con la media de distribución.

    Tenga en cuenta que si seleccionamos los objetos con reemplazo, entonces\(\bs{X}\) sería una secuencia de ensayos de Bernoulli, y por lo tanto\(Y\) tendría la distribución binomial con parámetros\(n\) y\(p = \frac{r}{m}\). Así, la media seguiría siendo\(\E(Y) = n \frac{r}{m}\).

    La distribución de Poisson

    Recordemos que la distribución de Poisson tiene la función de densidad de probabilidad\(f\) dada por\[ f(n) = e^{-a} \frac{a^n}{n!}, \quad n \in \N \] donde\(a \in (0, \infty)\) es un parámetro. La distribución de Poisson lleva el nombre de Simeon Poisson y es ampliamente utilizada para modelar el número de puntos aleatorios en una región de tiempo o espacio; el parámetro\(a\) es proporcional al tamaño de la región. La distribución de Poisson se estudia en detalle en el capítulo sobre el Proceso de Poisson.

    Si\(N\) tiene la distribución de Poisson con parámetro\(a\) entonces\(\E(N) = a\). Así, el parámetro de la distribución de Poisson es la media de la distribución.

    Prueba

    La prueba depende de la serie estándar para la función exponencial

    \[ \E(N) = \sum_{n=0}^\infty n e^{-a} \frac{a^n}{n!} = e^{-a} \sum_{n=1}^\infty \frac{a^n}{(n - 1)!} = e^{-a} a \sum_{n=1}^\infty \frac{a^{n-1}}{(n-1)!} = e^{-a} a e^a = a.\]

    En el experimento de Poisson, el parámetro es\(a = r t\). Varíe el parámetro y anote la forma de la función de densidad de probabilidad y la ubicación de la media. Para diversos valores del parámetro, ejecute el experimento 1000 veces y compare la media de la muestra con la media de distribución.

    La distribución exponencial

    Recordemos que la distribución exponencial es una distribución continua con función de densidad de probabilidad\(f\) dada por\[ f(t) = r e^{-r t}, \quad t \in [0, \infty) \] donde\(r \in (0, \infty)\) está el parámetro de tasa. Esta distribución es ampliamente utilizada para modelar tiempos de falla y otros tiempos de llegada; en particular, la distribución gobierna el tiempo entre llegadas en el modelo de Poisson. La distribución exponencial se estudia en detalle en el capítulo sobre el Proceso de Poisson.

    Supongamos que\(T\) tiene la distribución exponencial con parámetro rate\(r\). Entonces\( \E(T) = 1 / r \).

    Prueba

    Este resultado se desprende de la definición y una integración por partes:

    \[ \E(T) = \int_0^\infty t r e^{-r t} \, dt = -t e^{-r t} \bigg|_0^\infty + \int_0^\infty e^{-r t} \, dt = 0 - \frac{1}{r} e^{-rt} \bigg|_0^\infty = \frac{1}{r} \]

    Recordemos que el modo de\( T \) es 0 y la mediana de\( T \) es\( \ln 2 / r \). Observe cómo se ordenan estas medidas de centro:\(0 \lt \ln 2 / r \lt 1 / r\)

    En el experimento gamma, configurado\(n = 1\) para obtener la distribución exponencial. Esta app simula la primera llegada a un proceso de Poisson. Varíe\(r\) con la barra de desplazamiento y anote la posición de la media con respecto a la gráfica de la función de densidad de probabilidad. Para valores seleccionados de\(r\), ejecute el experimento 1000 veces y compare la media de la muestra con la media de distribución.

    Supongamos nuevamente que\(T\) tiene la distribución exponencial con parámetro de tasa\(r\) y supongamos que\(t \gt 0\). Encuentra\(\E(T \mid T \gt t)\).

    Responder

    \(t + \frac{1}{r}\)

    La distribución Gamma

    Recordemos que la distribución gamma es una distribución continua con función de densidad de probabilidad\(f\) dada por\[ f(t) = r^n \frac{t^{n-1}}{(n - 1)!} e^{-r t}, \quad t \in [0, \infty)\] donde\(n \in N_+\) es el parámetro shape y\(r \in (0, \infty)\) es el parámetro rate. Esta distribución es ampliamente utilizada para modelar tiempos de falla y otros tiempos de llegada, y en particular, modela la\( n \) th llegada al proceso de Poisson. De esta manera se deduce que si\((X_1, X_2, \ldots, X_n)\) es una secuencia de variables aleatorias independientes, teniendo cada una la distribución exponencial con el parámetro rate\(r\), entonces\(T = \sum_{i=1}^n X_i\) tiene la distribución gamma con el parámetro shape\(n\) y el parámetro rate\(r\). La distribución gamma se estudia en mayor generalidad, con parámetros de forma no enteros, en el capítulo sobre las Distribuciones Especiales.

    Supongamos que\(T\) tiene la distribución gamma con el parámetro shape\(n\) y el parámetro rate\(r\). Entonces\(\E(T) = n / r\).

    Prueba de la definición

    La prueba es por inducción encendida\( n \), así que vamos a\( \mu_n \) denotar la media cuando el parámetro de forma es\( n \in \N_+ \). Cuando\( n = 1 \), tenemos la distribución exponencial con parámetro de tasa\( r \), así sabemos\( \mu_1 = 1 /r \) por nuestro resultado anterior. Supongamos que\( \mu_n = r / n \) para un dado\( n \in \N_+ \). Entonces\[ \mu_{n+1} = \int_0^\infty t r^{n + 1} \frac{t^n}{n!} e^{-r t} \, dt = \int_0^\infty r^{n+1} \frac{t^{n+1}}{n!} e^{-r t} \, dt\] Integrar por partes con\( u = \frac{t^{n+1}}{n!} \),\( dv = r^{n+1} e^{-r t} \, dt \) para que\( du = (n + 1) \frac{t^n}{n!} \, dt \) y\( v = -r^n e^{-r t} \). Entonces\[ \mu_{n+1} = (n + 1) \int_0^\infty r^n \frac{t^n}{n!} e^{-r t } \, dt = \frac{n+1}{n} \int_0^\infty t r^n \frac{t^{n-1}}{(n - 1)!} \, dt \] Pero la última integral es\( \mu_n \), así por la hipótesis de inducción,\( \mu_{n+1} = \frac{n + 1}{n} \frac{n}{r} = \frac{n + 1}{r}\).

    Prueba usando la propiedad aditiva

    El resultado se desprende inmediatamente de la propiedad aditiva y el hecho de que se\( T \) puede representar en la forma\( T = \sum_{i=1}^n X_i \) donde\( X_i \) tiene la distribución exponencial con parámetro\( r \) para cada uno\( i \in \{1, 2, \ldots, n\} \).

    Observe nuevamente lo más fácil e intuitiva que es la segunda prueba que la primera.

    Abrir el experimento gamma, que simula los tiempos de llegada al proceso de Poisson. Varíe los parámetros y anote la posición de la media con respecto a la gráfica de la función de densidad de probabilidad. Para los valores de parámetros seleccionados, ejecute el experimento 1000 veces y compare la media de la muestra con la media de distribución.

    Distribuciones Beta

    Las distribuciones de esta subsección pertenecen a la familia de distribuciones beta, las cuales son ampliamente utilizadas para modelar proporciones y probabilidades aleatorias. La distribución beta se estudia en detalle en el capítulo sobre Distribuciones Especiales.

    Supongamos que\(X\) tiene función de densidad de probabilidad\(f\) dada por\(f(x) = 3 x^2\) for\(x \in [0, 1]\).

    1. Encuentra la media de\(X\).
    2. Encuentra el modo de\(X\).
    3. Encuentra la mediana de\(X\).
    4. Esboce la gráfica\(f\) y muestre la ubicación de la media, la mediana y el modo en el\(x\) eje.
    Responder
    1. \(\frac{3}{4}\)
    2. \(1\)
    3. \(\left(\frac{1}{2}\right)^{1/3}\)

    En el simulador de distribución especial, seleccione la distribución beta y el conjunto\(a = 3\) y\(b = 1\) para obtener la distribución en el último ejercicio. Ejecutar el experimento 1000 veces y comparar la media de la muestra con la media de distribución.

    Supongamos que una esfera tiene un radio aleatorio\(R\) con función de densidad de probabilidad\(f\) dada por\(f(r) = 12 r ^2 (1 - r)\) for\(r \in [0, 1]\). Encuentra el valor esperado de cada uno de los siguientes:

    1. La circunferencia\(C = 2 \pi R\)
    2. El área de superficie\(A = 4 \pi R^2\)
    3. El volumen\(V = \frac{4}{3} \pi R^3\)
    Responder
    1. \(\frac{6}{5} \pi\)
    2. \(\frac{8}{5} \pi\)
    3. \(\frac{8}{21} \pi\)

    Supongamos que\(X\) tiene función de densidad de probabilidad\(f\) dada por\(f(x) = \frac{1}{\pi \sqrt{x (1 - x)}}\) for\(x \in (0, 1)\).

    1. Encuentra la media de\(X\).
    2. Encuentra la mediana de\(X\).
    3. Tenga en cuenta que\(f\) está sin límites, por lo que\(X\) no tiene un modo.
    4. Esboce la gráfica\(f\) y muestre la ubicación de la media y la mediana en el\(x\) eje.
    Responder
    1. \(\frac{1}{2}\)
    2. \(\frac{1}{2}\)

    La distribución beta particular en el último ejercicio también se conoce como la distribución (estándar) del arcoseno. Gobierna la última vez que el proceso de movimiento browniano alcanza 0 durante el intervalo de tiempo\( [0, 1] \). La distribución del arcoseno se estudia en mayor generalidad en el capítulo sobre Distribuciones Especiales.

    Abre el experimento de movimiento browniano y selecciona el último cero. Ejecute la simulación 1000 veces y compare la media de la muestra con la media de distribución.

    Supongamos que las calificaciones en una prueba son descritas por la variable aleatoria\( Y = 100 X \) donde\( X \) tiene la distribución beta con función de densidad de probabilidad\( f \) dada por\( f(x) = 12 x (1 - x)^2 \) for\( x \in [0, 1] \). Las calificaciones son generalmente bajas, por lo que el profesor decide curvar las calificaciones usando la transformación\( Z = 10 \sqrt{Y} = 100 \sqrt{X}\). Encuentra el valor esperado de cada una de las siguientes variables

    1. \( X \)
    2. \( Y \)
    3. \( Z \)
    Responder
    1. \( \E(X) = \frac{2}{5} \)
    2. \( \E(Y) = 40 \)
    3. \( \E(Z) = \frac{1280}{21} \approx 60.95 \)

    La distribución de Pareto

    Recordemos que la distribución de Pareto es una distribución continua con función de densidad de probabilidad\(f\) dada por

    \[ f(x) = \frac{a}{x^{a + 1}}, \quad x \in [1, \infty) \]

    donde\(a \in (0, \infty)\) es un parámetro. La distribución de Pareto lleva el nombre de Vilfredo Pareto. Se trata de una distribución de cola pesada que es ampliamente utilizada para modelar ciertas variables financieras. La distribución de Pareto se estudia en detalle en el capítulo sobre Distribuciones Especiales.

    Supongamos que\(X\) tiene la distribución de Pareto con parámetro shape\(a\). Entonces

    1. \(\E(X) = \infty\)si\(0 \lt a \le 1\)
    2. \(\E(X) = \frac{a}{a - 1}\)si\(a \gt 1\)
    Prueba
    1. Si\( 0 \lt a \lt 1 \),\[ \E(X) = \int_1^\infty x \frac{a}{x^{a+1}} \, dx = \int_1^\infty \frac{a}{x^a} \, dx = \frac{a}{-a + 1} x^{-a + 1} \bigg|_1^\infty = \infty \] desde el exponente\( -a + 1 \gt 0 \). Si\( a = 1 \),\( \E(X) = \int_1^\infty x \frac{1}{x^2} \, dx = \int_1^\infty \frac{1}{x} \, dx = \ln x \bigg|_1^\infty = \infty \).
    2. Si\( a \gt 1 \) entonces\[ \E(X) = \int_1^\infty x \frac{a}{x^{a+1}} \, dx = \int_1^\infty \frac{a}{x^a} \, dx = \frac{a}{-a + 1} x^{-a + 1} \bigg|_1^\infty = \frac{a}{a - 1} \]

    El ejercicio anterior nos da nuestro primer ejemplo de una distribución cuya media es infinita.

    En el simulador de distribución especial, seleccione la distribución de Pareto. Anote la forma de la función de densidad de probabilidad y la ubicación de la media. Para los siguientes valores del parámetro shape\(a\), ejecute el experimento 1000 veces y anote el comportamiento de la media empírica.

    1. \(a = 1\)
    2. \(a = 2\)
    3. \(a = 3\).

    La distribución de Cauchy

    Recordemos que la distribución (estándar) de Cauchy tiene función de densidad de probabilidad\(f\) dada por\[ f(x) = \frac{1}{\pi \left(1 + x^2\right)}, \quad x \in \R \] Esta distribución lleva el nombre de Augustin Cauchy. Las distribuciones de Cauchy se estudian en detalle en el capítulo sobre Distribuciones Especiales.

    Si\(X\) tiene la distribución de Cauchy entonces\( \E(X) \) no existe.

    Prueba

    Por definición,\[ \E(X) = \int_{-\infty}^\infty x \frac{1}{\pi (1 + x^2)} \, dx = \frac{1}{2 \pi} \ln\left(1 + x^2\right) \bigg|_{-\infty}^\infty \] que evalúa a la expresión sin sentido\( \infty - \infty \).

    Tenga en cuenta que la gráfica de\( f \) es simétrica alrededor de 0 y es unimodal. Así, el modo y la mediana de\( X \) son ambos 0. Por el resultado de simetría, si\( X \) tuviera una media, la media sería 0 también, pero ay la media no existe. Además, la inexistencia de la media no es sólo un tecnicismo pedante. Si pensamos en la distribución de probabilidad como una distribución masiva, entonces el momento a la derecha de\( a \) es\( \int_a^\infty (x - a) f(x) \, dx = \infty \) y el momento a la izquierda de\( a \) es\( \int_{-\infty}^a (x - a) f(x) \, dx = -\infty \) para cada\( a \in \R \). El centro de masa simplemente no existe. Probabilisiticamente, la ley de los grandes números falla, como se puede apreciar en el siguiente ejercicio de simulación:

    En el experimento de Cauchy (con los valores de parámetros predeterminados), una fuente de luz está a 1 unidad desde la posición 0 en una pared recta infinita. El ángulo que hace la luz con la perpendicular se distribuye uniformemente en el intervalo\( \left(\frac{-\pi}{2}, \frac{\pi}{2}\right) \), de manera que la posición del haz de luz en la pared tiene la distribución de Cauchy. Ejecutar la simulación 1000 veces y anotar el comportamiento de la media empírica.

    La distribución normal

    Recordemos que la distribución normal estándar es una distribución continua con función de densidad\(\phi\) dada por\[ \phi(z) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2} z^2}, \quad z \in \R \]

    Las distribuciones normales son ampliamente utilizadas para modelar mediciones físicas sujetas a pequeños errores aleatorios y se estudian en detalle en el capítulo sobre Distribuciones Especiales.

    Si\(Z\) tiene la distribución normal estándar entonces\( \E(X) = 0 \).

    Prueba

    Usando un simple cambio de variables, tenemos

    \[ \E(Z) = \int_{-\infty}^\infty z \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2} z^2} \, dz = - \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2} z^2} \bigg|_{-\infty}^\infty = 0 - 0 \]

    La distribución normal estándar es unimodal y simétrica aproximadamente\( 0 \). Así, la mediana, la media y el modo coinciden todos. De manera más general, para\(\mu \in (-\infty, \infty)\) y\(\sigma \in (0, \infty)\), recordar que\(X = \mu + \sigma Z\) tiene la distribución normal con parámetro de ubicación\(\mu\) y parámetro de escala\(\sigma\). \( X \)tiene función de densidad de probabilidad\( f \) dada por\[ f(x) = \frac{1}{\sqrt{2 \pi} \sigma} \exp\left[-\frac{1}{2}\left(\frac{x - \mu}{\sigma}\right)^2\right], \quad x \in \R \] El parámetro de ubicación es la media de la distribución:

    Si\( X \) tiene la distribución normal con parámetro de ubicación\( \mu \in \R \) y parámetro de escala\( \sigma \in (0, \infty) \), entonces\(\E(X) = \mu\)

    Prueba

    Por supuesto que podríamos usar la definición, pero una prueba usando linealidad y la representación en términos de la distribución normal estándar es trivial:\( \E(X) = \mu + \sigma \E(Z) = \mu \).

    En el simulador de distribución especial, seleccione la distribución normal. Varíe los parámetros y anote la ubicación de la media. Para los valores de parámetros seleccionados, ejecute la simulación 1000 veces y compare la media de la muestra con la media de distribución.

    Ejercicios adicionales

    Supongamos que\((X, Y)\) tiene función de densidad de probabilidad\(f\) dada por\(f(x, y) = x + y\) for\((x, y) \in [0, 1] \times [0, 1]\). Encuentra los siguientes valores esperados:

    1. \(\E(X)\)
    2. \(\E\left(X^2 Y\right)\)
    3. \(\E\left(X^2 + Y^2\right)\)
    4. \(\E(X Y \mid Y \gt X)\)
    Responder
    1. \(\frac{7}{12}\)
    2. \(\frac{17}{72}\)
    3. \(\frac{5}{6}\)
    4. \(\frac{1}{3}\)

    Supongamos que\(N\) tiene una distribución discreta con función de densidad de probabilidad\(f\) dada por\(f(n) = \frac{1}{50} n^2 (5 - n)\) for\(n \in \{1, 2, 3, 4\}\). Encuentra cada uno de los siguientes:

    1. La mediana de\(N\).
    2. El modo de\(N\)
    3. \(\E(N)\).
    4. \(\E\left(N^2\right)\)
    5. \(\E(1 / N)\).
    6. \(\E\left(1 / N^2\right)\).
    Responder
    1. 3
    2. 3
    3. \(\frac{73}{25}\)
    4. \(\frac{47}{5}\)
    5. \(\frac{2}{5}\)
    6. \(\frac{1}{5}\)

    Supongamos que\(X\) y\(Y\) son variables aleatorias de valor real con\(\E(X) = 5\) y\(\E(Y) = -2\). Encuentra\(\E(3 X + 4 Y - 7)\).

    Responder

    0

    Supongamos que\(X\) y\(Y\) son variables aleatorias independientes de valor real, y eso\(\E(X) = 5\) y\(\E(Y) = -2\). Encuentra\(\E\left[(3 X - 4) (2 Y + 7)\right]\).

    Responder

    33

    Supongamos que hay 5 cazadores de patos, cada uno un tiro perfecto. Una bandada de 10 patos sobrevuela, y cada cazador selecciona un pato al azar y dispara. Encuentra el número esperado de patos muertos.

    Solución

    Numerar los patos del 1 al 10. Para\(k \in \{1, 2, \ldots, 10\}\), deja\(X_k\) ser la variable indicadora que toma el valor 1 si\(k\) se mata pato y 0 de lo contrario. \(k\)Se mata a pato si al menos uno de los cazadores la selecciona, entonces\(\E(X_k) = \P(X_k = 1) = 1 - \left(\frac{9}{10}\right)^5\). El número de patos muertos es\(N = \sum_{k=1}^{10} X_k\) tan\(\E(N) = 10 \left[1 - \left(\frac{9}{10}\right)^5\right] = 4.095\)

    Para un análisis más completo del problema del cazador de patos, consulte El número de valores de muestra distintos en el capítulo sobre Modelos de muestreo finito.

    Considera el siguiente juego: Una urna contiene inicialmente una bola roja y una verde. Se selecciona una pelota al azar, y si la pelota es verde, el juego ha terminado. Si la pelota es roja, la pelota se devuelve a la urna, se agrega otra bola roja, y el juego continúa. En cada etapa, se selecciona una pelota al azar, y si la pelota es verde, el juego ha terminado. Si la pelota es roja, la pelota se devuelve a la urna, se agrega otra bola roja, y el juego continúa. Dejar\( X \) denotar la duración del juego (es decir, el número de selecciones requeridas para obtener una bola verde). Encuentra\( \E(X) \).

    Solución

    La función\( f \) de densidad de probabilidad de\( X \) se encontró en la sección sobre distribuciones discretas:\(f(x) = \frac{1}{x (x + 1)}\) for\(x \in \N_+\). La duración esperada del juego es infinita:\[\E(X) = \sum_{x=1}^\infty x \frac{1}{x (x + 1)} = \sum_{x=1}^\infty \frac{1}{x + 1} = \infty\]


    This page titled 4.1: Definiciones y Propiedades Básicas is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform.