Saltar al contenido principal
LibreTexts Español

11: Montecarlo- Áreas y Volúmenes

  • Page ID
    87509
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Primero revisamos el “proceso estadístico”. Por lo general, comenzamos con alguna población que deseamos caracterizar; luego sacamos una muestra de esta población; luego inspeccionamos los datos -por ejemplo como un histograma- y postulamos una densidad de probabilidad subyacente (aquí aprovechando la perspectiva de “frecuencia como probabilidad”); luego estimamos la parámetros de la densidad de la muestra; y finalmente estamos preparados para hacer inferencias sobre la población. Es crítico señalar que en general podemos “sacar” de una población sin conocer la densidad subyacente; esto a su vez nos permite calibrar la densidad postulada.

    Ya observamos una instancia de este proceso con nuestro experimento de volteo de monedas. En este caso, la población es todos los posibles “comportamientos” o volteretas de nuestra moneda; nuestra muestra es un número finito,\(n\), de volteretas de monedas; nuestra densidad de probabilidad subyacente es Bernoulli. Luego estimamos el parámetro Bernoulli - la probabilidad de cabezas,\(\theta\) - a través de nuestra media muestral e intervalos de confianza asociados (normalaproximación). Entonces estamos preparados para hacer inferencias: ¿la moneda es adecuada para decidir los momentos iniciales de un partido de fútbol? Nótese que en nuestros experimentos efectivamente se muestrea de una función de masa de probabilidad de Bernoulli con parámetro\(\theta\) pero sin conocer el valor de\(\theta\).

    La estimación de Bernoulli es muy importante, y ocurre en todo, desde volteretas de monedas hasta estimación de área e integral (por técnicas de Montecarlo introducidas en el Capítulo 12) hasta encuestas políticas y de preferencia de producto. Sin embargo, hay muchas otras funciones y densidades de masa probabilística importantes que surgen a menudo en la predicción o modelado de diversos fenómenos naturales y de ingeniería. Quizás premier entre las densidades es la densidad normal, o gaussiana.

    Hemos introducido la densidad normal univariada en la Sección 9.4. En este capítulo, para evitar confusiones con variables típicas en nuestra siguiente unidad, regresión, denotaremos nuestra variable aleatoria normal como\(W=W_{\mu, \sigma} \sim \mathcal{N}\left(\mu, \sigma^{2}\right)\) correspondiente a la función de densidad de probabilidad\(f_{W}(w)=f^{\text {normal }}\left(w ; \mu, \sigma^{2}\right)\). Recordamos que la densidad normal está completamente determinada por los dos parámetros\(\mu\) y\(\sigma\) que de hecho son la media y la desviación estándar, respectivamente, de la densidad normal.

    La densidad normal es ubicua por varias razones. Primero, de manera más pragmática, tiene algunas características bastante intuitivas: es simétrica sobre la media, toma su máximo (el modo) en la media (que también es la mediana, por simetría), y se caracteriza por solo dos parámetros: un centro (media) y un spread (desviación estándar). Segundo, y más profundamente, la densidad normal a menudo surge “debido” al teorema del límite central, descrito en la Sección 9.4.3. En resumen (de hecho, demasiado corto), una forma del teorema del límite central establece que el promedio de muchas perturbaciones aleatorias -tal vez descritas por diferentes densidades de probabilidad subyacentes- se acerca a la densidad normal. Dado que el comportamiento de muchos sistemas naturales y de ingeniería puede verse como consecuencia de muchas influencias aleatorias, la densidad normal se encuentra a menudo en la práctica.

    Como ejemplo intuitivo a partir de la bioestadística, consideramos la altura de las hembras estadounidenses (ver L Notas ganadoras sobre Estadística Aplicada, Universidad de Florida, http: //www. stat. uf 1. edu/ winner/statnotescomp/ appstat.pdf Capítulo 2, p 26). En este caso nuestra población es de mujeres estadounidenses de 25-34 años. Nuestra muestra podría ser los datos del Censo de Estados Unidos de 1992. El histograma parece bastante normal, y así podemos postular una densidad normal. A continuación aplicaremos los procedimientos de estimación que se describen a continuación para determinar la media y la desviación estándar (los dos parámetros asociados a nuestra densidad “elegida”). Por último, podemos hacer inferencias -ir más allá de la muestra a la población en su conjunto por ejemplo relacionada con las hembras estadounidenses en 2012.

    La elección de la población es importante tanto en la etapa de muestreo/estimación como por supuesto también en la etapa de inferencia. Y la generación de muestras adecuadas también puede ser un tema muy espinoso. Existe una inmensa literatura sobre estos temas que va mucho más allá de nuestro alcance y también, hasta cierto punto, dado nuestro enfoque en sistemas diseñados más que en sistemas sociales y biológicos más allá de nuestras necesidades inmediatas. Como solo un ejemplo, seríamos negligentes aplicar los resultados de una población de hembras estadounidenses a diferentes demografías como “hembras alrededor del mundo” o “jinetes femeninas estadounidenses” o de hecho “todos los géneros”.

    Debemos enfatizar que la densidad normal es en casi todos los casos una aproximación. Por ejemplo, muy raramente una cantidad puede tomar todos los valores por pequeños o grandes, y en particular las cantidades a menudo deben ser positivas. Sin embargo, la densidad normal puede seguir siendo una buena aproximación; por ejemplo, si\(\mu-3 \sigma\) es positiva, entonces los valores negativos son efectivamente “nunca vistos”. También hay que recalcar que hay muchos casos en los que la densidad normal no es apropiada, ni siquiera una buena aproximación. Como siempre, los datos deben entrar en la decisión de cómo modelar el fenómeno - ¿qué densidad de probabilidad con qué parámetros serán más efectivos?

    Como ejemplo de ingeniería más cercano a casa, ahora recurrimos a los datos de distancevoltage del Buscador de Rango Infrarrojo del Capítulo 1 de la Unidad I. Se puede motivar que de hecho la distancia\(D\) y el voltaje\(V\) estén inversamente relacionados, y por lo tanto es plausible suponer que \(D V=C\), donde\(C\) es una constante asociada a nuestro dispositivo particular. Por supuesto, en la práctica real, habrá error de medición, y así podríamos suponer plausiblemente que\[(D V)^{\text {meas }}=C+W\] donde\(W\) está una variable aleatoria normal con densidad\(\mathcal{N}\left(0, \sigma^{2}\right)\). Tenga en cuenta que asumimos que el ruido está centrado alrededor de cero pero de varianza desconocida. A partir de la propiedad de transformación del Capítulo 4, Ejemplo 9.4.5, podemos expresar aún más nuestras mediciones\[(D V)^{\text {meas }} \sim \mathcal{N}\left(C, \sigma^{2}\right)\] ya que si agregamos una constante a una variable aleatoria normal de media cero simplemente desplazamos la media. Tenga en cuenta que ahora tenemos un problema de estimación estadística clásica: determinar la media\(C\) y desviación estándar\(\sigma\) de una densidad normal. (Obsérvese que en gran parte habíamos ignorado el ruido en la Unidad I, aunque de hecho en la interpolación y diferenciación el ruido suele estar presente e incluso dominante; en tales casos preferimos “encajar”, como se describe con más detalle en la Unidad III.)

    En términos del proceso estadístico, nuestra población es todas las salidas posibles de nuestro dispositivo IR Range Finder, nuestra muestra será un número finito de mediciones de distancia-voltaje,\((D V)_{i}^{\text {meas }}, 1 \leq i \leq n\), nuestro procedimiento de estimación se presenta a continuación, y finalmente nuestra inferencia serán predicciones futuras de distancia a partir de lecturas de voltaje - a través de nuestra relación simple\(D=C / V\). Por supuesto, también será importante justificar de alguna manera o al menos inspeccionar nuestra suposición de que el ruido es gaussiano. Presentamos ahora el procedimiento de estimación estándar y muy simple para la densidad normal. Presentamos el método en términos de realización particular: la conexión con la probabilidad (y variables aleatorias) es a través de la interpretación frecuentista. Presumimos que\(W\) es una variable aleatoria normal con media\(\mu\) y desviación estándar\(\sigma\).

    Primero dibujamos una muestra de tamaño\(n, w_{j}, 1 \leq j \leq n\), de\(f_{W}(w)=f^{\text {normal }}\left(w ; \mu, \sigma^{2}\right)\). Luego calculamos la media de la muestra como\[\bar{w}_{n}=\frac{1}{n} \sum_{j=1}^{n} w_{j}\] y la desviación estándar de la muestra como\[s_{n}=\sqrt{\frac{1}{n-1} \sum_{j=1}^{n}\left(w_{j}-\bar{w}_{n}\right)^{2}} .\] (Por supuesto\(w_{j}, 1 \leq j \leq n\), la, son realizaciones de variables aleatorias\(W_{j}, 1 \leq j \leq n, \bar{w}_{n}\) es una realización de una variable aleatoria\(\bar{W}_{n}\), y\(s_{n}\) es una realización de una variable aleatoria\(S_{n}\).) No en vano\(\bar{w}_{n}\),, que es simplemente el promedio de los datos, es una estimación para la media\(\mu\),, y\(s_{n}\), que es simplemente la desviación estándar de los datos, es una estimación para la desviación estándar,\(\sigma\). (El\(n-1\) más que\(n\) en el denominador de\(s_{n}\) está relacionado con una elección particular de propiedades estimadoras y estimadoras; en todo caso, para\(n\) grandes, la diferencia es bastante pequeña.)

    Finalmente, se calcula el intervalo de confianza para la media\[\left[\mathrm{ci}_{\mu ; n}=\left[\bar{w}_{n}-t_{\gamma, n-1} \frac{s_{n}}{\sqrt{n}}, \bar{w}_{n}+t_{\gamma, n-1} \frac{s_{n}}{\sqrt{n}}\right],\right.\] donde\(\gamma\) está el nivel de confianza y\(t_{\gamma, n-1}\) se relaciona con la\(t\) distribución Student-. \({ }^{1}\)Para el caso particular de\(\gamma=0.95\) usted puede encontrar valores\(t_{\gamma=0.95, n}\) para varios\(n\) (tamaños de muestra) en una tabla en la Unidad III. Nótese que para grandes\(n, t_{\gamma, n-1}\) enfoques\(z_{\gamma}\) discutidos anteriormente en el contexto de intervalos de confianza binomiales (normalaproximación).

    Recordamos el significado de este intervalo de confianza. Si realizamos\(n_{\exp }\) realizaciones (con\(n_{\exp } \rightarrow\)\(\infty)\) - en las que cada realización corresponde a una muestra (diferente)\(w_{1}, \ldots, w_{n}\), y por lo tanto diferente media de la muestra\(\bar{w}_{n}\), diferente desviación estándar de la muestra\(s_{n}\), y diferente intervalo de confianza\([\text { ci }]_{\mu ; n}-\) entonces en una fracción\(\gamma\) de estas realizaciones la verdadera media\(\mu\) residirá dentro del intervalo de confianza. (O por supuesto, esta afirmación sólo es completamente rigurosa si la densidad subyacente es precisamente la densidad normal).

    También podemos traducir nuestro intervalo de confianza en un “límite de error” (con nivel de confianza\(\gamma\)). En particular, desplegando nuestros rendimientos de intervalo de confianza\[\left|\mu-\bar{w}_{n}\right| \leq t_{\gamma, n-1} \frac{s_{n}}{\sqrt{n}} \equiv \text { Half Length }{ }_{\mu ; n} .\] Observamos la “misma” raíz cuadrada de\(n\), tamaño de muestra, que observamos en nuestro procedimiento de estimación de Bernoulli, y de hecho por las mismas razones. Intuitivamente, digamos en nuestro ejemplo de estatura femenina, a medida que aumentamos el tamaño de nuestra muestra hay muchas más formas de obtener una media de muestra cercana a\(\mu\) (con mucha cancelación sobre la media) que de obtener una media muestral digamos\(\sigma\) arriba\(\mu\) (por ejemplo, con todas las alturas muy por encima de la media). Como cabría esperar, a medida que\(\gamma\) aumenta,\(t_{\gamma, n-1}\) también aumenta: si insistimos en una mayor certeza en nuestras afirmaciones, entonces perderemos cierta precisión como se refleja en la Longitud Media del intervalo de confianza.

    \(1\)El multiplicador\(t_{\gamma, n-1}\) satisface\(F^{\text {student-t }}\left(t_{\gamma, n-1} ; n-1\right)=(\gamma+1) / 2\) dónde\(F^{\text {student-t }}(\cdot ; n-1)\) está el cdf de la\(t\) distribución del estudiante con\(n-1\) grados de libertad; es decir,\(t_{\gamma, n-1}\) es el\((\gamma+1) / 2\) cuantil del Student's-\(t\) distribución.


      This page titled 11: Montecarlo- Áreas y Volúmenes is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Masayuki Yano, James Douglass Penn, George Konidaris, & Anthony T Patera (MIT OpenCourseWare) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.