Saltar al contenido principal
Library homepage
 
LibreTexts Español

9.6: Otras distribuciones útiles

  • Page ID
    151600
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La distribución normal es la distribución que más utiliza la estadística (por razones que se discutirán en breve), y la distribución binomial es muy útil para muchos propósitos. Pero el mundo de la estadística está lleno de distribuciones de probabilidad, algunas de las cuales nos encontraremos de pasada. En particular, las tres que aparecerán en este libro son la distribución t, la distribución χ 2 y la distribución F. No voy a dar fórmulas para ninguna de estas, ni hablaré de ellas con demasiado detalle, pero te voy a mostrar algunas fotos.

    tdist-1.png
    Figura 9.13: Una distribución t con 3 grados de libertad (línea continua). Se parece a una distribución normal, pero no es exactamente lo mismo. Para fines de comparación, he trazado una distribución normal estándar como la línea discontinua. Tenga en cuenta que las “colas” de la distribución t son “más pesadas” (es decir, se extienden más hacia afuera) que las colas de la distribución normal? Esa es la diferencia importante entre los dos.
    chisqdist-1.png
    Figura 9.14: Distribución de chi 2 con 3 grados de libertad. Observe que los valores observados deben ser siempre mayores que cero, y que la distribución es bastante sesgada. Estas son las características clave de una distribución de chi-cuadrado.
    Fdist-1.png
    Figura 9.15: Una distribución F con 3 y 5 grados de libertad. Cualitativamente hablando, se ve bastante similar a una distribución chi-cuadrada, pero no son exactamente iguales en general.
    • La distribución t es una distribución continua que parece muy similar a una distribución normal, pero tiene colas más pesadas: ver Figura 9.13. Esta distribución tiende a surgir en situaciones en las que piensas que los datos realmente siguen una distribución normal, pero no conoces la media o desviación estándar. Como cabría esperar, las funciones R relevantes son dt (), pt (), qt () y rt (), y volveremos a encontrarnos con esta distribución en el Capítulo 13.
    • La distribución χ 2 es otra distribución que aparece en muchos lugares diferentes. La situación en la que lo veremos es al hacer análisis categóricos de datos (Capítulo 12), pero es una de esas cosas que en realidad aparece por todas partes. Cuando profundizas en las matemáticas (¿y a quién no le encanta hacer eso?) , resulta que la razón principal por la que la distribución χ2 aparece por todas partes es que, si tienes un montón de variables que normalmente se distribuyen, cuadran sus valores y luego los suman (un procedimiento denominado tomar una “suma de cuadrados”), esta suma tiene una distribución χ 2. Te sorprendería la frecuencia con la que este hecho resulta útil. De todos modos, así es como se ve una distribución χ2: Figura 9.14. Una vez más, los comandos R para éste son bastante predecibles: dchisq (), pchisq (), qchisq (), rchisq ().
    • La distribución F se parece un poco a una distribución χ 2, y surge cuando se necesita comparar dos distribuciones χ 2 entre sí. Es cierto que esto no suena exactamente como algo que cualquier persona cuerda querría hacer, pero resulta ser muy importante en el análisis de datos del mundo real. ¿Recuerdas cuando dije que χ 2 resulta ser la distribución clave cuando estamos tomando una “suma de cuadrados”? Bueno, lo que eso significa es que si quieres comparar dos “sumas de cuadrados” diferentes, probablemente estés hablando de algo que tenga una distribución F. Por supuesto, todavía no les he dado un ejemplo de nada que implique una suma de cuadrados, pero lo haré... en el Capítulo 14. Y ahí es donde nos encontraremos con la distribución F. Ah, y aquí hay una foto: Figura 9.15. Y por supuesto podemos conseguir que R haga las cosas con distribuciones F simplemente usando los comandos df (), pf (), qf () y rf ().

    Debido a que estas distribuciones están todas estrechamente relacionadas con la distribución normal y entre sí, y porque son resultarán ser las distribuciones importantes a la hora de hacer estadísticas inferenciales más adelante en este libro, creo que es útil hacer una pequeña demostración usando R, solo para “convencernos” de que estas distribuciones realmente están relacionadas entre sí de la manera en que se supone que deben ser. Primero, usaremos la función rnorm () para generar 1000 observaciones normalmente distribuidas:

    normal.a <- rnorm( n=1000, mean=0, sd=1 )  
    print(head(normal.a))
    
    ## [1] -0.4728528 -0.4483396 -0.5134192  2.1540478 -0.5104661  0.3013308

    Entonces la variable normal.a contiene 1000 números que normalmente están distribuidos, y tienen media 0 y desviación estándar 1, y la impresión real de estos números continúa durante bastante tiempo. Tenga en cuenta que, debido a que los parámetros predeterminados de la función rnorm () son mean=0 y sd=1, podría haber acortado el comando a rnorm (n=1000). En cualquier caso, lo que podemos hacer es usar la función hist () para dibujar un histograma de los datos, así:

    hist( normal.a ) 

    unnamed-chunk-9-1.png

    Si haces esto, deberías ver algo parecido a Figure?? . Tu trama no se verá tan bonita como la de la figura, claro, porque he jugado con todo el formato (ver Capítulo 6), y también he trazado la distribución verdadera de los datos como una línea negra continua (es decir, una distribución normal con media 0 y desviación estándar 1) para que puedas comparar la datos que acabamos de generar a la distribución verdadera.

    variaterelations-1.png

    variaterelations-2.png

    variaterelations-3.png

    variaterelations-4.png

    En el ejemplo anterior todo lo que hice fue generar muchas observaciones normalmente distribuidas usando rnorm () y luego compararlas con la distribución de probabilidad verdadera en la figura (usando dnorm () para generar la línea negra en la figura, pero no mostré los commmands para eso). Ahora probemos algo más complicado. Intentaremos generar algunas observaciones que sigan una distribución chi-cuadrada con 3 grados de libertad, pero en lugar de usar rchisq (), comenzaremos con variables que normalmente se distribuyen, y veremos si podemos explotar las relaciones conocidas entre las distribuciones normal y chi-cuadrada para hacer el trabajo. Como mencioné anteriormente, una distribución chi-cuadrada con k grados de libertad es lo que se obtiene cuando se toman k variables normalmente distribuidas (con media 0 y desviación estándar 1), las cuadran, y las suman. Como queremos una distribución chi-cuadrada con 3 grados de libertad, necesitaremos complementar nuestros datos normal.a con dos conjuntos más de observaciones normalmente distribuidas, llamadas imaginativamente normal.b y normal.c:

    normal.b <- rnorm( n=1000 )  # another set of normally distributed data
    normal.c <- rnorm( n=1000 )  # and another!

    Ahora que ya lo hemos hecho, la teoría dice que debemos cuadrar estos y sumarlos juntos, así

    chi.sq.3 <- (normal.a)^2 + (normal.b)^2 + (normal.c)^2

    y la variable chi.sq.3 resultante debe contener 1000 observaciones que sigan una distribución chi-cuadrada con 3 grados de libertad. Puedes usar la función hist () para echar un vistazo a estas observaciones tú mismo, usando un comando como este,

    hist( chi.sq.3 )

    unnamed-chunk-12-1.png

    y deberías obtener un resultado que se vea bastante similar a la trama chi-cuadrada en la Figura?? . Una vez más, la trama que he dibujado es un poco más elegante: además del histograma de chi.sq.3, también he trazado una distribución chi-cuadrada con 3 grados de libertad. Está bastante claro que — aunque utilicé rnorm () para hacer todo el trabajo en lugar de rchisq () — las observaciones almacenadas en la variable chi.sq.3 realmente siguen una distribución chi-cuadrada. Es cierto que esto probablemente no parezca tan interesante en este momento, pero más adelante cuando comencemos a encontrarnos con la distribución chi-cuadrada en el Capítulo 12, será útil entender el hecho de que estas distribuciones están relacionadas entre sí.

    Podemos extender esta demostración a la distribución t y la distribución F. Anteriormente, implicé que la distribución t está relacionada con la distribución normal cuando se desconoce la desviación estándar. Eso es ciertamente cierto, y eso es lo que veremos más adelante en el capítulo 13, pero hay una relación algo más precisa entre las distribuciones normal, chi-cuadrada y t. Supongamos que “escalamos” nuestros datos chi-cuadrados dividiéndolos por los grados de libertad, así

    scaled.chi.sq.3 <- chi.sq.3 / 3

    Luego tomamos un conjunto de variables normalmente distribuidas y las dividimos por (la raíz cuadrada de) nuestra variable chi-cuadrada escalada que tenía df=3, y el resultado es una distribución t con 3 grados de libertad:

    normal.d <- rnorm( n=1000 )  # yet another set of normally distributed data
    t.3 <- normal.d / sqrt( scaled.chi.sq.3 )  # divide by square root of scaled chi-square to get t

    Si trazamos el histograma de t.3, terminamos con algo que se ve muy similar a la distribución t en la Figura?? . De igual manera, podemos obtener una distribución F tomando la relación entre dos distribuciones chi-cuadrado escaladas. Supongamos, por ejemplo, que quisiéramos generar datos a partir de una distribución F con 3 y 20 grados de libertad. Podríamos hacer esto usando df (), pero también podríamos hacer lo mismo generando dos variables chi-cuadradas, una con 3 grados de libertad y la otra con 20 grados de libertad. Como ilustra el ejemplo con chi.sq.3, en realidad podemos hacer esto usando rnorm () si realmente queremos, pero esta vez voy a tomar un atajo:

    chi.sq.20 <- rchisq( 1000, 20)  # generate chi square data with df = 20...
    scaled.chi.sq.20 <- chi.sq.20 / 20  # scale the chi square variable...
    F.3.20 <-  scaled.chi.sq.3  / scaled.chi.sq.20 # take the ratio of the two chi squares...
    hist( F.3.20 ) # ... and draw a picture

    unnamed-chunk-15-1.png

    La variable resultante F.3.20 de hecho almacena variables que siguen una distribución F con 3 y 20 grados de libertad. Esto se ilustra en la Figura?? , que traza el histgrama de las observaciones almacenadas en F.3.20 contra la distribución verdadera de F con df1=3 y df2=20. De nuevo, coinciden.

    Bien, es hora de terminar esta sección. Hemos visto tres nuevas distribuciones: χ 2, t y F. Todas son distribuciones continuas, y todas están estrechamente relacionadas con la distribución normal. He hablado un poco sobre la naturaleza precisa de esta relación, y te he mostrado algunos comandos R que ilustran esta relación. Lo clave para nuestros propósitos, sin embargo, no es que tengas una comprensión profunda de todas estas diferentes distribuciones, ni que recuerdes las relaciones precisas entre ellas. Lo principal es que captes la idea básica de que todas estas distribuciones están profundamente relacionadas entre sí, y con la distribución normal. Más adelante en este libro, vamos a encontrarnos con datos que normalmente se distribuyen, o al menos se supone que están distribuidos normalmente. Lo que quiero que entiendas ahora mismo es que, si haces la suposición de que tus datos están normalmente distribuidos, no deberías sorprenderte al ver las distribuciones χ 2, t y F apareciendo por todas partes cuando empieces a intentar hacer tu análisis de datos.


    This page titled 9.6: Otras distribuciones útiles is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Danielle Navarro via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.