4.5: La distribución normal

Última actualización
Guardar como PDF

Page ID: 150501

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Si bien la distribución binomial es conceptualmente la distribución más simple de entender, no es la más importante. Ese honor particular va a la distribución normal, a la que también se le conoce como “la curva de campana” o una “distribución gaussiana”.

Figura\(\PageIndex{1}\): La distribución normal con media = 0 y desviación estándar = 1. El eje x corresponde al valor de alguna variable, y el eje y nos dice algo sobre la probabilidad de que observemos ese valor. Sin embargo, observe que el eje y está etiquetado como Densidad de Probabilidad y no Probabilidad. Hay una característica sutil y algo frustrante de las distribuciones continuas que hace que el eje y se comporte un poco extrañamente: la altura de la curva aquí no es en realidad la probabilidad de observar un valor x particular. Por otro lado, es cierto que las alturas de la curva te indican qué valores x son más probables (¡los más altos!).

Se describe una distribución normal utilizando dos parámetros, la media de la distribución\(\mu\) y la desviación estándar de la distribución\(\sigma\). La notación que a veces usamos para decir que una variable\(X\) se distribuye normalmente es la siguiente: Por\[X \sim \mbox{Normal}(\mu,\sigma)\] supuesto, eso es solo notación. No nos dice nada interesante sobre la distribución normal en sí misma. La fórmula matemática para la distribución normal es:

Figura\(\PageIndex{2}\): Fórmula para la distribución normal.

La fórmula es lo suficientemente importante como para que todos los que aprendan estadísticas deberían al menos mirarla, pero como este es un texto introductorio no quiero enfocarme mucho en él. En cambio, observamos cómo se puede usar R para trabajar con distribuciones normales. Las funciones R para la distribución normal son dnorm (), pnorm (), qnorm () y rnorm (). Sin embargo, se comportan prácticamente de la misma manera que las funciones correspondientes para la distribución binomial, así que no hay mucho que necesites saber. Lo único que debo señalar es que los nombres de los argumentos para los parámetros son mean y sd. En casi todos los demás aspectos, no hay nada más que agregar.

En lugar de enfocarnos en las matemáticas, intentemos tener una idea de lo que significa que una variable se distribuya normalmente. Para ello, eche un vistazo a la Figura\(\PageIndex{1}\), que traza una distribución normal con media\(\mu = 0\) y desviación estándar\(\sigma = 1\). Se puede ver de dónde viene el nombre “curva de campana”: se parece un poco a una campana. Observe que, a diferencia de las gráficas que dibujé para ilustrar la distribución binomial, la imagen de la distribución normal en la Figura\(\PageIndex{1}\) muestra una curva suave en lugar de barras “similares a histograma”. Esta no es una elección arbitraria: la distribución normal es continua, mientras que el binomio es discreto. Por ejemplo, en el ejemplo de troquelado de la última sección, fue posible obtener 3 cráneos o 4 cráneos, pero imposible obtener 3.9 cráneos.

Con esto en mente, veamos si no podemos obtener una intuición de cómo funciona la distribución normal. En primer lugar, echemos un vistazo a lo que sucede cuando jugamos con los parámetros de la distribución. Un parámetro que podemos cambiar es la media. Esto desplazará la distribución hacia la derecha o hacia la izquierda. La siguiente animación muestra una distribución normal con media = 0, moviéndose hacia arriba y hacia abajo de media = 0 a media = 5. Tenga en cuenta, cuando cambia la media, la forma completa de la distribución no cambia, simplemente se desplaza de izquierda a derecha. En la animación la distribución normal rebota un poco hacia arriba y hacia abajo, pero eso es solo una peculiaridad de la animación (además de que parece fondo de esa manera).

Animación de una distribución normal con media móvil. — Figura\(\PageIndex{3}\): Distribución normal con media móvil.

En contraste, si aumentamos la desviación estándar manteniendo constante la media, el pico de la distribución permanece en el mismo lugar, pero la distribución se hace más amplia. La siguiente animación muestra lo que sucede cuando comienzas con una pequeña desviación estándar (sd=0.5), y te mueves a una desviación estándar cada vez mayor (hasta sd =5). Como puede ver, la distribución se extiende y se ensancha a medida que aumenta la desviación estándar.

Animación de una distribución normal con una sd cambiante. — Figura\(\PageIndex{4}\): Una distribución normal con una sd de desplazamiento.

Observe, sin embargo, que cuando ampliamos la distribución, la altura del pico se contrae. Esto tiene que suceder: de la misma manera que las alturas de las barras que usamos para dibujar una distribución binomial discreta tienen que sumar a 1, el área total bajo la curva para la distribución normal debe ser igual a 1. Antes de seguir adelante, quiero señalar una característica importante de la distribución normal. Independientemente de cuál sea la media real y la desviación estándar, 68.3% del área se encuentra dentro de 1 desviación estándar de la media. De igual manera, 95.4% de la distribución se encuentra dentro de 2 desviaciones estándar de la media, y 99.7% de la distribución está dentro de 3 desviaciones estándar.

Densidad de probabilidad

Hay algo que he estado tratando de ocultar a lo largo de mi discusión sobre la distribución normal, algo que algunos libros de texto introductorios omiten por completo. Puede que tengan razón al hacerlo: esta “cosa” que estoy ocultando es extraña y contradictoria incluso por los estándares ciertamente distorsionados que se aplican en la estadística. Afortunadamente, no es algo que necesites entender a un nivel profundo para poder hacer estadísticas básicas: más bien, es algo que empieza a ser importante más adelante cuando vas más allá de lo básico. Entonces, si no tiene sentido completo, no te preocupes: trata de asegurarte de seguir la esencia de la misma.

A lo largo de mi discusión sobre la distribución normal, ha habido una o dos cosas que no tienen mucho sentido. Quizás notó que el\(y\) eje -en estas figuras está etiquetado como “Densidad de Probabilidad” en lugar de densidad. A lo mejor te diste cuenta de que usé\(p(X)\) en vez de\(P(X)\) al dar la fórmula para la distribución normal. Quizás te estés preguntando por qué R usa el prefijo “d” para funciones como dnorm (). Y tal vez, solo tal vez, has estado jugando con la función dnorm (), y accidentalmente escribiste un comando como este:

dnorm( x = 1, mean = 1, sd = 0.1 )

3.98942280401433

Y si has hecho la última parte, probablemente estés muy confundido. Le he pedido a R que calcule la probabilidad de que x = 1, para una variable normalmente distribuida con media = 1 y desviación estándar sd = 0.1; y me dice que la probabilidad es de 3.99. Pero, como comentamos anteriormente, las probabilidades no pueden ser mayores que 1. Entonces, o he cometido un error, o eso no es una probabilidad.

Al final resulta que la segunda respuesta es correcta. Lo que hemos calculado aquí no es en realidad una probabilidad: es otra cosa. Para entender qué es ese algo, hay que dedicar un poco de tiempo a pensar en lo que realmente significa decir que\(X\) es una variable continua. Digamos que estamos hablando de la temperatura exterior. El termómetro me dice que son 23 grados, pero sé que eso no es realmente cierto. No son exactamente 23 grados. A lo mejor son 23.1 grados, pienso para mí mismo. Pero sé que eso tampoco es realmente cierto, porque en realidad podría ser de 23.09 grados. Pero, ya sé que... bueno, entiendes la idea. Lo complicado con cantidades genuinamente continuas es que nunca se sabe exactamente cuáles son.

Ahora piensa en lo que esto implica cuando hablamos de probabilidades. Supongamos que la temperatura máxima de mañana se muestrea a partir de una distribución normal con media 23 y desviación estándar 1. ¿Cuál es la probabilidad de que la temperatura sea exactamente de 23 grados? La respuesta es “cero”, o posiblemente, “un número tan cercano a cero que bien podría ser cero”. ¿Por qué es esto?

Es como intentar lanzar un dardo a un tablero de dardos infinitamente pequeño: no importa cuán buena sea tu puntería, nunca lo golpearás. En la vida real nunca obtendrás un valor de exactamente 23. Siempre será algo así como 23.1 o 22.99998 o algo así. En otras palabras, no tiene sentido hablar de la probabilidad de que la temperatura sea exactamente de 23 grados. No obstante, en el lenguaje cotidiano, si te dijera que eran 23 grados afuera y resultó ser 22.9998 grados, probablemente no me llamarías mentiroso. Porque en el lenguaje cotidiano, “23 grados” suele significar algo así como “en algún lugar entre 22.5 y 23.5 grados”. Y si bien no se siente muy significativo preguntar sobre la probabilidad de que la temperatura sea exactamente de 23 grados, sí parece sensato preguntar sobre la probabilidad de que la temperatura se encuentre entre 22.5 y 23.5, o entre 20 y 30, o cualquier otro rango de temperaturas.

El objetivo de esta discusión es dejar claro que, cuando hablamos de distribuciones continuas, no es significativo hablar de la probabilidad de un valor específico. Sin embargo, de lo que podemos hablar es de la probabilidad de que el valor se encuentre dentro de un rango particular de valores. Para conocer la probabilidad asociada a un rango particular, lo que hay que hacer es calcular el “área bajo la curva”.

Bien, eso explica parte de la historia. He explicado un poco sobre cómo se deben interpretar las distribuciones continuas de probabilidad (es decir, el área bajo la curva es lo clave), pero en realidad no he explicado qué calcula realmente la función dnorm (). Equivalentemente, ¿qué significa realmente la fórmula para\(p(x)\) eso que describí anteriormente? Obviamente,\(p(x)\) no describe una probabilidad, pero ¿qué es? El nombre para esta cantidad\(p(x)\) es una densidad de probabilidad, y en términos de las parcelas que hemos estado dibujando, corresponde a la altura de la curva. Las densidades en sí mismas no son significativas en sí mismas: pero están “amañadas” para asegurar que el área bajo la curva sea siempre interpretable como probabilidades genuinas. Para ser honestos, eso es todo lo que realmente necesitas saber por ahora.