CO-6: Aplicar conceptos básicos de probabilidad, variación aleatoria y distribuciones de probabilidad estadística de uso común.
Introducción
En las secciones restantes de la Unidad 3 comenzaremos a hacer la conexión entre probabilidad y estadística para que podamos aplicar estos conceptos en la Unidad final sobre inferencia estadística.
Estos conceptos cubren la brecha entre las matemáticas de la estadística descriptiva y la probabilidad y la verdadera “Estadística Inferencial” donde formalizaremos pruebas de hipótesis estadísticas.
Es decir, los temas de la Unidad 3B proporcionan los antecedentes matemáticos y conceptos que serán necesarios para nuestro estudio de la estadística inferencial.
En las secciones anteriores aprendimos principios y herramientas que nos ayudan a encontrar probabilidades de eventos en general.
Ahora que nos hemos vuelto competentes en hacer eso, hablaremos de variables aleatorias.
Al igual que cualquier otra variable, las variables aleatorias pueden tomar múltiples valores.
Lo que diferencia las variables aleatorias de otras variables es que los valores para estas variables son determinados por un ensayo aleatorio, una muestra aleatoria o una simulación.
Las probabilidades para los valores pueden ser determinadas por medios teóricos u observacionales.
Tales probabilidades juegan un papel vital en la teoría detrás de la inferencia estadística, nuestro objetivo final en este curso.
Variables aleatorias
Objetivos de aprendizaje
LO 6.11: Distinguir entre variables aleatorias discretas y continuas
Primero discutimos las variables en la parte de Análisis Exploratorio de Datos del curso. Una variable es una característica de un individuo.
También hicimos una distinción importante entre variables categóricas, cuyos valores son grupos o categorías (y un individuo puede ser colocado en una de ellas), y variables cuantitativas, que tienen valores numéricos para los cuales las operaciones aritméticas tienen sentido.
En las secciones anteriores, nos enfocamos principalmente en eventos que surgen cuando hay una variable categórica en el fondo: tipo de sangre, orejas perforadas (sí/no), género, entrega a tiempo (sí/no), efecto secundario (sí/no), etc.
Ahora comenzaremos a considerar las variables cuantitativas que surgen cuando se realiza un experimento aleatorio. Habrá que definir este nuevo tipo de variable.
Una variable aleatoria asigna un valor numérico único al resultado de un experimento aleatorio.
Una variable aleatoria puede considerarse como una función que asocia exactamente uno de los posibles resultados numéricos a cada ensayo de un experimento aleatorio. Sin embargo, ese número puede ser el mismo para muchos de los juicios.
Antes de ir más lejos, aquí hay algunos ejemplos simples:
EJEMPLO: Teórico
Considera el experimento aleatorio de voltear una moneda dos veces.
- El espacio muestral de posibles resultados es S = {HH, HT, TH, TT}.
Ahora, definamos la variable X para que sea el número de colas que producirá el experimento aleatorio.
- Si el resultado es HH, no tenemos colas, por lo que el valor para X es 0.
- Si el resultado es HT, obtuvimos una cola, por lo que el valor para X es 1.
- Si el resultado es TH, nuevamente obtuvimos una cola, por lo que el valor para X es 1.
- Por último, si el resultado es TT, tenemos dos colas, por lo que el valor para X es 2.
Como sugiere la definición, X es una variable cuantitativa que toma los posibles valores de 0, 1 o 2.
Es aleatorio porque no sabemos cuál de los tres valores tomará eventualmente la variable.
Podemos hacer preguntas como:
- ¿Cuál es la probabilidad de que X sea 2? En otras palabras, ¿cuál es la probabilidad de obtener 2 colas?
- ¿Cuál es la probabilidad de que X sea al menos 1? En otras palabras, ¿cuál es la probabilidad de obtener al menos 1 cola?
Como puedes ver, las variables aleatorias no son realmente algo nuevo, sino una manera diferente de mirar el mismo problema.
Tenga en cuenta que si hubiéramos arrojado una moneda tres veces, los valores posibles para el número de colas serían 0, 1, 2 o 3. En general, si lanzamos una moneda “n” veces, el número posible de colas sería 0, 1, 2, 3,..., o n.
EJEMPLO: Observacional
Considera obtener datos de una muestra aleatoria sobre el número de orejas en las que una persona usa uno o más aretes.
Definimos la variable X como el número de orejas en las que una persona seleccionada al azar lleva un arete.
- Si la persona seleccionada no usa aretes, entonces X = 0.
- Si la persona seleccionada usa aretes en la oreja izquierda o derecha, entonces X = 1.
- Si la persona seleccionada usa aretes en ambas orejas, entonces X = 2.
Como sugiere la definición, X es una variable cuantitativa que toma los posibles valores de 0, 1 o 2.
Podemos hacer preguntas como:
- ¿Cuál es la probabilidad de que una persona seleccionada al azar tenga aretes en ambas orejas?
- ¿Cuál es la probabilidad de que una persona seleccionada al azar no lleve aretes en ninguna de las orejas?
NOTA... Identificamos el primer ejemplo como teórico y el segundo como observacional.
Discutamos la distinción.
- Para responder preguntas de probabilidad sobre una situación teórica, solo necesitamos los principios de probabilidad.
- Sin embargo, si tenemos una situación observacional, la única manera de responder preguntas de probabilidad es usar la frecuencia relativa que obtenemos de una muestra aleatoria.
Aquí hay un tipo diferente de ejemplo:
Ejemplo: Boxer Ligero
Supongamos que elegimos un boxeador masculino ligero al azar y registramos su peso exacto.
Según las reglas del boxeo, un boxeador masculino ligero debe pesar entre 130 y 135 libras, por lo que el espacio de muestra aquí es
- S = {Todos los números en el intervalo 130-135}.
¡Tenga en cuenta que no podemos enumerar todos los posibles resultados aquí!
Volveremos a definir X como el peso del boxeador, como sugiere la definición, X es una variable cuantitativa cuyo valor es el resultado de nuestro experimento aleatorio.
Aquí X puede tomar cualquier valor entre 130 y 135.
Podemos hacer preguntas como:
- ¿Cuál es la probabilidad de que X sea más de 132? Es decir, ¿cuál es la probabilidad de que el boxeador pese más de 132 libras?
- ¿Cuál es la probabilidad de que X esté entre 131 y 133? Es decir, ¿cuál es la probabilidad de que el boxeador pese entre 131 y 133 libras?
¿Cuál es la diferencia entre las variables aleatorias en estos ejemplos? Veamos:
- Todos ellos surgen de un experimento aleatorio (lanzar una moneda dos veces, elegir a una persona al azar, elegir un boxeador ligero al azar).
- Todas son cuantitativas (número de colas, número de orejas, peso).
Donde difieren es en el tipo de valores posibles que pueden tomar:
- En los dos primeros ejemplos, X tiene tres valores posibles distintos: 0, 1 y 2. Puedes enumerarlos.
- En contraste, en el tercer ejemplo, X toma cualquier valor en el intervalo 130-135, y así los posibles valores de X cubren un rango infinito de posibilidades, y no se pueden enumerar.
Tipos de variables aleatorias
Una variable aleatoria como la de los dos primeros ejemplos, cuyos valores posibles son una lista de valores distintos, se denomina variable aleatoria discreta.
Una variable aleatoria como la del tercer ejemplo, que puede tomar cualquier valor en un intervalo, se denomina variable aleatoria continua.
La principal distinción entre estos dos tipos de variables aleatorias es que,
- aunque ambos pueden asumir un número potencialmente infinito de valores,
- para variables aleatorias discretas siempre hay un GAP entre dos valores posibles
- mientras que para las variables aleatorias continuas no hay huecos en el rango de valores posibles, puede tomar cualquier valor en un intervalo; nuestra precisión en la medición solo está limitada por nuestro nivel de tecnología al tomar esa medición.
Así como la distinción entre variables categóricas y cuantitativas fue importante en el Análisis Exploratorio de Datos, la distinción entre variables aleatorias discretas y continuas es importante aquí, ya que cada una recibe un tratamiento diferente a la hora de calcular probabilidades y otras cantidades de interés.
Antes de ir más lejos, se deben mencionar algunas observaciones sobre la naturaleza de las variables aleatorias discretas y continuas.
Comentarios:
- A veces, las variables aleatorias continuas son “redondeadas” y, por lo tanto, están “en un disfraz discreto”. Por ejemplo:
- tiempo dedicado a ver televisión en una semana, redondeado a la hora (o minuto) más cercano
- temperatura exterior, al grado más cercano
- el peso de una persona, a la libra más cercana.
A pesar de que “parecen” variables discretas, estas siguen siendo variables aleatorias continuas, y en la mayoría de los casos las trataremos como tales.
- Por otro lado, hay algunas variables que son de naturaleza discreta, pero toman tantos valores distintos posibles que será mucho más fácil tratarlos como continuos en lugar de discretos.
- el coeficiente intelectual de una persona elegida al azar
- la puntuación SAT de un estudiante elegido al azar
- el salario anual de un CEO elegido al azar, ya sea redondeado al dólar más cercano o al centavo más cercano
- A veces tenemos una variable aleatoria discreta pero desconocemos la extensión de sus posibles valores.
- Por ejemplo: ¿Cuántos accidentes ocurrirán en una intersección en particular este mes?
- Es posible que sepamos por datos previamente recopilados que este número es de 0-5. Pero, 6, 7, o más accidentes podrían ser posibles.
- Una buena regla general es que las variables aleatorias discretas son cosas que contamos, mientras que las variables aleatorias continuas son cosas que medimos.
- Contamos el número de colas y el número de orejas con aretes. Estas fueron variables aleatorias discretas.
- Medimos el peso del boxeador ligero. Esta fue una variable aleatoria continua.
Muchas veces podemos tener un tema para el cual podemos recopilar datos que podrían involucrar una variable aleatoria discreta o continua, dependiendo de la información que queramos conocer.
Ejemplo: Refrescos
Supongamos que queremos saber cuántos días a la semana bebes un refresco.
- El espacio muestral sería S = {0, 1, 2, 3, 4, 5, 6, 7}.
- Hay un número finito de valores para esta variable.
- Esta sería una variable aleatoria discreta.
En cambio, supongamos que queremos saber cuántas onzas de refrescos consumes por semana.
- Incluso si redondeamos a la onza más cercana, la respuesta es una medida.
- Así, esta sería una variable aleatoria continua.
EJEMPLO: barra x
Supongamos que nos interesan los pesos de todos los machos.
- Tomamos una muestra aleatoria y obtenemos la media para esa muestra, es decir, x-bar.
- Luego tomamos otra muestra aleatoria (con el mismo tamaño de muestra) y obtenemos otra barra x.
- Esperaríamos que los valores de las barras x de estas dos muestras fueran diferentes, pero bastante cercanos en valor.
- Cada vez que tomemos una muestra obtendremos una barra x diferente.
- Tomaremos muchas muestras y así obtendremos muchos valores de barra x.
El valor de la barra x de estas muestras repetidas es una variable aleatoria.
Dado que puede tomar cualquier valor dentro de un intervalo de posibles pesos masculinos, es una variable aleatoria continua.
Dedicamos mucha atención a las variables aleatorias, ya que las variables aleatorias y las probabilidades que se asocian a ellas juegan un papel vital en la teoría detrás de la inferencia estadística, nuestro objetivo final en este curso.
Comenzaremos con variables aleatorias discretas, incluyendo una discusión de variables aleatorias binomiales y luego pasaremos a variables aleatorias continuas donde formalizaremos nuestra comprensión de la distribución normal.