Saltar al contenido principal
LibreTexts Español

6.1: Introducción

  • Page ID
    152180
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \(\renewcommand{\P}{\mathbb{P}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\bs}{\boldsymbol}\)

    El modelo estadístico básico

    En el modelo estadístico básico, tenemos una población de objetos de interés. Los objetos podrían ser personas, familias, chips de computadora, acres de maíz. Además, tenemos diversas medidas o variables definidas en los objetos. Seleccionamos una muestra de la población y registramos las variables de interés para cada objeto de la muestra. Aquí hay algunos ejemplos basados en los conjuntos de datos de este proyecto:

    • En los datos de M&M, los objetos son bolsas de M&Ms de un tamaño especificado. Las variables registradas para una bolsa de M&Ms son el peso neto y los recuentos para caramelos rojos, verdes, azules, naranjas, amarillos y marrones.
    • En los datos de cigarra, los objetos son cigarras del área media de Tennessee. Las variables registradas para una cigarra son peso corporal, longitud del ala, ancho del ala, longitud corporal, género y especie.
    • En los datos del iris de Fisher, los objetos son iris. Las variables registradas para un iris son la longitud del pétalo, la anchura del pétalo, la longitud del sépalo, la anchura del sépalo y el tipo.
    • En el conjunto de datos de Polio, los objetos son niños. Aunque probablemente se registraron muchas variables para un niño, las dos variables cruciales, ambas binarias, fueron si el niño fue vacunado o no, y si el niño contrajo o no Polio dentro de cierto período de tiempo.
    • En los conjuntos de datos Challenger, los objetos son lanzamientos de transbordador espacial. Las variables registradas son la temperatura al momento del lanzamiento y diversas medidas de erosión de la junta tórica de los cohetes sólidos.
    • En el conjunto de datos de Michelson, los objetos son haces de luz y la variable registrada es la velocidad.
    • En el conjunto de datos de Pearson, los objetos son pares padre-hijo. Las variables son la altura del padre y la altura del hijo.
    • En el conjunto de datos de Snow, los objetos son personas que murieron de cólera. Las variables registran la dirección de la persona.
    • En uno de los conjuntos de datos del SAT, los objetos son estados y las variables son tasa de participación, puntaje promedio SAT Math y puntaje promedio SAT Verbal.

    Así, el resultado observado de un experimento estadístico (los datos) tiene la forma\(\bs{x} = (x_1, x_2, \ldots, x_n)\) donde\(x_i\) se encuentra el vector de mediciones para el objeto\(i\) th elegido de la población. El conjunto\(S\) de valores posibles de\(\bs{x}\) (antes de que se realice el experimento) se denomina espacio muestral. Es literalmente el espacio de las muestras. Así, aunque el resultado de un experimento estadístico puede tener una estructura bastante complicada (un vector de vectores), el sello distintivo de la abstracción matemática es la capacidad de matizar las características que no son relevantes en ningún momento en particular, para tratar una estructura compleja como un solo objeto. Esto lo hacemos con el resultado\(\bs{x}\) del experimento.

    Las técnicas de estadística han sido enormemente exitosas; estas técnicas son ampliamente utilizadas en casi todos los temas que se ocupan de la cuantificación: las ciencias naturales, las ciencias sociales, el derecho y la medicina. Por otro lado, la estadística tiene una cualidad legalista y una gran cantidad de terminología y jerga que pueden hacer que el tema sea un poco intimidante al principio. En el resto de esta sección, comenzamos a discutir algo de esta terminología.

    La distribución empírica

    Supongamos nuevamente que los datos tienen la forma\(\bs{x} = (x_1, x_2, \ldots, x_n)\) donde\(x_i\) está el vector de mediciones para el objeto\(i\) th elegido. La distribución empírica asociada\(\bs{x}\) es la distribución de probabilidad que coloca la probabilidad\(1/n\) en cada uno\(x_i\). Así, si los valores son distintos, la distribución empírica es la distribución uniforme discreta en\(\{x_1, x_2, \ldots, x_n\}\). De manera más general, si\(x\) ocurre\(k\) tiempos en los datos, entonces la distribución empírica asigna probabilidad\(k / n\) a\(x\). Así, cada conjunto de datos finitos define una distribución de probabilidad.

    Estadísticas

    Técnicamente, una estadística\(w = w(\bs{x})\) es una función observable del resultado\(\bs{x}\) del experimento. Es decir, una estadística es una función computable definida en el espacio muestral\(S\). El término observable significa que la función no debe contener ninguna cantidad desconocida, porque necesitamos poder calcular el valor\(w\) de la estadística a partir de los datos observados\(\bs{x}\). Al igual que con los datos\(\bs{x}\), una estadística\(w\) puede tener una estructura complicada; típicamente,\(w\) es de valor vectorial. En efecto, el resultado\(\bs{x}\) del experimento es en sí mismo es una estadística; todas las demás estadísticas se derivan de\(\bs{x}\).

    Estadísticas\(u\) y\(v\) son equivalentes si existe una función uno a uno\(r\) desde el rango de\(u\) hasta el rango de\(v\) tal que\(v = r(u)\). Estadísticas equivalentes dan información equivalente sobre\(\bs{x}\).

    Estadísticas\(u\) y\(v\) son equivalentes si y sólo si se cumple la siguiente condición: para cualquiera\(\bs{x} \in S\) y\(\bs{y} \in S\),\(u(\bs{x}) = u(\bs{y})\) si y sólo si\(v(\bs{x}) = v(\bs{y})\).

    La equivalencia realmente es una relación de equivalencia en la recolección de estadísticas para un experimento estadístico dado. Es decir, si\(u\),\(v\), y\(w\) son estadísticas arbitrarias entonces

    1. \(u\)es equivalente a\(u\) (la propiedad reflexiva).
    2. Si\(u\) es equivalente a\(v\) entonces\(v\) es equivalente a\(u\) (la propiedad simétrica).
    3. Si\(u\) es equivalente a\(v\) y\(v\) es equivalente a\(w\) entonces\(u\) es equivalente a\(w\) (la propiedad transitiva).

    Estadística Descriptiva e Inferencial

    Hay dos amplias ramas de la estadística. El término estadística descriptiva se refiere a métodos para resumir y mostrar los datos observados\(\bs{x}\). Como su nombre indica, los métodos de estadística descriptiva suelen implicar computar diversas estadísticas (en el sentido técnico) que dan información útil sobre los datos: medidas de centro y propagación, medidas de asociación, etc. En el contexto de la estadística descriptiva, el término parámetro se refiere a una característica de toda la población.

    La rama más profunda y útil de la estadística se conoce como estadística inferencial. Nuestro punto de vista en esta rama es que el experimento estadístico (antes de realizarlo) es un experimento aleatorio con una medida de probabilidad\(\P\) en un espacio muestral subyacente. Así, el resultado\(\bs{x}\) del experimento es un valor observado de una variable aleatoria\(\bs{X}\) definida en este espacio de probabilidad, con la distribución de\(\bs{X}\) no completamente conocida por nosotros. Nuestro objetivo es extraer inferencias sobre la distribución\(\bs{X}\) del valor observado\(\bs{x}\). Así, en cierto sentido, la estadística inferencial es el dual de probabilidad. En probabilidad, tratamos de predecir el valor de\(\bs{X}\) asumir un conocimiento completo de la distribución. En estadística, por el contrario, observamos el valor\(\bs{x}\) de la variable aleatoria\(\bs{X}\) e intentamos inferir información sobre la distribución subyacente de\(\bs{X}\). En la estadística inferencial, una estadística (una función de\(\bs{X}\)) es en sí misma una variable aleatoria con una distribución propia. Por otro lado, el término parámetro se refiere a una característica de la distribución de\(\bs{X}\). A menudo el problema inferencial es utilizar diversas estadísticas para estimar o probar hipótesis sobre un parámetro. Otra forma de pensar en las estadísticas inferenciales es que estamos tratando de inferir de la distribución empírica asociada a los datos observados\(\bs{x}\) a la distribución verdadera asociada con\(\bs{X}\).

    Existen dos tipos básicos de experimentos aleatorios en el área general de la estadística inferencial. Un experimento diseñado, como su nombre indica, está cuidadosamente diseñado para estudiar una cuestión inferencial particular. El experimentador tiene un control considerable sobre cómo se seleccionan los objetos, qué variables se van a registrar para estos objetos y los valores de algunas de las variables. En un estudio observacional, por el contrario, el investigador tiene poco control sobre estos factores. A menudo, al investigador simplemente se le da el conjunto de datos y se le pide que le dé sentido. Por ejemplo, los ensayos de campo contra la polio fueron diseñados experimentos para estudiar la efectividad de la vacuna Salk. Los investigadores tuvieron un control considerable sobre cómo se seleccionaron los niños y cómo se asignó a los niños a los grupos de tratamiento y control. Por el contrario, los conjuntos de datos de Challenger utilizados para explorar la relación entre la temperatura y la erosión de la junta tórica son estudios observacionales. Por supuesto, el hecho de que se diseñe un experimento no significa que esté bien diseñado.

    Dificultades

    Pueden surgir una serie de dificultades al intentar explorar una pregunta inferencial. A menudo, los problemas surgen por variables confusas, que son variables que (como su nombre indica) interfieren en nuestra comprensión de la cuestión inferencial. En el primer diseño de ensayos de campo de Polio, por ejemplo, la edad y el consentimiento de los padres son dos variables confusas que interfieren con la determinación de la efectividad de la vacuna. Todo el objetivo de los datos de admisiones de Berkeley, por dar otro ejemplo, es ilustrar cómo una variable confusa (departamento) puede crear una correlación espuria entre otras dos variables (género y estado de admisión). Cuando corrigimos la interferencia causada por una variable confusa, decimos que hemos controlado para la variable.

    Los problemas también surgen frecuentemente debido a errores de medición. Algunas variables son intrínsecamente difíciles de medir, y el sesgo sistemático en las mediciones puede interferir con nuestra comprensión de la cuestión inferencial. El primer diseño de prueba de campo de Polio nuevamente brinda un buen ejemplo. El conocimiento del estado de vacunación de los niños condujo a un sesgo sistemático por parte de los médicos que intentaban diagnosticar la polio en estos niños. Los errores de medición a veces son causados por variables confusoras ocultas.

    Las variables de confusión y los errores de medición abundan en las encuestas políticas, donde la pregunta inferencial es quién ganará una elección. ¿Cómo influyen las variables confusoras como la raza, los ingresos, la edad y el género (por nombrar solo algunas) en la forma en que votará una persona? ¿Cómo sabemos que una persona votará por quien dice que lo hará, o si va a votar en absoluto (errores de medición)? La encuesta de la Recogida Literaria en la elección presidencial de 1936 y las encuestas profesionales en las elecciones presidenciales de 1948 ilustran estos problemas.

    Las variables confusas, los errores de medición y otras causas a menudo conducen al sesgo de selección, lo que significa que la muestra no representa a la población con respecto a la pregunta inferencial en cuestión. A menudo, la aleatorización se utiliza para superar los efectos de las variables de confusión y los errores de medición.

    Muestras Aleatorias

    El caso especial más común e importante del modelo estadístico inferencial ocurre cuando la variable de observación

    \[ \bs{X} = (X_1, X_2, \ldots, X_n) \]

    es una secuencia de variables aleatorias independientes e idénticamente distribuidas. Nuevamente, en el modelo de muestreo estándar,\(X_i\) es en sí mismo un vector de mediciones para el objeto\(i\) th en la muestra, y así, pensamos en\((X_1, X_2, \ldots, X_n)\) como copias independientes de un vector de medición subyacente\(X\). En este caso,\((X_1, X_2, \ldots, X_n)\) se dice que es una muestra aleatoria de tamaño\(n\) a partir de la distribución de\(X\).

    Variables

    Las operaciones matemáticas que tienen sentido para la variable en un experimento estadístico dependen del tipo y nivel de medición de la variable.

    Tipo

    Recordemos que una variable real\(x\) es continua si los valores posibles forman un intervalo de números reales. Por ejemplo, la variable de peso en el conjunto de datos M&M, y las variables de longitud y anchura en los datos del iris de Fisher son continuas. Por el contrario, una variable discreta es aquella cuyo conjunto de valores posibles forma un conjunto discreto. Por ejemplo, las variables de conteo en el conjunto de datos de M&M, la variable de tipo en los datos de iris de Fisher y las variables de denominación y traje en el experimento de tarjeta son discretas. Las variables continuas representan cantidades que, en teoría, pueden medirse con cualquier grado de precisión. En la práctica, por supuesto, los dispositivos de medición tienen una precisión limitada por lo que los datos recopilados de una variable continua son necesariamente discretos. Es decir, solo hay un conjunto finito (pero quizás muy grande) de valores posibles que realmente se pueden medir. Entonces, la distinción entre una variable discreta y continua se basa en lo que teóricamente es posible, no en lo que realmente se mide. Algunos ejemplos adicionales pueden ayudar:

    • La edad de una persona generalmente se da en años. Sin embargo, uno puede imaginar que la edad se da en meses, o semanas, o incluso (si se conoce la hora del nacimiento con una precisión suficiente) en segundos. La edad, ya sea de dispositivos o personas, suele considerarse como una variable continua.
    • El precio de un artículo generalmente se da (en EU) en dólares y centavos, y por supuesto, el objeto monetario más pequeño en circulación es el centavo ($0.01). No obstante, los impuestos a veces se dan en molinos ($0.001), y uno puede imaginar divisiones más pequeñas de un dólar, aunque no haya monedas para representar estas divisiones. Las medidas de riqueza suelen considerarse como variables continuas.
    • Por otro lado, el número de personas en un automóvil al momento de un accidente es una variable fundamentalmente discreta.

    Niveles de medición

    Una variable real también\(x\) se distingue por su nivel de medición.

    Las variables cualitativas simplemente codifican tipos o nombres y, por lo tanto, pocas operaciones matemáticas tienen sentido, incluso si se usan números para la codificación. Dichas variables tienen el nivel nominal de medición. Por ejemplo, la variable tipo en los datos del iris de Fisher es cualitativa. El género, variable común en muchos estudios de personas y animales, también es cualitativa. Las variables cualitativas son casi siempre discretas; es difícil imaginar una infinidad continua de nombres.

    Se dice que una variable para la que solo el orden es significativo tiene el nivel ordinal de medición; las diferencias no son significativas aunque se utilicen números para la codificación. Por ejemplo, en muchos juegos de cartas, los palos están clasificados, por lo que la variable de palo tiene el nivel ordinal de medición. Para otro ejemplo, considere la escala estándar de 5 puntos (terrible, mala, promedio, buena, excelente) utilizada para clasificar a profesores, películas, restaurantes etc.

    Se dice que una variable cuantitativa para la cual la diferencia, pero no las proporciones son significativas, tiene el nivel de medición del intervalo. Equivalentemente, una variable en este nivel tiene un valor cero relativo, en lugar de absoluto. Ejemplos típicos son la temperatura (en Fahrenheit o Celsius) o la hora (reloj o calendario).

    Finalmente, se dice que una variable cuantitativa para la cual las relaciones son significativas tiene el nivel de cociente de medición. Una variable en este nivel tiene un valor cero absoluto. Las variables de conteo y peso en el conjunto de datos de M&M, y las variables de longitud y ancho en los datos del iris de Fisher son ejemplos.

    Submuestras

    En el modelo estadístico básico, las submuestras correspondientes a algunas de las variables se pueden construir filtrando con respecto a otras variables. Esto es particularmente común cuando las variables de filtrado son cualitativas. Considere los datos de cigarra por ejemplo. Podríamos estar interesados en las variables cuantitativas peso corporal, longitud corporal, ancho del ala y longitud del ala por especie, es decir, por separado para las especies 0, 1 y 2. O bien, podríamos estar interesados en estas variables cuantitativas por género, es decir, por separado para hombres y mujeres.

    Ejercicios

    Estudiar el experimento de Michelson para medir la velocidad de la luz.

    1. ¿Es este un experimento diseñado o un estudio observacional?
    2. Clasificar la variable velocidad de la luz en términos de tipo y nivel de medición.
    3. Discutir posibles variables de confusión y problemas con errores de medición.
    Contestar
    1. Experimento diseñado
    2. Continuo, intervalo. El nivel de medición es solo intervalo porque la variable registrada es la velocidad de la luz en\(\text{km} / \text{hr}\) menos\(299\,000\) (para hacer los números más simples). La velocidad real en\(\text{km} / \text{hr}\) es una variable de relación continua.

    Estudia el experimento de Cavendish para medir la densidad de la tierra.

    1. ¿Es este un experimento diseñado o un estudio observacional?
    2. Clasificar la variable densidad de la tierra en términos de tipo y nivel de medición.
    3. Discutir posibles variables de confusión y problemas con errores de medición.
    Contestar
    1. Experimento diseñado
    2. Continuo, relación.

    El experimento de Study Short para medir el paralaje del sol.

    1. ¿Es este un experimento diseñado o un estudio observacional?
    2. Clasificar el paralaje de la variable sol en términos de tipo y nivel de medición.
    3. Discutir posibles variables de confusión y problemas con errores de medición.
    Contestar
    1. Estudio observacional
    2. Continuo, relación.

    En los datos de M&M, clasifique cada variable en términos de tipo y nivel de medición.

    Contestar

    Cada variable de recuento de colores: discreto, relación; Peso neto: continuo, relación

    En los datos de Cicada, clasifique cada variable en términos de tipo y nivel de medición.

    Contestar

    Peso corporal, longitud del ala, ancho del ala, longitud del cuerpo: continuo, relación. Género, tipo: discreto, nominal

    En los datos del iris de Fisher, clasifique cada variable en términos de tipo y nivel de medición.

    Contestar

    Ancho de pétalo, largo de pétalo, ancho del sépalo, longitud del sépalo: continuo, relación. Tipo: discreto, nominal

    Estudiar el experimento Challenger para explorar la relación entre la temperatura y la erosión de la junta tórica.

    1. ¿Es este un experimento diseñado o un estudio observacional?
    2. Clasificar cada variable en términos de tipo y nivel de medición.
    3. Discutir posibles variables de confusión y problemas con errores de medición.
    Contestar
    1. Estudio observacional
    2. Temperatura: continua, intervalo; Erosión: continua, relación; Índice de daño: discreto, ordinal

    En el borrador de datos de Vietnam, clasifique cada variable en términos de tipo y nivel de medición.

    Contestar

    Mes de nacimiento: discreto, intervalo; Día de nacimiento: discreto, intervalo

    En los dos conjuntos de datos SAT, clasifique cada variable en términos de tipo y nivel de medición.

    Contestar

    SAT matemáticas y puntuaciones verbales: probablemente continuas, relación; Estado: discreto, nominal; Año: discreto, intervalo

    Estudiar el experimento Literary Digest para predecir el resultado de las elecciones presidenciales de 1936.

    1. ¿Es este un experimento diseñado o un estudio observacional?
    2. Clasificar cada variable en términos de tipo y nivel de medición.
    3. Discutir posibles variables de confusión y problemas con errores de medición.
    Contestar
    1. experimento diseñado, aunque mal diseñado
    2. Estado: discreto, nominal; Votos electorales: discretos, relación; Recuento de Landon: discreto, ratio; Recuento Roosevelt: discreto, ratio

    Estudiar las encuestas de 1948 para predecir el resultado de las elecciones presidenciales entre Truman y Dewey. ¿Son estos experimentos diseñados o estudios observacionales?

    Contestar

    Experimentos diseñados, pero mal diseñados

    Estudiar el experimento de Pearson para explorar la relación entre las alturas de los padres y las alturas de los hijos.

    1. ¿Es este un experimento diseñado o un estudio observacional?
    2. Clasificar cada variable en términos de tipo y nivel de medición.
    3. Discutir posibles variables de confusión.
    Contestar
    1. Estudio observacional
    2. estatura del padre: relación continua; altura del hijo: relación continua

    Estudiar los ensayos de campo de Polio.

    1. ¿Estos son experimentos diseñados o estudios observacionales?
    2. Identificar las variables esenciales y clasificar cada una en términos de tipo y nivel de medición.
    3. Discutir posibles variables de confusión y problemas con errores de medición.
    Contestar
    1. experimentos diseñados
    2. estado de vacación: discreto, nominal; Estado de polio: discreto, nominal

    Identificar los parámetros en cada uno de los siguientes:

    1. Experimento de monedas de Buffon
    2. Experimento de Aguja de Buffon
    3. el modelo de ensayos de Bernoulli
    4. el modelo de Poisson
    Contestar
    1. radio de la moneda
    2. longitud de la aguja
    3. probabilidad de éxito
    4. tasa de llegadas

    Anote los parámetros para cada una de las siguientes familias de distribuciones especiales:

    1. la distribución normal
    2. la distribución gamma
    3. la distribución beta
    4. la distribución de Pareto
    5. la distribución de Weibull
    Contestar
    1. media\(\mu\) y desviación estándar\(\sigma\)
    2. parámetro de forma\(k\) y parámetro de escala\(b\)
    3. parámetro izquierdo\(a\) y parámetro derecho\(b\)
    4. parámetro de forma\(a\) y parámetro de escala\(b\)
    5. parámetro de forma\(k\) y parámetro de escala\(b\)

    Durante la Segunda Guerra Mundial, los Aliados registraron los números de serie de los tanques alemanes capturados. Clasificar la variable de número de serie subyacente por tipo y nivel de medición.

    Contestar

    discreto, ordinal.

    Para una discusión sobre cómo se utilizaron los números de serie para estimar el número total de tanques, consulte la sección de Estadísticas de Orden en el capítulo Modelos de Muestreo Finito.


    This page titled 6.1: Introducción is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.