1.2: Definiciones de Estadística, Probabilidad y Términos Clave

Última actualización
Guardar como PDF

Page ID: 153420

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

La ciencia de la estadística se ocupa de la recolección, análisis, interpretación y presentación de datos. Vemos y usamos datos en nuestra vida cotidiana.

Ejercicio Colaborativo

En tu salón de clases, prueba este ejercicio. Haga que los miembros de la clase escriban el tiempo promedio (en horas, a la media hora más cercana) que duermen por noche. Su instructor registrará los datos. Luego crea una gráfica simple (llamada gráfica de puntos) de los datos. Una gráfica de puntos consiste en una recta numérica y puntos (o puntos) colocados por encima de la recta numérica. Por ejemplo, considere los siguientes datos:

5; 5.5; 6; 6; 6; 6.5; 6.5; 6.5; 6.5; 7; 7; 8; 8; 9

La gráfica de puntos para estos datos sería la siguiente:

¿Tu diagrama de puntos se ve igual o diferente al ejemplo? ¿Por qué?
Si hicieras el mismo ejemplo en una clase de inglés con el mismo número de alumnos, ¿crees que los resultados serían los mismos? ¿Por qué o por qué no?
¿Dónde aparecen tus datos para agrupar? ¿Cómo podría interpretar el agrupamiento?

Las preguntas anteriores te piden analizar e interpretar tus datos. Con este ejemplo, has iniciado tu estudio de estadística.

En este curso, aprenderás a organizar y resumir datos. Organizar y resumir datos se llama estadística descriptiva. Dos formas de resumir los datos son graficando y usando números (por ejemplo, encontrando un promedio). Después de haber estudiado las distribuciones de probabilidad y probabilidad, utilizará métodos formales para sacar conclusiones a partir de datos “buenos”. Los métodos formales se denominan estadísticas inferenciales. La inferencia estadística utiliza la probabilidad para determinar qué tan seguros podemos tener de que nuestras conclusiones son correctas.

La interpretación efectiva de los datos (inferencia) se basa en buenos procedimientos para producir datos y un examen reflexivo de los datos. Te encontrarás con lo que parecerán ser demasiadas fórmulas matemáticas para interpretar datos. El objetivo de la estadística no es realizar numerosos cálculos utilizando las fórmulas, sino comprender sus datos. Los cálculos se pueden hacer usando una calculadora o una computadora. El entendimiento debe venir de ti. Si puedes comprender a fondo los conceptos básicos de las estadísticas, puedes tener más confianza en las decisiones que tomas en la vida.

Probabilidad

La probabilidad es una herramienta matemática utilizada para estudiar la aleatoriedad. Se trata de la posibilidad (la probabilidad) de que ocurra un evento. Por ejemplo, si arrojas una moneda justa cuatro veces, los resultados pueden no ser dos cabezas y dos colas. No obstante, si lanzas la misma moneda 4 mil veces, los resultados serán cercanos a medias cabezas y medias colas. La probabilidad teórica esperada de cabezas en cualquier lanzamiento es$\frac{1}{2}$ o 0.5. Aunque los resultados de algunas repeticiones son inciertos, existe un patrón regular de resultados cuando hay muchas repeticiones. Después de leer sobre el estadístico inglés Karl Pearson que arrojó una moneda 24 mil veces con un resultado de 12 mil 012 cabezas, uno de los autores arrojó una moneda 2 mil veces. Los resultados fueron 996 cabezas. La fracción$\frac{996}{2000}$ es igual a 0.498 que está muy cerca de 0.5, la probabilidad esperada.

La teoría de la probabilidad comenzó con el estudio de los juegos de azar como el póquer. Las predicciones toman la forma de probabilidades. Para predecir la probabilidad de un terremoto, de lluvia, o si obtendrá una A en este curso, utilizamos probabilidades. Los médicos utilizan la probabilidad para determinar la posibilidad de que una vacuna cause la enfermedad que se supone que debe prevenir la vacunación. Un corredor de bolsa utiliza la probabilidad para determinar la tasa de rendimiento de las inversiones de un cliente. Podrías usar probabilidad para decidir comprar un boleto de lotería o no. En tu estudio de estadística, utilizarás el poder de las matemáticas a través de cálculos de probabilidad para analizar e interpretar tus datos.

Términos Clave

En estadística, generalmente queremos estudiar una población. Se puede pensar en una población como una colección de personas, cosas u objetos en estudio. Para estudiar la población, seleccionamos una muestra. La idea del muestreo es seleccionar una porción (o subconjunto) de la población más grande y estudiar esa porción (la muestra) para obtener información sobre la población. Los datos son el resultado del muestreo de una población.

Debido a que se necesita mucho tiempo y dinero para examinar a toda una población, el muestreo es una técnica muy práctica. Si deseas calcular el promedio general de calificaciones en tu escuela, tendría sentido seleccionar una muestra de alumnos que asisten a la escuela. Los datos recopilados de la muestra serían los promedios de calificaciones de los estudiantes. En las elecciones presidenciales se toman muestras de encuestas de opinión de mil a 2,000 personas. Se supone que el sondeo de opinión representa las opiniones de la gente de todo el país. Los fabricantes de bebidas carbonatadas enlatadas toman muestras para determinar si una lata de 16 onzas contiene 16 onzas de bebida carbonatada.

A partir de los datos de la muestra, podemos calcular una estadística. Un estadístico es un número que representa una propiedad de la muestra. Por ejemplo, si consideramos que una clase de matemáticas es una muestra de la población de todas las clases de matemáticas, entonces el número promedio de puntos obtenidos por los estudiantes en esa clase de matemáticas al final del trimestre es un ejemplo de una estadística. El estadístico es una estimación de un parámetro de población. Un parámetro es un número que es propiedad de la población. Dado que consideramos que todas las clases de matemáticas son la población, entonces el número promedio de puntos obtenidos por alumno sobre todas las clases de matemáticas es un ejemplo de un parámetro.

Una de las principales preocupaciones en el campo de la estadística es la precisión con la que una estadística estima un parámetro. La precisión realmente depende de qué tan bien represente la muestra a la población. La muestra debe contener las características de la población para que sea una muestra representativa. Nos interesa tanto el estadístico muestral como el parámetro poblacional en estadística inferencial. En un capítulo posterior, utilizaremos el estadístico muestral para probar la validez del parámetro poblacional establecido.

Una variable, anotada en mayúsculas como$X$ y$Y$, es una característica de interés para cada persona o cosa en una población. Las variables pueden ser numéricas o categóricas. Las variables numéricas toman valores con unidades iguales como el peso en libras y el tiempo en horas. Las variables categóricas colocan a la persona o cosa en una categoría. Si dejamos$X$ igualar el número de puntos obtenidos por un estudiante de matemáticas al final de un trimestre, entonces$X$ es una variable numérica. Si dejamos$Y$ ser la afiliación partidista de una persona, entonces algunos ejemplos de$Y$ incluyen republicano, demócrata e independiente. $Y$es una variable categórica. Podríamos hacer algunas matemáticas con valores de$X$ (calcular el número promedio de puntos obtenidos, por ejemplo), pero no tiene sentido hacer matemáticas con valores de$Y$ (calcular una afiliación partidista promedio no tiene sentido).

Los datos son los valores reales de la variable. Pueden ser números o pueden ser palabras. Datum es un valor único.

Dos palabras que aparecen a menudo en las estadísticas son medias y proporciones. Si tomaras tres exámenes en tus clases de matemáticas y obtuvieras puntuaciones de 86, 75 y 92, calcularías tu puntaje medio sumando los tres puntajes de los exámenes y dividiéndolo por tres (tu puntaje promedio sería de 84.3 a un decimal). Si, en tu clase de matemáticas, hay 40 estudiantes y 22 son hombres y 18 son mujeres, entonces la proporción de estudiantes varones es$\frac{22}{40}$ y la proporción de mujeres estudiantes lo es$\frac{18}{40}$. La media y la proporción se discuten con más detalle en capítulos posteriores.

Las palabras "media" y "promedio" a menudo se usan indistintamente. La sustitución de una palabra por otra es práctica común. El término técnico es “media aritmética”, y “promedio” es técnicamente una ubicación central. Sin embargo, en la práctica entre los no estadísticos, el “promedio” es comúnmente aceptado para la “media aritmética”.

Ejemplo$\PageIndex{1}$

Determinar a qué se refieren los términos clave en el siguiente estudio. Queremos saber la cantidad promedio (media) de dinero que los estudiantes universitarios de primer año gastan en ABC College en útiles escolares que no incluyen libros. Encuestamos aleatoriamente a 100 estudiantes de primer año en la universidad. Tres de esos estudiantes gastaron $150, $200 y 225 dólares, respectivamente.

Contestar

La población es todos los estudiantes de primer año que asisten a ABC College este trimestre.
La muestra podría ser todos los estudiantes matriculados en una sección de un curso inicial de estadística en ABC College (aunque esta muestra puede no representar a toda la población).
El parámetro es la cantidad promedio (media) de dinero gastado (excluyendo libros) por los estudiantes universitarios de primer año en ABC College este trimestre.
La estadística es la cantidad promedio (media) de dinero gastado (excluyendo libros) por estudiantes universitarios de primer año en la muestra.
La variable podría ser la cantidad de dinero gastado (excluyendo libros) por un estudiante de primer año. Let$X$ = la cantidad de dinero gastado (excluyendo libros) por un estudiante de primer año que asiste a ABC College.
Los datos son los montos en dólares gastados por los estudiantes de primer año. Ejemplos de los datos son $150, $200 y $225.

Ejercicio$\PageIndex{1}$

Determinar a qué se refieren los términos clave en el siguiente estudio. Queremos saber la cantidad promedio (media) de dinero que gastan en uniformes escolares cada año las familias con niños en Knoll Academy. Encuestamos aleatoriamente a 100 familias con niños en la escuela. Tres de las familias gastaron 65, 75 y 95 dólares, respectivamente.

Contestar

La población es todas las familias con niños que asisten a la Academia Knoll.
La muestra es una selección aleatoria de 100 familias con niños que asisten a la Academia Knoll.
El parámetro es la cantidad promedio (media) de dinero gastado en uniformes escolares por familias con hijos en Knoll Academy.
El estadístico es la cantidad promedio (media) de dinero gastado en uniformes escolares por las familias de la muestra.
La variable es la cantidad de dinero gastada por una familia. Let$X$ = la cantidad de dinero gastada en uniformes escolares por una familia con niños que asisten a la Academia Knoll.
Los datos son los montos en dólares gastados por las familias. Ejemplos de los datos son $65, $75 y $95.

Ejemplo$\PageIndex{2}$

Determinar a qué se refieren los términos clave en el siguiente estudio.

Se realizó un estudio en una universidad local para analizar los GPA acumulados promedio de los estudiantes egresados el año pasado. Rellene la letra de la frase que mejor describa cada uno de los ítems a continuación.

1._____ Población 2._____ Estadística 3._____ Parámetro 4._____ Muestra 5._____ Variable 6._____ Datos

todos los estudiantes que asistieron a la universidad el año pasado
el promedio acumulado de un estudiante que se graduó de la universidad el año pasado
3.65, 2.80, 1.50, 3.90
un grupo de alumnos egresados de la universidad el año pasado, seleccionados al azar
el promedio acumulado promedio de los estudiantes egresados de la universidad el año pasado
todos los alumnos que se graduaron de la universidad el año pasado
el promedio acumulado promedio de los estudiantes del estudio que egresaron de la universidad el año pasado

Contestar

1. f; 2. g; 3. e; 4. d; 5. b; 6. c

Ejemplo$\PageIndex{3}$

Determinar a qué se refieren los términos clave en el siguiente estudio.

Como parte de un estudio diseñado para probar la seguridad de los automóviles, la Junta Nacional de Seguridad en el Transporte recopiló y revisó datos sobre los efectos de un accidente automovilístico en maniquíes de prueba. Aquí está el criterio que utilizaron:

Velocidad a la que se estrellaron los autos	Ubicación de “drive” (es decir, dummies)
35 millas/hora	Asiento Delantero

Autos con maniquíes en los asientos delanteros se estrellaron contra una pared a una velocidad de 35 millas por hora. Queremos saber la proporción de maniquíes en el asiento del conductor que habrían tenido lesiones en la cabeza, si hubieran sido conductores reales. Comenzamos con una simple muestra aleatoria de 75 autos.

Contestar

La población es todos los autos que contienen maniquíes en el asiento delantero.
La muestra son los 75 autos, seleccionados por una simple muestra aleatoria.
El parámetro es la proporción de maniquíes conductores (si hubieran sido personas reales) que habrían sufrido lesiones en la cabeza en la población.
El estadístico es la proporción de maniquíes conductores (si hubieran sido personas reales) que habrían sufrido lesiones en la cabeza en la muestra.
La variable$X$ = el número de maniquíes conductores (si hubieran sido personas reales) que habrían sufrido lesiones en la cabeza.
Los datos son: sí, tuvo lesión en la cabeza, o no, no lo hizo.

Ejemplo$\PageIndex{4}$

Determinar a qué se refieren los términos clave en el siguiente estudio.

A una compañía de seguros le gustaría determinar la proporción de todos los médicos que han estado involucrados en una o más demandas por mala praxis. La compañía selecciona al azar 500 médicos de un directorio profesional y determina el número en la muestra que han estado involucrados en una demanda por mala praxis.

Contestar

La población es todos los médicos que figuran en el directorio profesional.
El parámetro es la proporción de médicos que han estado involucrados en una o más demandas por mala praxis en la población.
La muestra son los 500 médicos seleccionados al azar del directorio profesional.
El estadístico es la proporción de médicos que han estado involucrados en una o más demandas por mala praxis en la muestra.
La variable$X$ = el número de médicos que han estado involucrados en una o más demandas por mala praxis.
Los datos son: sí, estuvo involucrado en una o más demandas por mala praxis, o no, no lo fue.

Ejercicio Colaborativo

Haz el siguiente ejercicio en colaboración con hasta cuatro personas por grupo. Encuentra una población, una muestra, el parámetro, la estadística, una variable y datos para el siguiente estudio: Se desea determinar el promedio (promedio) del número de vasos de leche que los estudiantes universitarios beben por día. Supongamos que ayer, en tu clase de inglés, preguntaste a cinco alumnos cuántos vasos de leche bebieron el día anterior. Las respuestas fueron 1, 0, 1, 3 y 4 vasos de leche.

Referencias

The Data and Story Library, https://dasl.datadescription.com/ (consultado el 1 de mayo de 2013).

Practica

Utilice la siguiente información para responder a los siguientes cinco ejercicios. A menudo, las compañías farmacéuticas realizan estudios para determinar la efectividad de un programa de tratamiento. Supongamos que actualmente se encuentra en estudio un nuevo fármaco de anticuerpos contra el SIDA. Se administra a los pacientes una vez que los síntomas del SIDA se han revelado. De interés es la duración promedio (media) de tiempo en meses que los pacientes viven una vez que inician el tratamiento. Dos investigadores siguen cada uno un conjunto diferente de 40 pacientes con SIDA desde el inicio del tratamiento hasta su muerte. Se recogen los siguientes datos (en meses).

Investigador A:

3; 4; 11; 15; 16; 17; 22; 44; 37; 16; 14; 24; 25; 15; 26; 27; 33; 29; 35; 44; 13; 21; 22; 10; 12; 8; 40; 32; 26; 27; 31; 34; 29; 17; 8; 24; 18; 47; 33; 34

Investigador B:

3; 14; 11; 5; 16; 17; 28; 41; 31; 18; 14; 14; 26; 25; 21; 22; 31; 2; 35; 44; 23; 21; 21; 16; 12; 18; 41; 22; 16; 25; 33; 34; 29; 13; 18; 24; 23; 42; 33; 29

Determinar a qué se refieren los términos clave en el ejemplo para el Investigador A.

Ejercicio$\PageIndex{2}$

población

Contestar

Pacientes con SIDA.

Ejercicio$\PageIndex{3}$

muestra

Ejercicio$\PageIndex{4}$

parámetro

Contestar

El tiempo promedio (en meses) que los pacientes con SIDA viven después del tratamiento.

Ejercicio$\PageIndex{5}$

estadística

Ejercicio$\PageIndex{6}$

variable

Contestar

$X =$el tiempo (en meses) que los pacientes con SIDA viven después del tratamiento

Glosario

La teoría matemática de la estadística es más fácil de aprender cuando se conoce el idioma. Este módulo presenta términos importantes que serán utilizados a lo largo del texto.

Promedio: también llamada media; un número que describe la tendencia central de los datos

Variable categórica: variables que toman valores que son nombres o etiquetas

Datos: un conjunto de observaciones (un conjunto de posibles resultados); la mayoría de los datos se pueden poner en dos grupos: cualitativo (un atributo cuyo valor está indicado por una etiqueta) o cuantitativo (un atributo cuyo valor está indicado por un número). Los datos cuantitativos se pueden separar en dos subgrupos: discretos y continuos. Los datos son discretos si es el resultado del conteo (como el número de alumnos de un determinado grupo étnico en una clase o el número de libros en una estantería). Los datos son continuos si son el resultado de la medición (como la distancia recorrida o el peso del equipaje)

Variable numérica: variables que toman valores que están indicados por números

Parámetro: un número que se utiliza para representar una característica poblacional y que generalmente no se puede determinar fácilmente

Población: todos los individuos, objetos o medidas cuyas propiedades están siendo estudiadas

Probabilidad: un número entre cero y uno, inclusive, que da la probabilidad de que ocurra un evento específico

Proporción: el número de éxitos dividido por el número total en la muestra

Muestra Representativa: un subconjunto de la población que tiene las mismas características que la población

Muestra: un subconjunto de la población estudiada

Estadística: una característica numérica de la muestra; un estadístico estima el parámetro poblacional correspondiente.

Variable: una característica de interés para cada persona u objeto en una población