15.1: Glosario de Términos Estadísticos utilizados en Inferencia

Última actualización
Guardar como PDF

Page ID: 151382

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Regla Aditiva

En probabilidad, para los eventos A y B, P (A o B) = P (A) +P (B) ‐ P (A y B).

Alfa (\(\alpha\)) — ver Nivel de significancia

Hipótesis alternativa (\(H_a\)) Una declaración sobre el valor de un parámetro de población que se supone que es verdadera si la Hipótesis Null es rechazada durante la prueba.

Análisis de varianza (ANOVA)

Un grupo de pruebas estadísticas utilizadas para determinar si la media de una variable numérica (la Respuesta) está afectada por una o más variables categóricas (Factores).

Gráficos de Barras

Una gráfica de datos categóricos en la que la altura de la barra representa la frecuencia de cada elección. Los gráficos de barras se pueden agrupar o apilar para múltiples variables categóricas.

Distribución Bernoulli

Una función de distribución de probabilidad (parámetro p) para una variable aleatoria discreta que es el número de éxitos en un solo ensayo cuando solo hay dos resultados posibles (éxito o fracaso).

Beta (\(\beta\))

La probabilidad, establecida por diseño, de no rechazar la Hipótesis Null cuando en realidad es falsa. Beta se calcula para valores específicos posibles de la Hipótesis Alternativa.

Muestra sesgada

Muestra que presenta características, comportamientos y actitudes de la población de la que se selecciona la muestra, es decir, una muestra no representativa.

Distribución binomial

Una función de distribución de probabilidad (parámetros n, p) para una variable aleatoria discreta que es el número de éxitos en un número fijo de ensayos independientes cuando solo hay dos resultados posibles (éxito o fracaso).

Datos bivariados

Pares de datos numéricos; hay dos variables o medidas por observación.

Parcela de caja

Una gráfica que representa los 3 cuartiles (Q1, mediana y Q3), junto con los valores mínimo y máximo de los datos.

Cigador

En un experimento, el cegamiento es mantener al participante y/o al administrador inconscientes de qué tratamiento se está dando. Un solo estudio ciego es cuando el participante no sabe si el tratamiento es real o un placebo. Un estudio doble ciego es cuando ni el administrador del tratamiento ni el participante saben si el tratamiento es real o un placebo.

Datos categóricos

Valores no numéricos. Algunos ejemplos de datos categóricos incluyen color de ojos, género, modelo de computadora y ciudad.

Teorema de Límite Central

Un teorema poderoso que nos permite entender la distribución de la media muestral,\(\bar{X}\). Si\(X_{1}, X_{2}, \ldots, X_{n}\) es una muestra aleatoria de una distribución de probabilidad con media =\(\mu\) y desviación estándar =\(\sigma\) y el tamaño de la muestra es “suficientemente grande”, entonces\(\bar{X}\) tendrá una Distribución Normal con la misma media y una desviación estándar de\(\sigma / \sqrt{n}\) también conocida como Error Estándar). Debido a este teorema, la mayor parte de la inferencia estadística se realiza utilizando una distribución muestral de la Familia Normal.

Intervalos de clase

Para los datos numéricos agrupados, una categoría, generalmente de igual ancho, en la que se cuentan los valores.

Distribución de Chi‐cuadrado (\(\chi^{2}\))

Familia de variables aleatorias continuas (basadas en grados de libertad) con una función de densidad de probabilidad que proviene de la Familia Normal de distribuciones de probabilidad. La distribución de Chi‐cuadrado no es negativa y sesgada hacia la derecha y tiene muchos usos en la inferencia estadística, como la inferencia sobre una varianza poblacional, pruebas de bondad de ajuste y prueba de independencia para datos categóricos.

Prueba de bondad de ajuste de Chi‐cuadrado

Una prueba que se utiliza para probar si los datos observados de una variable categórica es consistente con una suposición esperada sobre la distribución de esa variable.

Prueba de independencia de Chi‐cuadrado

Una prueba para determinar si existe una relación entre dos variables categóricas aleatorias

Prueba de homogeneidad de Chi‐cuadrado

Una prueba que se ejecuta de la misma manera que una Prueba de Independencia de Chi‐cuadrado, pero en la que sólo se aleatoriza una de las variables categóricas.

Probabilidad clásica (también llamada Probabilidad Matemática)

Determinado por conteo o usando una fórmula o modelo matemático..

Muestra de racimo

Una muestra que se crea dividiendo primero la población en grupos llamados clusters, y luego tomando una muestra de clusters.

Complemento de un Evento

El complemento de un evento significa que el evento no ocurre. Si el evento está etiquetado como A, entonces el complemento de A se etiqueta A' y se lee como “no A”.

Probabilidad Condicional

La probabilidad de que ocurra un evento A dado que ya ocurrió otro evento B. Esta probabilidad se escribe como P (A|B) que se lee como P (A dado B).

Intervalo de confianza

Una estimación de intervalo que estima un parámetro de población a partir de una muestra aleatoria usando una probabilidad predeterminada llamada nivel de confianza.

Nivel de Confianza

ver Nivel de Confianza

Variable de confusión

Una variable al acecho que no es conocida por el investigador, pero que afecta los resultados del estudio.

Tablas de Contingencia

Un método para mostrar los recuentos de las respuestas de dos variables categóricas a partir de datos, también conocidas como tabulaciones cruzadas, o tablas de dos vías.

Grupo de control

En un experimento, el grupo que no recibe tratamiento dando al investigador una línea base para poder comparar los grupos de tratamiento y placebo.

Datos continuos

Cuantitativo basado en los números reales. Algunos ejemplos de datos continuos incluyen tiempo para completar un examen, estatura, peso. Los datos continuos son valores que se miden, o responde a la pregunta “¿Cuánto”?

Variable aleatoria continua

Una variable aleatoria que solo tiene valores continuos. Los valores continuos son incontables y están relacionados con números reales.

Coeficiente de correlación

Una medida de correlación (representada por la letra\(r\)) que mide tanto la dirección como la fuerza de una relación lineal o asociación entre dos variables. El valor siempre\(r\) tomará un valor entre ‐1 y 1. Los valores cercanos a cero implican una correlación muy débil. Los valores cercanos a 1 o ‐1 implican una correlación muy fuerte. El coeficiente de correlación no debe utilizarse para la correlación no lineal.

Valor (es) crítico (es)

El punto o puntos de división entre la región donde se rechaza la Hipótesis Null y la región donde no es rechazada. El valor crítico determina la regla de decisión

Tabulaciones cruzadas

ver Tablas de Contingencia

Frecuencia Acumulada

En los datos agrupados, el número de veces que se observa un valor particular en un intervalo de clase o en cualquier intervalo de clase inferior.

Frecuencia Relativa Acumulada

En los datos agrupados, la proporción o porcentaje de veces que se observa un valor particular en un intervalo de clase o en cualquier intervalo de clase inferior.

Dragado de datos

ver\(p\) ‐hacking

Regla de Decisión

El procedimiento que determina qué valores del resultado de un experimento provocará que se rechace la Hipótesis Null. Hay dos métodos que son reglas de decisión equivalentes:

Si el estadístico de prueba se encuentra en la Región de Rechazo, Rechazar\(H_o\) (método de Valor Crítico).
Si el\(p\) ‐valor <\(\alpha\), Rechazar\(H_o\) (método\(p\) ‐valor).

Sucesos Dependientes

Dos eventos son dependientes si la probabilidad de que ocurra un evento se cambia al saber si el otro evento ocurrió o no. Los eventos que no son dependientes se denominan independientes.

Muestreo Dependiente

Un método de muestreo en el que 2 o más variables se relacionan entre sí (emparejadas o emparejadas). Ejemplos serían los modelos de tipo “Antes y Después” usando la\(t\) prueba Pares coincidentes.

Datos discretos

Números naturales cuantitativos (0, 1, 2, 3,...). Algunos ejemplos de datos discretos incluyen el número de hermanos, amigos en Facebook o habitaciones en una casa. Los datos discretos son valores que se cuentan, o donde podrías hacer la pregunta “¿Cuántos”?

Variable aleatoria discreta

Una variable aleatoria que solo tiene valores discretos. Los valores discretos están relacionados con el conteo de números.

Gráfica de puntos

Un gráfico de datos numéricos en el que cada valor se representa como un punto en una escala numérica simple. Se apilan múltiples valores para crear una forma para los datos. Si el conjunto de datos es grande, cada punto puede representar múltiples valores de los datos.

Tamaño del efecto

La “diferencia práctica” entre un parámetro poblacional bajo la Hipótesis Null y un valor seleccionado del parámetro poblacional bajo la Hipótesis Alternativa.

Probabilidad empírica

Probabilidad que se basa en las frecuencias relativas de datos históricos, estudios o experimentos.

Regla empírica

(También conocida como la Regla 68‐95‐99.7). Una regla utilizada para interpretar la desviación estándar para datos que tienen aproximadamente forma de campana. La regla dice que alrededor del 68% de los datos están dentro de una desviación estándar de la media, el 95% de los datos están dentro de dos desviaciones estándar de la media, y alrededor del 99.7% de los datos se encuentran dentro de tres desviaciones estándar de la media.

Estimación

Un proceso de inferencia que intenta predecir los valores de los parámetros poblacionales a partir de estadísticas de muestra

Evento

Resultado de un experimento, generalmente referido con mayúscula A, B, C, etc.

Valor esperado

Un valor que describe la tendencia central de una variable aleatoria, también conocida como la media poblacional y que se expresa por el símbolo (pronunciado mu). El valor esperado es un parámetro, es decir, una cantidad fija

Experimento

Estudio en el que el investigador dividirá aleatoriamente una muestra representativa en grupos para luego aplicar tratamientos para manipular una variable de interés. El objetivo de un experimento es encontrar una relación de causa y efecto entre una variable aleatoria en la población y la variable manipulada por el investigador.

Distribución exponencial

Una función de distribución de probabilidad (parámetro\(\mu\)) para una variable aleatoria continua que modela el tiempo de espera hasta la primera ocurrencia de un evento definido por un Proceso de Poisson.

Variable explicativa

La variable que el investigador controla o manipula

\(F\)Distribución

Familia de variables aleatorias continuas (basadas en 2 grados diferentes de libertad para numerador y denominador) con una función de densidad de probabilidad que es de la Familia Normal de distribuciones de probabilidad. La distribución F es no negativa y sesgada hacia la derecha y tiene muchos usos en la inferencia estadística, como la inferencia sobre la comparación de varianzas poblacionales, ANOVA y regresión.

Factor

En ANOVA, las variables categóricas que dividen la variable de respuesta numérica en múltiples poblaciones o tratamientos.

Frecuencia

En los datos agrupados se observa el número de veces que se observa un valor determinado.

Distribución de frecuencia

Una organización de datos numéricos en intervalos de clase.

Distribución Geométrica

Una función de distribución de probabilidad (parámetro p) para una variable aleatoria discreta que es el número de ensayos independientes hasta el primer éxito en el que solo hay dos resultados posibles (éxito o fracaso).

Hipótesis

Una declaración sobre el valor de un parámetro poblacional desarrollado con fines de prueba

Prueba de hipótesis

Un procedimiento, basado en evidencia de muestra y teoría de probabilidad, utilizado para determinar si la hipótesis es una afirmación razonable y no debe ser rechazada, o es irrazonable y debe ser rechazada.

Eventos Independientes

Dos eventos son independientes si la probabilidad de que ocurra un evento no se cambia al saber si el otro evento ocurrió o no. Los eventos que no son independientes se denominan dependientes.

Muestreo Independiente

Un método de muestreo en el que 2 o más variables no están relacionadas entre sí. Ejemplos serían los modelos de tipo “Tratamiento y Control” utilizando la\(t\) prueba de muestras independientes.

Inferencia

— ver Inferencia estadística

Rango Intercuartil (IQR)

Una medida de variabilidad que se calcula tomando la diferencia del primer cuartil y el 3er cuartiles.

Estimación de Intervalos

Un rango de valores basado en datos de muestra que se utiliza para estimar un parámetro de población

Nivel de Intervalo de Datos

Datos cuantitativos que tienen distancia significativa entre valores, pero que no tienen un cero “verdadero”. Los datos de intervalo son numéricos, pero cero es solo un marcador de posición. Ejemplos de datos de intervalos incluyen temperatura en grados Celsius y año de nacimiento.

Probabilidad Conjunta

La probabilidad de que ocurra la unión o intersección de múltiples eventos. Si A y B son eventos múltiples, entonces P (A o B) y P (A y B) son ejemplos de probabilidad conjunta.

Nivel

En ANOVA, un posible valor que podría ser un factor variable categórico. Por ejemplo, si el factor era el color de la camisa, los niveles serían azul, rojo, amarillo, etc.

Nivel de Confianza

La probabilidad, generalmente expresada como un porcentaje, de que un Intervalo de Confianza contendrá el parámetro de población verdadero que se está estimando.

Nivel de significancia (\(\alpha\))

La probabilidad máxima, establecida por diseño, de rechazar la Hipótesis Null cuando en realidad es verdadera (probabilidad máxima de cometer un error de Tipo I).

Niveles de datos

Los cuatro niveles de datos son Nominal, Ordinal, Intervalo y Ratio.

Variable al acecho

ver Variable de confusión

Margen de Error

La distancia en un Intervalo de Confianza simétrico entre el Estimador de Puntos y un punto final del intervalo. Por ejemplo, un intervalo de confianza para\(\mu\) puede expresarse como\(\bar{X} \pm \) Margen de Error.

Probabilidad marginal

La probabilidad de que ocurra un solo evento A, escrito como P (A).

Media

ver Media de la Población o Media de la Muestra

Mediana

ver Mediana de la población o mediana de la muestra

Modo

ver Modo de Población o Modo de Muestra

Supuestos de modelo

Criterios que deben cumplirse para utilizar adecuadamente un modelo estadístico elegido. Por ejemplo, un estadístico t de Student utilizado para probar una media poblacional vs. un valor hipotético requiere un muestreo aleatorio y que la media de la muestra tiene una distribución aproximadamente Normal.

Regla Multiplicativa

En probabilidad, para los eventos A y B, P (A y B) = P (A) P (B|A) = P (B) P (A|B).

Eventos Mutuamente Exclusivos

Eventos que no pueden ocurrir ambos; la intersección de dos eventos no tiene resultados posibles.

Nivel Nominal de Datos

Datos cualitativos que solo definen atributos, sin clasificación jerárquica. Los ejemplos de datos nominales incluyen el color del cabello, la etnia, el género y cualquier pregunta de sí/no.

Métodos de muestreo no probabilístico

Métodos de muestreo no científicos que tienen sesgos inconmensurables y que no deben ser utilizados en la investigación científica. Estos métodos incluyen Muestreo Conveniente y Muestreo Self‐seleccionado.

Sesgo de no respuesta

Un tipo de sesgo de muestreo que ocurre cuando las personas son excluidas intencionalmente o no intencionadamente de la participación o eligen no participar en una encuesta o encuesta. A veces la gente también le mentirá a los encuestadores.

Distribución Normal

A menudo llamada la curva “en forma de campana”, la Distribución Normal es una variable aleatoria continua que tiene la Función de Densidad de\(X=\exp \left[-(x-\mu)^{2} / 2 \sigma^{2}\right] / \sigma \sqrt{2 \pi}\) Probabilidad.El caso especial donde\(\mu=0\) y\(\sigma=1\), se llama la Distribución Normal Estándar y se designa por\(Z\).

Familia Normal de Distribuciones de Probabilidad

La Distribución Normal Estándar (\(Z\)) más otras Distribuciones de Probabilidad que son funciones de variables aleatorias independientes con Distribución Normal Estándar. Los ejemplos incluyen las distribuciones\(t\), la\(F\) y la Chi‐cuadrado.

Hipótesis nula (\(H_o\))

Una declaración sobre el valor de un parámetro de población que se supone que es cierto para fines de prueba

Estudio observacional

Estudio en el que el investigador toma medidas de una muestra representativa, pero no manipula ninguna de las variables con tratamientos. El objetivo de un estudio observacional es interpretar y analizar las variables medidas, pero no es posible mostrar una relación de causa y efecto.

Ogive

Un gráfico de líneas en el que el eje vertical es la frecuencia relativa acumulativa y el eje horizontal es el valor de los datos, específicamente los puntos finales de los intervalos de clase. El punto final izquierdo del intervalo de primera clase tendrá una frecuencia relativa acumulativa de cero. Todos los demás puntos finales reciben el punto final correcto del intervalo de clase correspondiente. Los puntos se conectan entonces por segmentos de línea. La oda puede ser utilizada para estimar percentiles.

Resultado

Resultado del experimento que no se puede descomponer en eventos más pequeños.

Nivel Ordinal de Datos

Datos cualitativos que definen atributos con un ranking jerárquico. Ejemplos de datos nominales incluyen calificaciones de películas (G, PG, PG13, R, NC17), talla de camiseta (S, M L, XL) o su calificación de letra en un documento final.

Valores atípicos

Un punto de datos que está muy alejado de las otras entradas del conjunto de datos.

\(p\)‐valor

La probabilidad, asumiendo que la Hipótesis Null es verdadera, de obtener un valor del estadístico de prueba al menos tan extremo como el valor calculado para la prueba.

\(p\)‐hackear

Un método de investigación inadecuado que utiliza experimentos repetidos o análisis de múltiples medidas hasta que el investigador obtiene un valor p significativo. También conocido como Dragado de Datos.

Parámetro

Un valor numérico fijo que describe una característica de una población.

Percentil

El valor de los datos por debajo del cual cae un porcentaje dado de los datos.

Gráfico circular

Un gráfico circular de datos categóricos donde cada porción del pastel representa la frecuencia relativa o porcentaje de datos en cada categoría.

Placebo

Un tratamiento sin ingredientes activos.

Efecto Placebo

En un experimento, cuando un participante responde de manera positiva a un placebo, un tratamiento sin ingredientes activos.

Grupo Placebo

En un experimento, el grupo que recibe el tratamiento sin ingredientes activos.

Estimación de puntos

Un estadístico de muestra única que se utiliza para estimar un parámetro de población. Por ejemplo,\(\bar{X}\) es un estimador de puntos para\(\mu\).

Distribución de Poisson

Una función de distribución de probabilidad (parámetro\(\mu\)) para una variable aleatoria discreta que es el número de ocurrencias en un período de tiempo fijo o región, sobre el cual las ocurrencias de tasa es una constante.

Proceso de Poisson

Métodos de conteo que son modelados por variables aleatorias que siguen una Distribución de Poisson.

Población

El conjunto de todos los posibles miembros, objetos o medidas de los fenómenos que se estudian.

Media de la Población

ver Valor Esperado

Mediana de la población

Valor que describe la tendencia central de una variable aleatoria que representa el percentil 50. La mediana poblacional es un parámetro, es decir, una cantidad fija.

Modo Población

El valor o valores máximos de una función de densidad de probabilidad.

Varianza poblacional

El valor esperado de la desviación cuadrada de la media, un valor que describe la variabilidad de una variable aleatoria expresada por el símbolo\(\sigma^{2}\) (pronunciado sigma‐cuadrado). La varianza poblacional es un parámetro, es decir, una cantidad fija.

Desviación estándar poblacional

La raíz cuadrada de la varianza poblacional, un valor que describe la variabilidad de una variable aleatoria expresada por el símbolo\(\sigma\) (sigma pronunciado).

Potencia (o Poder Estadístico)

La probabilidad, establecida por diseño, de rechazar la Hipótesis Null cuando en realidad es falsa. El poder se calcula para valores específicos posibles de la Hipótesis Alternativa y es el complemento de Beta (\(\beta\)).

Probabilidad

La medida de la probabilidad de que ocurra un evento A. Esta medida es una cantidad entre 0 (nunca) y 1 (siempre) y se expresará como P (A) (leer como “Se produce el evento de probabilidad A”.)

Función de Densidad de Probabilidad (pdf)

Una función no negativa que define la probabilidad para una variable aleatoria continua. La probabilidad se calcula midiendo el área bajo una función de densidad de probabilidad.

Función de distribución de probabilidad (PDF)

Función que asigna una probabilidad a todos los valores posibles de una variable aleatoria discreta. En el caso de una variable aleatoria continua (como la Distribución Normal), el PDF se refiere al área a la izquierda de un valor designado bajo una Función de Densidad de Probabilidad.

Métodos de muestreo de probabilidad

Métodos de muestreo que suelen producir una muestra representativa de la población. Estos métodos también se denominan muestreo científico. Los ejemplos incluyen muestreo aleatorio simple, muestreo sistemático, muestreo estratificado y muestreo de racimos.

Datos Cualitativos

Valores no numéricos que describen los datos. Tenga en cuenta que todos los datos cuantitativos son numéricos, pero algunos números sin cantidad (como Código Postal o Número de Seguro Social) son cualitativos. Al describir datos categóricos, nos limitamos a observar recuentos en cada grupo y comparar las diferencias en porcentajes.

Datos Cuantitativos

Medidas y cantidades numéricas que se pueden determinar a partir de los datos. Al describir datos cuantitativos, podemos observar el centro, la propagación, la forma y las características inusuales.

Cuartil

Los percentiles 25, 50 y 75, que generalmente se denominan, respectivamente, el primer cuartil, la mediana y el 3er cuartil.

Radix

Un total conveniente utilizado para crear una tabla hipotética de dos vías.

Muestra Aleatoria

ver Muestra aleatoria simple

Rango

Para los datos numéricos, el valor máximo menos el valor mínimo.

Variable aleatoria

Variable en la que el valor depende de un experimento, observación o medición.

Nivel de relación de datos

Datos cuantitativos que tienen distancia significativa entre valores, y tienen un cero “verdadero”. Los ejemplos de datos de relación incluyen el tiempo para conducir al trabajo, el peso, la estatura o el número de hijos en una familia. La mayoría de los datos numéricos serán ratio.

Datos sin procesar

Los datos de la muestra se presentaron sin clasificar.

Análisis de Regresión

Un método para modelar datos bivariados correlacionados.

Frecuencia relativa

En los datos agrupados se observa la proporción o porcentaje de veces que se observa un valor determinado.

Replicar

En ANOVA, el tamaño de la muestra para un nivel específico de factor. Si las réplicas son las mismas para cada nivel, el diseño está equilibrado.

Región de Rechazo

Región (es) del Modelo Estadístico que contienen los valores del Estadístico de Prueba en la que se rechazará la Hipótesis Null. El área total de la Región de Rechazo\(=\alpha\).

Muestra Representativa

Muestra que presenta características, comportamientos y actitudes similares a la población de la que se selecciona la muestra.

Variable de respuesta

La variable numérica que se está probando bajo diferentes tratamientos o poblaciones.

Sesgo de respuesta

Un tipo de sesgo de muestreo que ocurre cuando las respuestas a una encuesta son influenciadas por la forma en que se hace la pregunta, o cuando las respuestas no reflejan la verdadera opinión del encuestado. Al realizar una encuesta o sondeo, el tipo, orden y redacción de las preguntas son consideraciones importantes. Las preguntas mal redactadas pueden invalidar los resultados de una encuesta.

Regla de Complemento

Si los eventos A y A' son complementos, entonces P (A) +P (A') =1.

Muestra

Un subconjunto de la población que se estudia para recolectar o recopilar datos.

Tamaño de la muestra

El número de observaciones en su tamaño muestral, generalmente representado por\(n\).

Media de la Muestra

El promedio aritmético de un conjunto de datos numéricos.
Variable aleatoria que tiene aproximadamente una Distribución Normal si el tamaño de la muestra es suficientemente grande.
Un estimador imparcial para la media poblacional

Mediana de la muestra

El valor que representa la mitad exacta de los datos, cuando los valores se ordenan de menor a mayor.

Modo de muestra

El valor que ocurre con mayor frecuencia en los datos. Si hay múltiples valores que ocurren con mayor frecuencia, entonces hay múltiples modos en los datos.

Nivel de significancia

ver Nivel de significancia

Espacio de muestra

En probabilidad, el conjunto de todos los resultados posibles de un experimento.

Desviación estándar de muestra

La raíz cuadrada de la varianza de la muestra, que mide la dispersión de los datos y la distancia a la media. Las unidades de la desviación estándar son las mismas unidades que los datos.

Varianza de la muestra

Una medida de la desviación cuadrática media de los valores de los datos de la media. Las unidades de la varianza son el cuadrado de las unidades de los datos.

Diagrama de dispersión

Una gráfica de datos bivariados utilizada para visualizar la correlación entre las dos variables numéricas.

Sesgo de selección

Tipo de sesgo de muestreo que ocurre cuando el método de muestreo no crea una muestra representativa para el estudio. El sesgo de selección ocurre con frecuencia cuando se utiliza el muestreo

Sesgo de autoselección

Un tipo de sesgo de muestreo que ocurre cuando los individuos pueden ser voluntarios para formar parte del estudio. Los voluntarios suelen tener una opinión más fuerte sobre la cuestión de investigación y por lo general no serán representativos de la población.

Muestra aleatoria simple

Un subconjunto de una población en la que cada miembro de la población tiene las mismas posibilidades de ser elegido y es mutuamente independiente de todos los demás miembros.

Asimetría

Una medida de cuán asimétricos son los vales de datos.

Desviación estándar

ver Desviación estándar de la muestra o desviación estándar de población

Distribución Normal Estándar

Un caso especial de la Distribución Normal donde\(\mu = 0\) y\(\sigma = 1\). El símbolo\(Z\) suele estar reservado para la Distribución Normal Estándar.

Estadística

Un valor que se calcula únicamente a partir de los datos de la muestra, y que se utiliza para describir los datos. Ejemplos de estadísticas son la media muestral, la desviación estándar de la muestra, el rango, la mediana de la muestra y el rango intercuartil. Dado que las estadísticas dependen de la muestra, también son variables aleatorias.

Inferencia estadística

El proceso de estimación o prueba de hipótesis de parámetros poblacionales utilizando estadísticas de una muestra aleatoria.

Modelo Estadístico

Un modelo matemático que describe el comportamiento de los datos que se están probando.

Parcela de tallo y hoja

Un método para tabular datos dividiéndolos en el “tallo” (el primer dígito o dígitos) y la “hoja” (el último dígito, generalmente). Por ejemplo, el tallo por 102 minutos sería 10 y la hoja sería 2.

Muestra estratificada

Una muestra que se diseña dividiendo la población en subgrupos llamados estratos, los cuales luego se muestrean para que la proporción de cada subgrupo en la muestra coincida con la proporción de cada subgrupo en la población.

\(t\)Distribución (o\(t\) distribución) del estudiante

Familia de variables aleatorias continuas (basadas en grados de libertad) con una función de densidad de probabilidad que es de la Familia Normal de Distribuciones de Probabilidad. La\(t\) distribución se utiliza para la inferencia estadística de la media poblacional cuando se desconoce la desviación estándar poblacional.

Probabilidad subjetiva

Probabilidad que es una suposición educada “de un solo disparo” basada en historias anecdóticas, intuición o un sentimiento sobre si un evento es probable, improbable o “50‐50”. La probabilidad subjetiva suele ser inexacta.

Muestra Sistemática

Un subconjunto de la población en el que el primer miembro de la muestra se selecciona al azar y todos los miembros posteriores se eligen por un intervalo periódico fijo.

\(t\)Distribución

ver\(t\) Distribución del Alumno

Estadística de prueba

Un valor, determinado a partir de la información de la muestra, utilizado para determinar si rechazar o no la Hipótesis Null.

Grupo (s) de tratamiento

En un experimento, el grupo o grupos que reciben el tratamiento que controla el investigador.

Prueba Tukey HSD

En ANOVA, una colección post hoc de pruebas que reportan diferencias significativas honestas en par de medias.

Diagrama de árbol

Una forma sencilla de mostrar todos los resultados posibles en una secuencia de eventos. Cada rama representará un posible resultado. Utilizando la Regla Multiplicativa, se puede calcular la probabilidad de cada resultado posible.

Mesas de dos vías

ver Tablas de Contingencia

Error de tipo I

Rechazar la Hipótesis Nulo cuando en realidad es cierta.

Error de tipo II

No rechazar la Hipótesis Null cuando en realidad es falsa.

Distribución Uniforme

Una función de distribución de probabilidad (parámetros a, b) para una variable aleatoria continua en la que todos los valores entre un valor mínimo y un valor máximo tienen la misma probabilidad.

Varianza

ver Varianza muestral o Varianza de Población

\(Z\)‐puntuación

Una medida de la posición relativa que muestra la distancia en desviaciones estándar que un punto de datos en particular está por encima o por debajo de la media.