15.1: Glosario de Términos Estadísticos utilizados en Inferencia
- Page ID
- 151382
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)- Regla Aditiva
-
En probabilidad, para los eventos A y B, P (A o B) = P (A) +P (B) ‐ P (A y B).
- Alfa (\(\alpha\)) — ver Nivel de significancia
-
Hipótesis alternativa (\(H_a\)) Una declaración sobre el valor de un parámetro de población que se supone que es verdadera si la Hipótesis Null es rechazada durante la prueba.
- Análisis de varianza (ANOVA)
-
Un grupo de pruebas estadísticas utilizadas para determinar si la media de una variable numérica (la Respuesta) está afectada por una o más variables categóricas (Factores).
- Gráficos de Barras
-
Una gráfica de datos categóricos en la que la altura de la barra representa la frecuencia de cada elección. Los gráficos de barras se pueden agrupar o apilar para múltiples variables categóricas.
- Distribución Bernoulli
-
Una función de distribución de probabilidad (parámetro p) para una variable aleatoria discreta que es el número de éxitos en un solo ensayo cuando solo hay dos resultados posibles (éxito o fracaso).
- Beta (\(\beta\))
-
La probabilidad, establecida por diseño, de no rechazar la Hipótesis Null cuando en realidad es falsa. Beta se calcula para valores específicos posibles de la Hipótesis Alternativa.
- Muestra sesgada
-
Muestra que presenta características, comportamientos y actitudes de la población de la que se selecciona la muestra, es decir, una muestra no representativa.
- Distribución binomial
-
Una función de distribución de probabilidad (parámetros n, p) para una variable aleatoria discreta que es el número de éxitos en un número fijo de ensayos independientes cuando solo hay dos resultados posibles (éxito o fracaso).
- Datos bivariados
-
Pares de datos numéricos; hay dos variables o medidas por observación.
- Parcela de caja
-
Una gráfica que representa los 3 cuartiles (Q1, mediana y Q3), junto con los valores mínimo y máximo de los datos.
- Cigador
-
En un experimento, el cegamiento es mantener al participante y/o al administrador inconscientes de qué tratamiento se está dando. Un solo estudio ciego es cuando el participante no sabe si el tratamiento es real o un placebo. Un estudio doble ciego es cuando ni el administrador del tratamiento ni el participante saben si el tratamiento es real o un placebo.
- Datos categóricos
-
Valores no numéricos. Algunos ejemplos de datos categóricos incluyen color de ojos, género, modelo de computadora y ciudad.
- Teorema de Límite Central
-
Un teorema poderoso que nos permite entender la distribución de la media muestral,\(\bar{X}\). Si\(X_{1}, X_{2}, \ldots, X_{n}\) es una muestra aleatoria de una distribución de probabilidad con media =\(\mu\) y desviación estándar =\(\sigma\) y el tamaño de la muestra es “suficientemente grande”, entonces\(\bar{X}\) tendrá una Distribución Normal con la misma media y una desviación estándar de\(\sigma / \sqrt{n}\) también conocida como Error Estándar). Debido a este teorema, la mayor parte de la inferencia estadística se realiza utilizando una distribución muestral de la Familia Normal.
- Intervalos de clase
-
Para los datos numéricos agrupados, una categoría, generalmente de igual ancho, en la que se cuentan los valores.
- Distribución de Chi‐cuadrado (\(\chi^{2}\))
-
Familia de variables aleatorias continuas (basadas en grados de libertad) con una función de densidad de probabilidad que proviene de la Familia Normal de distribuciones de probabilidad. La distribución de Chi‐cuadrado no es negativa y sesgada hacia la derecha y tiene muchos usos en la inferencia estadística, como la inferencia sobre una varianza poblacional, pruebas de bondad de ajuste y prueba de independencia para datos categóricos.
- Prueba de bondad de ajuste de Chi‐cuadrado
-
Una prueba que se utiliza para probar si los datos observados de una variable categórica es consistente con una suposición esperada sobre la distribución de esa variable.
- Prueba de independencia de Chi‐cuadrado
-
Una prueba para determinar si existe una relación entre dos variables categóricas aleatorias
- Prueba de homogeneidad de Chi‐cuadrado
-
Una prueba que se ejecuta de la misma manera que una Prueba de Independencia de Chi‐cuadrado, pero en la que sólo se aleatoriza una de las variables categóricas.
- Probabilidad clásica (también llamada Probabilidad Matemática)
-
Determinado por conteo o usando una fórmula o modelo matemático..
- Muestra de racimo
-
Una muestra que se crea dividiendo primero la población en grupos llamados clusters, y luego tomando una muestra de clusters.
- Complemento de un Evento
-
El complemento de un evento significa que el evento no ocurre. Si el evento está etiquetado como A, entonces el complemento de A se etiqueta A' y se lee como “no A”.
- Probabilidad Condicional
-
La probabilidad de que ocurra un evento A dado que ya ocurrió otro evento B. Esta probabilidad se escribe como P (A|B) que se lee como P (A dado B).
- Intervalo de confianza
-
Una estimación de intervalo que estima un parámetro de población a partir de una muestra aleatoria usando una probabilidad predeterminada llamada nivel de confianza.
- Nivel de Confianza
-
ver Nivel de Confianza
- Variable de confusión
-
Una variable al acecho que no es conocida por el investigador, pero que afecta los resultados del estudio.
- Tablas de Contingencia
-
Un método para mostrar los recuentos de las respuestas de dos variables categóricas a partir de datos, también conocidas como tabulaciones cruzadas, o tablas de dos vías.
- Grupo de control
-
En un experimento, el grupo que no recibe tratamiento dando al investigador una línea base para poder comparar los grupos de tratamiento y placebo.
- Datos continuos
-
Cuantitativo basado en los números reales. Algunos ejemplos de datos continuos incluyen tiempo para completar un examen, estatura, peso. Los datos continuos son valores que se miden, o responde a la pregunta “¿Cuánto”?
- Variable aleatoria continua
-
Una variable aleatoria que solo tiene valores continuos. Los valores continuos son incontables y están relacionados con números reales.
- Coeficiente de correlación
-
Una medida de correlación (representada por la letra\(r\)) que mide tanto la dirección como la fuerza de una relación lineal o asociación entre dos variables. El valor siempre\(r\) tomará un valor entre ‐1 y 1. Los valores cercanos a cero implican una correlación muy débil. Los valores cercanos a 1 o ‐1 implican una correlación muy fuerte. El coeficiente de correlación no debe utilizarse para la correlación no lineal.
- Valor (es) crítico (es)
-
El punto o puntos de división entre la región donde se rechaza la Hipótesis Null y la región donde no es rechazada. El valor crítico determina la regla de decisión
- Tabulaciones cruzadas
-
ver Tablas de Contingencia
- Frecuencia Acumulada
-
En los datos agrupados, el número de veces que se observa un valor particular en un intervalo de clase o en cualquier intervalo de clase inferior.
- Frecuencia Relativa Acumulada
-
En los datos agrupados, la proporción o porcentaje de veces que se observa un valor particular en un intervalo de clase o en cualquier intervalo de clase inferior.
- Dragado de datos
-
ver\(p\) ‐hacking
- Regla de Decisión
-
El procedimiento que determina qué valores del resultado de un experimento provocará que se rechace la Hipótesis Null. Hay dos métodos que son reglas de decisión equivalentes:
- Si el estadístico de prueba se encuentra en la Región de Rechazo, Rechazar\(H_o\) (método de Valor Crítico).
- Si el\(p\) ‐valor <\(\alpha\), Rechazar\(H_o\) (método\(p\) ‐valor).
- Sucesos Dependientes
-
Dos eventos son dependientes si la probabilidad de que ocurra un evento se cambia al saber si el otro evento ocurrió o no. Los eventos que no son dependientes se denominan independientes.
- Muestreo Dependiente
-
Un método de muestreo en el que 2 o más variables se relacionan entre sí (emparejadas o emparejadas). Ejemplos serían los modelos de tipo “Antes y Después” usando la\(t\) prueba Pares coincidentes.
- Datos discretos
-
Números naturales cuantitativos (0, 1, 2, 3,...). Algunos ejemplos de datos discretos incluyen el número de hermanos, amigos en Facebook o habitaciones en una casa. Los datos discretos son valores que se cuentan, o donde podrías hacer la pregunta “¿Cuántos”?
- Variable aleatoria discreta
-
Una variable aleatoria que solo tiene valores discretos. Los valores discretos están relacionados con el conteo de números.
- Gráfica de puntos
-
Un gráfico de datos numéricos en el que cada valor se representa como un punto en una escala numérica simple. Se apilan múltiples valores para crear una forma para los datos. Si el conjunto de datos es grande, cada punto puede representar múltiples valores de los datos.
- Tamaño del efecto
-
La “diferencia práctica” entre un parámetro poblacional bajo la Hipótesis Null y un valor seleccionado del parámetro poblacional bajo la Hipótesis Alternativa.
- Probabilidad empírica
-
Probabilidad que se basa en las frecuencias relativas de datos históricos, estudios o experimentos.
- Regla empírica
-
(También conocida como la Regla 68‐95‐99.7). Una regla utilizada para interpretar la desviación estándar para datos que tienen aproximadamente forma de campana. La regla dice que alrededor del 68% de los datos están dentro de una desviación estándar de la media, el 95% de los datos están dentro de dos desviaciones estándar de la media, y alrededor del 99.7% de los datos se encuentran dentro de tres desviaciones estándar de la media.
- Estimación
-
Un proceso de inferencia que intenta predecir los valores de los parámetros poblacionales a partir de estadísticas de muestra
- Evento
-
Resultado de un experimento, generalmente referido con mayúscula A, B, C, etc.
- Valor esperado
-
Un valor que describe la tendencia central de una variable aleatoria, también conocida como la media poblacional y que se expresa por el símbolo (pronunciado mu). El valor esperado es un parámetro, es decir, una cantidad fija
- Experimento
-
Estudio en el que el investigador dividirá aleatoriamente una muestra representativa en grupos para luego aplicar tratamientos para manipular una variable de interés. El objetivo de un experimento es encontrar una relación de causa y efecto entre una variable aleatoria en la población y la variable manipulada por el investigador.
- Distribución exponencial
-
Una función de distribución de probabilidad (parámetro\(\mu\)) para una variable aleatoria continua que modela el tiempo de espera hasta la primera ocurrencia de un evento definido por un Proceso de Poisson.
- Variable explicativa
-
La variable que el investigador controla o manipula
- \(F\)Distribución
-
Familia de variables aleatorias continuas (basadas en 2 grados diferentes de libertad para numerador y denominador) con una función de densidad de probabilidad que es de la Familia Normal de distribuciones de probabilidad. La distribución F es no negativa y sesgada hacia la derecha y tiene muchos usos en la inferencia estadística, como la inferencia sobre la comparación de varianzas poblacionales, ANOVA y regresión.
- Factor
-
En ANOVA, las variables categóricas que dividen la variable de respuesta numérica en múltiples poblaciones o tratamientos.
- Frecuencia
-
En los datos agrupados se observa el número de veces que se observa un valor determinado.
- Distribución de frecuencia
-
Una organización de datos numéricos en intervalos de clase.
- Distribución Geométrica
-
Una función de distribución de probabilidad (parámetro p) para una variable aleatoria discreta que es el número de ensayos independientes hasta el primer éxito en el que solo hay dos resultados posibles (éxito o fracaso).
- Hipótesis
-
Una declaración sobre el valor de un parámetro poblacional desarrollado con fines de prueba
- Prueba de hipótesis
-
Un procedimiento, basado en evidencia de muestra y teoría de probabilidad, utilizado para determinar si la hipótesis es una afirmación razonable y no debe ser rechazada, o es irrazonable y debe ser rechazada.
- Eventos Independientes
-
Dos eventos son independientes si la probabilidad de que ocurra un evento no se cambia al saber si el otro evento ocurrió o no. Los eventos que no son independientes se denominan dependientes.
- Muestreo Independiente
-
Un método de muestreo en el que 2 o más variables no están relacionadas entre sí. Ejemplos serían los modelos de tipo “Tratamiento y Control” utilizando la\(t\) prueba de muestras independientes.
- Inferencia
-
— ver Inferencia estadística
- Rango Intercuartil (IQR)
-
Una medida de variabilidad que se calcula tomando la diferencia del primer cuartil y el 3er cuartiles.
- Estimación de Intervalos
-
Un rango de valores basado en datos de muestra que se utiliza para estimar un parámetro de población
- Nivel de Intervalo de Datos
-
Datos cuantitativos que tienen distancia significativa entre valores, pero que no tienen un cero “verdadero”. Los datos de intervalo son numéricos, pero cero es solo un marcador de posición. Ejemplos de datos de intervalos incluyen temperatura en grados Celsius y año de nacimiento.
- Probabilidad Conjunta
-
La probabilidad de que ocurra la unión o intersección de múltiples eventos. Si A y B son eventos múltiples, entonces P (A o B) y P (A y B) son ejemplos de probabilidad conjunta.
- Nivel
-
En ANOVA, un posible valor que podría ser un factor variable categórico. Por ejemplo, si el factor era el color de la camisa, los niveles serían azul, rojo, amarillo, etc.
- Nivel de Confianza
-
La probabilidad, generalmente expresada como un porcentaje, de que un Intervalo de Confianza contendrá el parámetro de población verdadero que se está estimando.
- Nivel de significancia (\(\alpha\))
-
La probabilidad máxima, establecida por diseño, de rechazar la Hipótesis Null cuando en realidad es verdadera (probabilidad máxima de cometer un error de Tipo I).
- Niveles de datos
-
Los cuatro niveles de datos son Nominal, Ordinal, Intervalo y Ratio.
- Variable al acecho
-
ver Variable de confusión
- Margen de Error
-
La distancia en un Intervalo de Confianza simétrico entre el Estimador de Puntos y un punto final del intervalo. Por ejemplo, un intervalo de confianza para\(\mu\) puede expresarse como\(\bar{X} \pm \) Margen de Error.
- Probabilidad marginal
-
La probabilidad de que ocurra un solo evento A, escrito como P (A).
- Media
-
ver Media de la Población o Media de la Muestra
- Mediana
-
ver Mediana de la población o mediana de la muestra
- Modo
-
ver Modo de Población o Modo de Muestra
- Supuestos de modelo
-
Criterios que deben cumplirse para utilizar adecuadamente un modelo estadístico elegido. Por ejemplo, un estadístico t de Student utilizado para probar una media poblacional vs. un valor hipotético requiere un muestreo aleatorio y que la media de la muestra tiene una distribución aproximadamente Normal.
- Regla Multiplicativa
-
En probabilidad, para los eventos A y B, P (A y B) = P (A) P (B|A) = P (B) P (A|B).
- Eventos Mutuamente Exclusivos
-
Eventos que no pueden ocurrir ambos; la intersección de dos eventos no tiene resultados posibles.
- Nivel Nominal de Datos
-
Datos cualitativos que solo definen atributos, sin clasificación jerárquica. Los ejemplos de datos nominales incluyen el color del cabello, la etnia, el género y cualquier pregunta de sí/no.
- Métodos de muestreo no probabilístico
-
Métodos de muestreo no científicos que tienen sesgos inconmensurables y que no deben ser utilizados en la investigación científica. Estos métodos incluyen Muestreo Conveniente y Muestreo Self‐seleccionado.
- Sesgo de no respuesta
-
Un tipo de sesgo de muestreo que ocurre cuando las personas son excluidas intencionalmente o no intencionadamente de la participación o eligen no participar en una encuesta o encuesta. A veces la gente también le mentirá a los encuestadores.
- Distribución Normal
-
A menudo llamada la curva “en forma de campana”, la Distribución Normal es una variable aleatoria continua que tiene la Función de Densidad de\(X=\exp \left[-(x-\mu)^{2} / 2 \sigma^{2}\right] / \sigma \sqrt{2 \pi}\) Probabilidad.El caso especial donde\(\mu=0\) y\(\sigma=1\), se llama la Distribución Normal Estándar y se designa por\(Z\).
- Familia Normal de Distribuciones de Probabilidad
-
La Distribución Normal Estándar (\(Z\)) más otras Distribuciones de Probabilidad que son funciones de variables aleatorias independientes con Distribución Normal Estándar. Los ejemplos incluyen las distribuciones\(t\), la\(F\) y la Chi‐cuadrado.
- Hipótesis nula (\(H_o\))
-
Una declaración sobre el valor de un parámetro de población que se supone que es cierto para fines de prueba
- Estudio observacional
-
Estudio en el que el investigador toma medidas de una muestra representativa, pero no manipula ninguna de las variables con tratamientos. El objetivo de un estudio observacional es interpretar y analizar las variables medidas, pero no es posible mostrar una relación de causa y efecto.
- Ogive
-
Un gráfico de líneas en el que el eje vertical es la frecuencia relativa acumulativa y el eje horizontal es el valor de los datos, específicamente los puntos finales de los intervalos de clase. El punto final izquierdo del intervalo de primera clase tendrá una frecuencia relativa acumulativa de cero. Todos los demás puntos finales reciben el punto final correcto del intervalo de clase correspondiente. Los puntos se conectan entonces por segmentos de línea. La oda puede ser utilizada para estimar percentiles.
- Resultado
-
Resultado del experimento que no se puede descomponer en eventos más pequeños.
- Nivel Ordinal de Datos
-
Datos cualitativos que definen atributos con un ranking jerárquico. Ejemplos de datos nominales incluyen calificaciones de películas (G, PG, PG13, R, NC17), talla de camiseta (S, M L, XL) o su calificación de letra en un documento final.
- Valores atípicos
-
Un punto de datos que está muy alejado de las otras entradas del conjunto de datos.
- \(p\)‐valor
-
La probabilidad, asumiendo que la Hipótesis Null es verdadera, de obtener un valor del estadístico de prueba al menos tan extremo como el valor calculado para la prueba.
- \(p\)‐hackear
-
Un método de investigación inadecuado que utiliza experimentos repetidos o análisis de múltiples medidas hasta que el investigador obtiene un valor p significativo. También conocido como Dragado de Datos.
- Parámetro
-
Un valor numérico fijo que describe una característica de una población.
- Percentil
-
El valor de los datos por debajo del cual cae un porcentaje dado de los datos.
- Gráfico circular
-
Un gráfico circular de datos categóricos donde cada porción del pastel representa la frecuencia relativa o porcentaje de datos en cada categoría.
- Placebo
-
Un tratamiento sin ingredientes activos.
- Efecto Placebo
-
En un experimento, cuando un participante responde de manera positiva a un placebo, un tratamiento sin ingredientes activos.
- Grupo Placebo
-
En un experimento, el grupo que recibe el tratamiento sin ingredientes activos.
- Estimación de puntos
-
Un estadístico de muestra única que se utiliza para estimar un parámetro de población. Por ejemplo,\(\bar{X}\) es un estimador de puntos para\(\mu\).
- Distribución de Poisson
-
Una función de distribución de probabilidad (parámetro\(\mu\)) para una variable aleatoria discreta que es el número de ocurrencias en un período de tiempo fijo o región, sobre el cual las ocurrencias de tasa es una constante.
- Proceso de Poisson
-
Métodos de conteo que son modelados por variables aleatorias que siguen una Distribución de Poisson.
- Población
-
El conjunto de todos los posibles miembros, objetos o medidas de los fenómenos que se estudian.
- Media de la Población
-
ver Valor Esperado
- Mediana de la población
-
Valor que describe la tendencia central de una variable aleatoria que representa el percentil 50. La mediana poblacional es un parámetro, es decir, una cantidad fija.
- Modo Población
-
El valor o valores máximos de una función de densidad de probabilidad.
- Varianza poblacional
-
El valor esperado de la desviación cuadrada de la media, un valor que describe la variabilidad de una variable aleatoria expresada por el símbolo\(\sigma^{2}\) (pronunciado sigma‐cuadrado). La varianza poblacional es un parámetro, es decir, una cantidad fija.
- Desviación estándar poblacional
-
La raíz cuadrada de la varianza poblacional, un valor que describe la variabilidad de una variable aleatoria expresada por el símbolo\(\sigma\) (sigma pronunciado).
- Potencia (o Poder Estadístico)
-
La probabilidad, establecida por diseño, de rechazar la Hipótesis Null cuando en realidad es falsa. El poder se calcula para valores específicos posibles de la Hipótesis Alternativa y es el complemento de Beta (\(\beta\)).
- Probabilidad
-
La medida de la probabilidad de que ocurra un evento A. Esta medida es una cantidad entre 0 (nunca) y 1 (siempre) y se expresará como P (A) (leer como “Se produce el evento de probabilidad A”.)
- Función de Densidad de Probabilidad (pdf)
-
Una función no negativa que define la probabilidad para una variable aleatoria continua. La probabilidad se calcula midiendo el área bajo una función de densidad de probabilidad.
- Función de distribución de probabilidad (PDF)
-
Función que asigna una probabilidad a todos los valores posibles de una variable aleatoria discreta. En el caso de una variable aleatoria continua (como la Distribución Normal), el PDF se refiere al área a la izquierda de un valor designado bajo una Función de Densidad de Probabilidad.
- Métodos de muestreo de probabilidad
-
Métodos de muestreo que suelen producir una muestra representativa de la población. Estos métodos también se denominan muestreo científico. Los ejemplos incluyen muestreo aleatorio simple, muestreo sistemático, muestreo estratificado y muestreo de racimos.
- Datos Cualitativos
-
Valores no numéricos que describen los datos. Tenga en cuenta que todos los datos cuantitativos son numéricos, pero algunos números sin cantidad (como Código Postal o Número de Seguro Social) son cualitativos. Al describir datos categóricos, nos limitamos a observar recuentos en cada grupo y comparar las diferencias en porcentajes.
- Datos Cuantitativos
-
Medidas y cantidades numéricas que se pueden determinar a partir de los datos. Al describir datos cuantitativos, podemos observar el centro, la propagación, la forma y las características inusuales.
- Cuartil
-
Los percentiles 25, 50 y 75, que generalmente se denominan, respectivamente, el primer cuartil, la mediana y el 3er cuartil.
- Radix
-
Un total conveniente utilizado para crear una tabla hipotética de dos vías.
- Muestra Aleatoria
-
ver Muestra aleatoria simple
- Rango
-
Para los datos numéricos, el valor máximo menos el valor mínimo.
- Variable aleatoria
-
Variable en la que el valor depende de un experimento, observación o medición.
- Nivel de relación de datos
-
Datos cuantitativos que tienen distancia significativa entre valores, y tienen un cero “verdadero”. Los ejemplos de datos de relación incluyen el tiempo para conducir al trabajo, el peso, la estatura o el número de hijos en una familia. La mayoría de los datos numéricos serán ratio.
- Datos sin procesar
-
Los datos de la muestra se presentaron sin clasificar.
- Análisis de Regresión
-
Un método para modelar datos bivariados correlacionados.
- Frecuencia relativa
-
En los datos agrupados se observa la proporción o porcentaje de veces que se observa un valor determinado.
- Replicar
-
En ANOVA, el tamaño de la muestra para un nivel específico de factor. Si las réplicas son las mismas para cada nivel, el diseño está equilibrado.
- Región de Rechazo
-
Región (es) del Modelo Estadístico que contienen los valores del Estadístico de Prueba en la que se rechazará la Hipótesis Null. El área total de la Región de Rechazo\(=\alpha\).
- Muestra Representativa
-
Muestra que presenta características, comportamientos y actitudes similares a la población de la que se selecciona la muestra.
- Variable de respuesta
-
La variable numérica que se está probando bajo diferentes tratamientos o poblaciones.
- Sesgo de respuesta
-
Un tipo de sesgo de muestreo que ocurre cuando las respuestas a una encuesta son influenciadas por la forma en que se hace la pregunta, o cuando las respuestas no reflejan la verdadera opinión del encuestado. Al realizar una encuesta o sondeo, el tipo, orden y redacción de las preguntas son consideraciones importantes. Las preguntas mal redactadas pueden invalidar los resultados de una encuesta.
- Regla de Complemento
-
Si los eventos A y A' son complementos, entonces P (A) +P (A') =1.
- Muestra
-
Un subconjunto de la población que se estudia para recolectar o recopilar datos.
- Tamaño de la muestra
-
El número de observaciones en su tamaño muestral, generalmente representado por\(n\).
- Media de la Muestra
-
- El promedio aritmético de un conjunto de datos numéricos.
- Variable aleatoria que tiene aproximadamente una Distribución Normal si el tamaño de la muestra es suficientemente grande.
- Un estimador imparcial para la media poblacional
- Mediana de la muestra
-
El valor que representa la mitad exacta de los datos, cuando los valores se ordenan de menor a mayor.
- Modo de muestra
-
El valor que ocurre con mayor frecuencia en los datos. Si hay múltiples valores que ocurren con mayor frecuencia, entonces hay múltiples modos en los datos.
- Nivel de significancia
-
ver Nivel de significancia
- Espacio de muestra
-
En probabilidad, el conjunto de todos los resultados posibles de un experimento.
- Desviación estándar de muestra
-
La raíz cuadrada de la varianza de la muestra, que mide la dispersión de los datos y la distancia a la media. Las unidades de la desviación estándar son las mismas unidades que los datos.
- Varianza de la muestra
-
Una medida de la desviación cuadrática media de los valores de los datos de la media. Las unidades de la varianza son el cuadrado de las unidades de los datos.
- Diagrama de dispersión
-
Una gráfica de datos bivariados utilizada para visualizar la correlación entre las dos variables numéricas.
- Sesgo de selección
-
Tipo de sesgo de muestreo que ocurre cuando el método de muestreo no crea una muestra representativa para el estudio. El sesgo de selección ocurre con frecuencia cuando se utiliza el muestreo
- Sesgo de autoselección
-
Un tipo de sesgo de muestreo que ocurre cuando los individuos pueden ser voluntarios para formar parte del estudio. Los voluntarios suelen tener una opinión más fuerte sobre la cuestión de investigación y por lo general no serán representativos de la población.
- Muestra aleatoria simple
-
Un subconjunto de una población en la que cada miembro de la población tiene las mismas posibilidades de ser elegido y es mutuamente independiente de todos los demás miembros.
- Asimetría
-
Una medida de cuán asimétricos son los vales de datos.
- Desviación estándar
-
ver Desviación estándar de la muestra o desviación estándar de población
- Distribución Normal Estándar
-
Un caso especial de la Distribución Normal donde\(\mu = 0\) y\(\sigma = 1\). El símbolo\(Z\) suele estar reservado para la Distribución Normal Estándar.
- Estadística
-
Un valor que se calcula únicamente a partir de los datos de la muestra, y que se utiliza para describir los datos. Ejemplos de estadísticas son la media muestral, la desviación estándar de la muestra, el rango, la mediana de la muestra y el rango intercuartil. Dado que las estadísticas dependen de la muestra, también son variables aleatorias.
- Inferencia estadística
-
El proceso de estimación o prueba de hipótesis de parámetros poblacionales utilizando estadísticas de una muestra aleatoria.
- Modelo Estadístico
-
Un modelo matemático que describe el comportamiento de los datos que se están probando.
- Parcela de tallo y hoja
-
Un método para tabular datos dividiéndolos en el “tallo” (el primer dígito o dígitos) y la “hoja” (el último dígito, generalmente). Por ejemplo, el tallo por 102 minutos sería 10 y la hoja sería 2.
- Muestra estratificada
-
Una muestra que se diseña dividiendo la población en subgrupos llamados estratos, los cuales luego se muestrean para que la proporción de cada subgrupo en la muestra coincida con la proporción de cada subgrupo en la población.
- \(t\)Distribución (o\(t\) distribución) del estudiante
-
Familia de variables aleatorias continuas (basadas en grados de libertad) con una función de densidad de probabilidad que es de la Familia Normal de Distribuciones de Probabilidad. La\(t\) distribución se utiliza para la inferencia estadística de la media poblacional cuando se desconoce la desviación estándar poblacional.
- Probabilidad subjetiva
-
Probabilidad que es una suposición educada “de un solo disparo” basada en historias anecdóticas, intuición o un sentimiento sobre si un evento es probable, improbable o “50‐50”. La probabilidad subjetiva suele ser inexacta.
- Muestra Sistemática
-
Un subconjunto de la población en el que el primer miembro de la muestra se selecciona al azar y todos los miembros posteriores se eligen por un intervalo periódico fijo.
- \(t\)Distribución
-
ver\(t\) Distribución del Alumno
- Estadística de prueba
-
Un valor, determinado a partir de la información de la muestra, utilizado para determinar si rechazar o no la Hipótesis Null.
- Grupo (s) de tratamiento
-
En un experimento, el grupo o grupos que reciben el tratamiento que controla el investigador.
- Prueba Tukey HSD
-
En ANOVA, una colección post hoc de pruebas que reportan diferencias significativas honestas en par de medias.
- Diagrama de árbol
-
Una forma sencilla de mostrar todos los resultados posibles en una secuencia de eventos. Cada rama representará un posible resultado. Utilizando la Regla Multiplicativa, se puede calcular la probabilidad de cada resultado posible.
- Mesas de dos vías
-
ver Tablas de Contingencia
- Error de tipo I
-
Rechazar la Hipótesis Nulo cuando en realidad es cierta.
- Error de tipo II
-
No rechazar la Hipótesis Null cuando en realidad es falsa.
- Distribución Uniforme
-
Una función de distribución de probabilidad (parámetros a, b) para una variable aleatoria continua en la que todos los valores entre un valor mínimo y un valor máximo tienen la misma probabilidad.
- Varianza
-
ver Varianza muestral o Varianza de Población
- \(Z\)‐puntuación
-
Una medida de la posición relativa que muestra la distancia en desviaciones estándar que un punto de datos en particular está por encima o por debajo de la media.