Glosario
- Page ID
- 151102
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)iniciar
- Promedio
- también llamada media o media aritmética; un número que describe la tendencia central de los datos
- Cecgadora
- no decirle a los participantes qué tratamiento está recibiendo un sujeto
- Variable categórica
- variables que toman valores que son nombres o etiquetas
- Muestreo en raci
- un método para seleccionar una muestra aleatoria y dividir la población en grupos (clusters); utilizar muestreo aleatorio simple para seleccionar un conjunto de clusters. En la muestra se incluye a cada individuo de los conglomerados elegidos.
- Variable aleatoria continua
- una variable aleatoria (RV) cuyos resultados se miden; la altura de los árboles en el bosque es un RV continuo.
- Grupo de control
- un grupo en un experimento aleatorio que recibe un tratamiento inactivo pero que por lo demás se maneja exactamente como los otros grupos
- Muestreo Conveniente
- un método no aleatorio para seleccionar una muestra; este método selecciona individuos que son fácilmente accesibles y pueden resultar en datos sesgados.
- Frecuencia Relativa Acumulada
- El término se aplica a un conjunto ordenado de observaciones de menor a mayor. La frecuencia relativa acumulativa es la suma de las frecuencias relativas para todos los valores que son menores o iguales al valor dado.
- Datos
- un conjunto de observaciones (un conjunto de posibles resultados); la mayoría de los datos se pueden poner en dos grupos: cualitativo (un atributo cuyo valor está indicado por una etiqueta) o cuantitativo (un atributo cuyo valor está indicado por un número). Los datos cuantitativos se pueden separar en dos subgrupos: discretos y continuos. Los datos son discretos si es el resultado del conteo (como el número de alumnos de un determinado grupo étnico en una clase o el número de libros en una estantería). Los datos son continuos si son el resultado de la medición (como la distancia recorrida o el peso del equipaje)
- Variable aleatoria discreta
- una variable aleatoria (RV) cuyos resultados se cuentan
- Doble cegador
- el acto de cegar tanto a los sujetos de un experimento como a los investigadores que trabajan con los sujetos
- Unidad Experimental
- cualquier individuo u objeto a medir
- Variable explicativa
- la variable independiente en un experimento; el valor controlado por los investigadores
- Frecuencia
- el número de veces que se produce un valor de los datos
- Consentimiento Informado
- Cualquier sujeto humano en un estudio de investigación debe ser consciente de cualquier riesgo o costo asociado con el estudio. El sujeto tiene derecho a conocer la naturaleza de los tratamientos incluidos en el estudio, sus riesgos potenciales y sus beneficios potenciales. El consentimiento debe ser dado libremente por un participante informado y apto.
- Junta de Revisión Institucional
- un comité encargado de la supervisión de programas de investigación que involucran a sujetos humanos
- Variable al acecho
- una variable que tiene un efecto en un estudio aunque no sea ni una variable explicativa ni una variable de respuesta
- Modelos matemáticos
- una descripción de un fenómeno utilizando conceptos matemáticos, como ecuaciones, desigualdades, distribuciones, etc.
- Error de no muestreo
- un problema que afecta la confiabilidad de los datos de muestreo distintos de la variación natural; incluye una variedad de errores humanos, incluyendo un diseño deficiente del estudio, métodos de muestreo sesgados, información inexacta proporcionada por los participantes del estudio, errores de entrada de datos y análisis deficientes.
- Variable numérica
- variables que toman valores que están indicados por números
- Estudio observacional
- un estudio en el que la variable independiente no es manipulada por el investigador
- Parámetro
- un número que se utiliza para representar una característica poblacional y que generalmente no se puede determinar fácilmente
- Placebo
- un tratamiento inactivo que no tiene ningún efecto real sobre la variable explicativa
- Población
- todos los individuos, objetos o medidas cuyas propiedades están siendo estudiadas
- Probabilidad
- un número entre cero y uno, inclusive, que da la probabilidad de que ocurra un evento específico
- Proporción
- el número de éxitos dividido por el número total en la muestra
- Datos Cualitativos
- Ver Datos.
- Datos Cuantitativos
- Ver Datos.
- Asignación Aleatoria
- el acto de organizar unidades experimentales en grupos de tratamiento mediante métodos aleatorios
- Muestreo Aleatorio
- un método de selección de una muestra que da a cada miembro de la población la misma oportunidad de ser seleccionado.
- Frecuencia relativa
- la relación entre el número de veces que se produce un valor de los datos en el conjunto de todos los resultados con respecto al número de todos los resultados y el número total de resultados
- Muestra Representativa
- un subconjunto de la población que tiene las mismas características que la población
- Variable de respuesta
- la variable dependiente en un experimento; el valor que se mide para el cambio al final de un experimento
- Muestra
- un subconjunto de la población estudiada
- Sesgo de muestreo
- no todos los miembros de la población tienen la misma probabilidad de ser seleccionados
- Error de muestreo
- la variación natural que resulta de seleccionar una muestra para representar una población mayor; esta variación disminuye a medida que aumenta el tamaño de la muestra, por lo que seleccionar muestras más grandes reduce el error de muestreo.
- Muestreo con Repuesto
- Una vez seleccionado a un miembro de la población para su inclusión en una muestra, ese miembro es devuelto a la población para la selección del siguiente individuo.
- Muestreo sin Repuesto
- Un miembro de la población podrá ser elegido para su inclusión en una muestra solo una vez. Si se elige, el miembro no es devuelto a la población antes de la siguiente selección.
- Muestreo aleatorio simple
- un método sencillo para seleccionar una muestra aleatoria; dar un número a cada miembro de la población. Utilice un generador de números aleatorios para seleccionar un conjunto de etiquetas. Estas etiquetas seleccionadas al azar identifican a los miembros de su muestra.
- Estadística
- una característica numérica de la muestra; un estadístico estima el parámetro poblacional correspondiente.
- Modelos Estadísticos
- una descripción de un fenómeno utilizando distribuciones de probabilidad que describen el comportamiento esperado del fenómeno y la variabilidad en las observaciones esperadas.
- Muestreo estratificado
- un método para seleccionar una muestra aleatoria utilizada para asegurar que los subgrupos de la población estén representados adecuadamente; dividir la población en grupos (estratos). Utilice un muestreo aleatorio simple para identificar un número proporcional de individuos de cada estrato.
- Probabilidad Condicional
- la probabilidad de que ocurra un evento dado que ya se ha producido otro evento
- Tabla de Contingencia
- el método de mostrar una distribución de frecuencia como una tabla con filas y columnas para mostrar cómo dos variables pueden ser dependientes (contingentes) entre sí; la tabla proporciona una manera fácil de calcular probabilidades condicionales.
- Sucesos Dependientes
- Si dos eventos NO son independientes, entonces decimos que son dependientes.
- Igualmente probables
- Cada resultado de un experimento tiene la misma probabilidad.
- Evento
- un subconjunto del conjunto de todos los resultados de un experimento; el conjunto de todos los resultados de un experimento se llama espacio de muestra y generalmente se denota por S. Un evento es un subconjunto arbitrario en S. Puede contener un resultado, dos resultados, sin resultados (subconjunto vacío), todo el espacio muestral, y similares. Las notaciones estándar para eventos son letras mayúsculas como A, B, C, etc.
- Experimento
- una actividad planificada realizada en condiciones controladas\(P(A|B) = P(A)\)
\(P(B|A) = P(B)\)
\(P(A \cap B) = P(A)P(B)\)
- Eventos Independientes
- La ocurrencia de un evento no tiene efecto sobre la probabilidad de que ocurra otro evento. Los eventos A y B son independientes si se cumple alguna de las siguientes condiciones:
- Mutual Exclusivos
- Dos eventos son mutuamente excluyentes si la probabilidad de que ambos sucedan al mismo tiempo es cero. Si los eventos A y B son mutuamente excluyentes, entonces\(P(A \cap B) = 0\).
- Resultado
- un resultado particular de un experimento\(0 ≤ P(A) ≤ 1\)
Si A y B son dos eventos cualesquiera mutuamente excluyentes, entonces\(P(A \cup B) = P(A) + P(B)\).
\(P(S) = 1\)
- Probabilidad
- un número entre cero y uno, inclusive, que da la probabilidad de que ocurra un evento específico; la base de la estadística viene dada por los siguientes 3 axiomas (por A.N. Kolmogorov, 1930): Que S denote el espacio muestral y A y B son dos eventos en S. Entonces: (1) Solo hay dos posibles resultados llamados” éxito” y “fracaso” para cada ensayo y (2) La probabilidad\(p\) de éxito es la misma para cualquier juicio (por lo que la probabilidad\(q = 1 − p\) de un fracaso es la misma para cualquier juicio).
- Juicios de Bernoulli
- un experimento con las siguientes características: Hay un número fijo de ensayos,\(n\). Solo hay dos resultados posibles, llamados “éxito” y, “fracaso”, para cada ensayo. La letra\(p\) denota la probabilidad de éxito en un ensayo, y\(q\) denota la probabilidad de un fracaso en un ensayo. Los\(n\) ensayos son independientes y se repiten en condiciones idénticas.
- Experimento binomial
- un experimento estadístico que satisfaga las siguientes tres condiciones:
- Distribución de probabilidad binomial
- una variable aleatoria discreta (RV) que surge de los ensayos de Bernoulli; hay un número fijo,\(n\), de ensayos independientes. “Independiente” significa que el resultado de cualquier ensayo (por ejemplo, el ensayo uno) no afecta los resultados de los siguientes ensayos, y todos los ensayos se llevan a cabo en las mismas condiciones. En estas circunstancias, el RV binomial\(X\) se define como el número de éxitos en n ensayos. La media es\(\mu=n p\) y la desviación estándar es\(\sigma=\sqrt{n p q}\). La probabilidad de exactamente x éxitos en los\(n\) ensayos es\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Distribución Geométrica
- una variable aleatoria discreta (RV) que surge de los ensayos de Bernoulli; los ensayos se repiten hasta el primer éxito. La variable geométrica X se define como el número de ensayos hasta el primer éxito. La media es\(\mu=\frac{1}{p}\) y la desviación estándar es\(\sigma = \sqrt{\frac{1}{p}\left(\frac{1}{p}-1\right)}\). La probabilidad de exactamente x fracasos antes del primer éxito viene dada por la fórmula:\(P(X=x)=p(1-p)^{x-1}\) donde se quiere saber probabilidad para el número de ensayos hasta el primer éxito: el rastro\(x\) th es el primer éxito. Una formulación alternativa de la distribución geométrica plantea la pregunta: ¿cuál es la probabilidad de\(x\) fracasos hasta el primer éxito? En esta formulación no se cuenta el ensayo que resultó en el primer éxito. La fórmula para esta presentación de lo geométrico es:\(P(X=x)=p(1-p)^{x}\). El valor esperado en esta forma de la distribución geométrica es\(\mu=\frac{1-p}{p}\). La manera más fácil de mantener rectas estas dos formas de la distribución geométrica es recordar que p es la probabilidad de éxito y\((1−p)\) es la probabilidad de fracaso. En la fórmula los exponentes simplemente cuentan el número de éxitos y el número de fracasos del resultado deseado del experimento. Por supuesto que la suma de estos dos números debe sumarse al número de ensayos en el experimento.
- Hay uno o más juicios de Bernoulli con todos los fracasos excepto el último, lo cual es un éxito.
- En teoría, el número de juicios podría continuar para siempre. Debe haber al menos un juicio.
- La probabilidad,\(p\), de un éxito y la probabilidad,\(q\), de un fracaso no cambian de un juicio a otro.
- Experimento Geométrico
- un experimento estadístico con las siguientes propiedades:
- Experimento Hipergeométrico
- un experimento estadístico con las siguientes propiedades:
- Se toman muestras de dos grupos.
- A usted le preocupa un grupo de interés, llamado el primer grupo.
- Muestrea sin reemplazo de los grupos combinados.
- Cada pico no es independiente, ya que el muestreo es sin reemplazo.
- Distribución Normal
- una variable aleatoria continua\((RV)\) con pdf\(f(x) =\)\[\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\nonumber\], donde\(\mu\) es la media de la distribución y\(\sigma\) es la desviación estándar; notación:\(X \sim N(\mu, \sigma)\). Si\(\mu = 0\) y\(\sigma = 1\), el\(RV\),\(Z\), se llama la distribución normal estándar. Distribución Normal Estándar una variable aleatoria continua\((RV) X \sim N(0, 1)\); cuando\(X\) sigue la distribución normal estándar, a menudo se anota como\(Z \sim N(0, 1)\). z-score la transformación lineal de la forma\(z=\frac{x-\mu}{\sigma}\) o escrita como\(z=\frac{|x-\mu|}{\sigma}\); si esta transformación se aplica a cualquier distribución normal \(X \sim N(\mu, \sigma)\)el resultado es la distribución normal estándar\(Z \sim N(0,1)\). Si esta transformación se aplica a cualquier valor específico\(x\) de la\(RV\) con media\(\mu\) y desviación estándar\(\sigma\), el resultado se llama la puntuación z de\(x\). La puntuación z nos permite comparar datos que normalmente se distribuyen pero que se escalan de manera diferente. Una puntuación z es el número de desviaciones estándar que un particular\(x\) está lejos de su valor medio.
- Distribución binomial
- una variable aleatoria discreta (RV) que surge de los ensayos de Bernoulli; hay un número fijo,\(n\), de ensayos independientes. “Independiente” significa que el resultado de cualquier ensayo (por ejemplo, el ensayo 1) no afecta los resultados de los siguientes ensayos, y todos los ensayos se llevan a cabo en las mismas condiciones. En estas circunstancias el binomio\(RV\)\(X\) se define como el número de éxitos en n ensayos. La notación es:\(X \sim B(\bf{n,p})\). La media es\(\mu = np\) y la desviación estándar es\(\sigma=\sqrt{n p q}\). La probabilidad de exactamente\(x\) éxitos en los\(n\) ensayos es\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Intervalo de confianza (CI)
- una estimación de intervalo para un parámetro de población desconocido. Esto depende de:
- el nivel de confianza deseado,
- información que se conoce sobre la distribución (por ejemplo, desviación estándar conocida),
- la muestra y su tamaño.
- Nivel de Confianza (CL)
- la expresión porcentual para la probabilidad de que el intervalo de confianza contenga el parámetro de población verdadera; por ejemplo, si el CL = 90%, entonces en 90 de cada 100 muestras la estimación del intervalo encerrará el parámetro de población verdadera.
- Grados de Libertad (df)
- el número de objetos en una muestra que son libres de variar
- Límite de error para una media poblacional (MBE)
- el margen de error; depende del nivel de confianza, tamaño de la muestra y desviación estándar de la población conocida o estimada.
- Límite de error para una proporción de población (EBP)
- el margen de error; depende del nivel de confianza, el tamaño de la muestra y la proporción estimada (a partir de la muestra) de éxitos.
- Estadísticas Inferenciales
- también llamada inferencia estadística o estadística inductiva; esta faceta de la estadística se ocupa de estimar un parámetro poblacional a partir de una estadística de muestra. Por ejemplo, si cuatro de las 100 calculadoras muestreadas son defectuosas podríamos inferir que el cuatro por ciento de la producción es defectuosa.
- Distribución Normal
- una variable aleatoria continua (RV) con pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-(x-\mu)^{2} / 2 \sigma^{2}}\), donde\(\mu\) es la media de la distribución y\(\sigma\) es la desviación estándar, notación:\(X \sim N(\mu,\sigma)\). Si\(\mu = 0\) y\(\sigma = 1\), el RV se llama la distribución normal estándar.
- Distribución binomial
- una variable aleatoria discreta (RV) que surge de los ensayos de Bernoulli. Hay un número fijo, n, de juicios independientes. “Independiente” significa que el resultado de cualquier ensayo (por ejemplo, el ensayo 1) no afecta los resultados de los siguientes ensayos, y todos los ensayos se llevan a cabo en las mismas condiciones. En estas circunstancias, el binomio RV XY se define como el número de éxitos en los\(n\) ensayos. La notación es:\(X \sim B(n, p) \mu = np\) y la desviación estándar es\(\sigma=\sqrt{n p q}\). La probabilidad de exactamente\(x\) éxitos en los\(n\) ensayos es\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Teorema de Límite Central
- Dada una variable aleatoria (RV) con media conocida\(\mu\) y desviación estándar conocida\(\sigma\). Estamos muestreando con tamaño n y estamos interesados en dos nuevas RV - la media muestral,\(\overline X\). Si el tamaño n de la muestra es suficientemente grande, entonces\(\overline{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\). Si el tamaño n de la muestra es suficientemente grande, entonces la distribución de las medias de la muestra se aproximará a una distribución normal independientemente de la forma de la población. El valor esperado de la media de las medias de la muestra será igual a la media poblacional. La desviación estándar de la distribución de las medias muestrales\(\frac{\sigma}{\sqrt{n}}\),, se denomina error estándar de la media.
- El nivel de confianza deseado.
- Información que se conoce sobre la distribución (por ejemplo, desviación estándar conocida).
- La muestra y su tamaño.
- Intervalo de confianza (CI)
- una estimación de intervalo para un parámetro de población desconocido. Esto depende de:
- Valor Crítico
- El\(t\) o\(Z\) valor establecido por el investigador que mide la probabilidad de un error Tipo I,\(\sigma\).
- Hipótesis
- una declaración sobre el valor de un parámetro de población, en caso de dos hipótesis, la afirmación que se supone que es verdadera se llama hipótesis nula (notación\(H_0\)) y la declaración contradictoria se denomina hipótesis alternativa (notación\(H_a\)).
- Prueba de Hipótesis
- Con base en pruebas de muestra, un procedimiento para determinar si la hipótesis planteada es una afirmación razonable y no debe ser rechazada, o es irrazonable y debe ser rechazada.
- D de Cohen
- una medida del tamaño del efecto basada en las diferencias entre dos medias. Si\(d\) está entre 0 y 0.2 entonces el efecto es pequeño. Si\(d\) los enfoques son 0.5, entonces el efecto es medio, y si\(d\) se acerca a 0.8, entonces es un efecto grande.
- a es el símbolo de la Intercepción en Y
- A veces se escribe como\(b_0\), porque al escribir el modelo lineal teórico\(\beta_0\) se utiliza para representar un coeficiente para una población.
- b es el símbolo para Pendiente
- La palabra coeficiente se utilizará regularmente para la pendiente, ya que es un número que siempre estará al lado de la letra “”\(x\). Se escribirá como\(b_1\) cuando se utiliza una muestra, y se\(\beta_1\) utilizará con una población o al escribir el modelo lineal teórico.
- Bivariado
- dos variables están presentes en el modelo donde una es la “causa” o variable independiente y la otra es el “efecto” de la variable dependiente.
- Lineal
- un modelo que toma datos y los retrocede en una ecuación de línea recta.
- Multivariante
- un sistema o modelo donde se está utilizando más de una variable independiente para predecir un resultado. Solo puede haber una variable dependiente, pero no hay límite para el número de variables independientes.
- R2R2 — Coeficiente de Determinación
- Se trata de un número entre 0 y 1 que representa la variación porcentual de la variable dependiente que puede explicarse por la variación en la variable independiente. Algunas veces se calcula por la ecuación\(R^{2}=\frac{S S R}{S S T}\) donde\(SSR\) está la “Regresión de Suma de Cuadrados” y\(SST\) es la “Suma de Cuadrados Total” El coeficiente de determinación apropiado a reportar siempre debe ajustarse primero por grados de libertad.
- Residual o “error”
- el valor calculado a partir de restar\(y_{0}-\hat{y}_{0}=e_{0}\). El valor absoluto de un residuo mide la distancia vertical entre el valor real de y y y el valor estimado de y que aparece en la línea de mejor ajuste.
- RR — Coeficiente de correlación
- Un número entre −1 y 1 que representa la fuerza y dirección de la relación entre “\(X\)” y “”\(Y\). El valor de “\(r\)” será igual a 1 o −1 solo si todos los puntos trazados forman una línea perfectamente recta.
- Suma de Errores Cuadrados (SSE)
- el valor calculado a partir de sumar todos los términos residuales cuadrados. La esperanza es que este valor sea muy pequeño a la hora de crear un modelo.
- X — la variable independiente
- Esto a veces se denominará la variable “predictora”, ya que estos valores se midieron con el fin de determinar qué posibles resultados podrían predecirse.
- Y — la variable dependiente
- Además, usar la letra “\(y\)” representa valores reales mientras que\(\hat{y}\) representa valores predichos o estimados. Los valores pronosticados vendrán de enchufar los “\(x\)” valores observados en un modelo lineal.
- todas las poblaciones de interés se distribuyen normalmente.
- las poblaciones tienen desviaciones estándar iguales.
- muestras (no necesariamente del mismo tamaño) se seleccionan al azar e independientemente de cada población.
- hay una variable independiente y una variable dependiente.
El estadístico de prueba para el análisis de varianza es el\(F\) -ratio.
- Análisis de varianza
- también denominado ANOVA, es un método para probar si las medias de tres o más poblaciones son iguales o no. El método es aplicable si:
- ANOVA de una vía
- un método para comprobar si las medias de tres o más poblaciones son iguales o no; el método es aplicable si:
- todas las poblaciones de interés se distribuyen normalmente.
- las poblaciones tienen desviaciones estándar iguales.
- muestras (no necesariamente del mismo tamaño) se seleccionan al azar e independientemente de cada población.
El estadístico de prueba para el análisis de varianza es el\(F\) -ratio.
- Varianza
- media de las desviaciones cuadradas de la media; el cuadrado de la desviación estándar. Para un conjunto de datos, una desviación se puede representar como\(x – \overline{x}\) donde\(x\) es un valor de los datos y\(\overline{x}\) es la media de la muestra. La varianza muestral es igual a la suma de los cuadrados de las desviaciones dividida por la diferencia del tamaño de la muestra y uno.
- Tabla de Contingencia
- una tabla que muestra valores de muestra para dos factores diferentes que pueden ser dependientes o contingentes entre sí; facilita la determinación de probabilidades condicionales.
- Bondad de ajuste
- una prueba de hipótesis que compara valores esperados y observados para buscar diferencias significativas dentro de una variable no paramétrica. Los grados de libertad utilizados son iguales al (número de categorías — 1).
- Prueba de homogeneidad
- una prueba utilizada para sacar una conclusión sobre si dos poblaciones tienen la misma distribución. Los grados de libertad utilizados son iguales al (número de columnas — 1).
- Prueba de Independencia
- una prueba de hipótesis que compara valores esperados y observados para tablas de contingencia con el fin de probar la independencia entre dos variables. Los grados de libertad utilizados son iguales al (número de columnas — 1) multiplicado por el (número de filas — 1).
- Grupos Independientes
- dos muestras que se seleccionan de dos poblaciones, y los valores de una población no están relacionados de ninguna manera con los valores de la otra población.
- Pares emparejados
- dos muestras que son dependientes. Las diferencias entre un escenario antes y después se prueban probando la media de diferencias de una población.
- Varianza agrupada
- un promedio ponderado de dos varianzas que luego se pueden usar al calcular el error estándar.
- Distribución Normal
- una variable aleatoria continua (RV) con pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\), donde\(\mu\) es la media de la distribución, y\(\sigma\) es la desviación estándar, notación:\(X \sim N(\mu, \sigma)\). Si\(\mu = 0\) y\(\sigma = 1\), el RV se llama la distribución normal estándar.
- Desviación estándar
- un número que es igual a la raíz cuadrada de la varianza y mide qué tan lejos están los valores de los datos de su media; notación: s para la desviación estándar de la muestra y σ para la desviación estándar de la población.
- Distribución T de Student
- investigado y reportado por William S. Gossett en 1908 y publicado bajo el seudónimo de Student. Las principales características de la variable aleatoria (RV) son:
- Es continuo y asume cualquier valor real.
- El pdf es simétrico sobre su media de cero. Sin embargo, está más extendido y más plano en el ápice que en la distribución normal.
- Se acerca a la distribución normal estándar a medida que n se hace más grande.
- Hay una “familia” de t distribuciones: cada representante de la familia está completamente definido por el número de grados de libertad que es uno menos que el número de elementos de datos.
- Estadística de prueba
- La fórmula que cuenta el número de desviaciones estándar en la distribución relevante que el parámetro estimado está lejos del valor hipotético.
- Error de tipo I
- La decisión es rechazar la hipótesis nula cuando, de hecho, la hipótesis nula es cierta.
- Error de tipo II
- La decisión es no rechazar la hipótesis nula cuando, de hecho, la hipótesis nula es falsa.
- Parámetro
- una característica numérica de una población
- Estimación de puntos
- un solo número calculado a partir de una muestra y utilizado para estimar un parámetro de población
- Desviación estándar
- un número que es igual a la raíz cuadrada de la varianza y mide qué tan lejos están los valores de los datos de su media; notación:\(s\) para la desviación estándar de la muestra y\ sigma para la desviación estándar de la población
- T -Distribución de Student
- investigado y reportado por William S. Gossett en 1908 y publicado bajo el seudónimo de Student; las principales características de esta variable aleatoria (\(RV\)) son:
- Es continuo y asume cualquier valor real.
- El pdf es simétrico sobre su media de cero.
- Se acerca a la distribución normal estándar\(n\) a medida que se hace más grande.
- Hay una “familia” de t—distribuciones: cada representante de la familia está completamente definido por el número de grados de libertad, que depende de la aplicación para la que se esté utilizando la t.
- Promedio
- un número que describe la tendencia central de los datos; hay una serie de promedios especializados, incluyendo la media aritmética, la media ponderada, la mediana, el modo y la media geométrica.
- Teorema de Límite Central
- Dada una variable aleatoria con media conocida μ y desviación estándar conocida, σ, estamos muestreando con tamaño n, y estamos interesados en dos nuevas RV: la media de la muestra,\(\overline X\). Si el tamaño (\(n\)) de la muestra es suficientemente grande, entonces\(\overline{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\). Si el tamaño (\(n\)) de la muestra es suficientemente grande, entonces la distribución de las medias de la muestra se aproximará a distribuciones normales independientemente de la forma de la población. La media de las medias de la muestra será igual a la media poblacional. La desviación estándar de la distribución de las medias muestrales\(\frac{\sigma}{\sqrt{n}}\),, se denomina error estándar de la media.
- Factor de corrección de población finita
- ajusta la varianza de la distribución muestral si se conoce la población y se está muestreando más del 5% de la población.
- Media
- un número que mide la tendencia central; un nombre común para la media es “promedio”. El término “media” es una forma abreviada de “media aritmética”. Por definición, la media para una muestra (denotada por\(\overline x\)) es\(\overline x =\overline{x}=\frac{\text { Sum of all values in the sample }}{\text { Number of values in the sample }}\), y la media para una población (denotada por\(\mu\)) es\(\mu=\frac{\text { Sum of all values in the population }}{\text { Number of values in the population }}\).
- Distribución Normal
- una variable aleatoria continua con pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\), donde\(\mu\) es la media de la distribución y\(\sigma\) es la desviación estándar.; notación:\(X \sim N(\mu, \sigma)\). Si\(\mu = 0\) y\(\sigma = 1\), la variable aleatoria,\(Z\), se llama la distribución normal estándar.
- Distribución de Muestreo
- Dadas muestras aleatorias simples\(n\) de tamaño de una población dada con una característica medida como media, proporción o desviación estándar para cada muestra, la distribución de probabilidad de todas las características medidas se denomina distribución muestral.
- Error estándar de la media
- la desviación estándar de la distribución de las medias de la muestra, o\(\frac{\sigma}{\sqrt{n}}\).
- Error estándar de la proporción
- la desviación estándar de la distribución muestral de proporciones
- Probabilidad Condicional
- la probabilidad de que ocurra un evento dado que ya se ha producido otro evento.
- parámetro decaimiento
- El parámetro de decaimiento describe la velocidad a la que las probabilidades decaen a cero para valores crecientes de\(x\). Es el valor m en la función de densidad de probabilidad\(f(x)=m e^{(-m x)}\) de una variable aleatoria exponencial. También es igual a\(m = \frac{1}{\mu}\), donde\(\mu\) está la media de la variable aleatoria.
- Distribución exponencial
- una variable aleatoria continua (RV) que aparece cuando estamos interesados en los intervalos de tiempo entre algunos eventos aleatorios, por ejemplo, el tiempo entre llegadas de emergencia a un hospital. La media es\(\mu = \frac{1}{m}\) y la desviación estándar es\(\sigma = \frac{1}{m}\). La función de densidad de probabilidad es\(f(x)=m e^{-m x} \text { or } f(x)=\frac{1}{\mu} e^{-\frac{1}{\mu} x}, x \geq 0\) y la función de distribución acumulativa es\(P(X \leq x)=1-e^{-m x} \text { or } P(X \leq x)=1-e^{-\frac{1}{\mu} x}\).
- propiedad sin memoria
- Para una variable aleatoria exponencial\(X\), la propiedad sin memoria es la afirmación de que el conocimiento de lo ocurrido en el pasado no tiene ningún efecto sobre las probabilidades futuras. Esto quiere decir que la probabilidad que\(X\) supera\(x + t\), dado que ha superado\(x\), es la misma que la probabilidad que\(X\) superaría t si no tuviéramos conocimiento al respecto. En símbolos decimos eso\(P(X > x + t|X > x) = P(X > t)\).
- Distribución de Poisson
- Si hay un promedio conocido de\ mu eventos que ocurren por unidad de tiempo, y estos eventos son independientes entre sí, entonces el número de eventos X que ocurren en una unidad de tiempo tiene la distribución de Poisson. La probabilidad de que x eventos ocurran en una unidad de tiempo es igual a\(P(X=x)=\frac{\mu^{x} e^{-\mu}}{x !}\).
- Distribución Uniforme
- una variable aleatoria continua (RV) que tiene resultados igualmente probables sobre el dominio,\(a < x < b\); a menudo se le conoce como la distribución rectangular porque la gráfica del pdf tiene la forma de un rectángulo. La media es\(\mu=\frac{a+b}{2}\) y la desviación estándar es\(\sigma=\sqrt{\frac{(b-a)^{2}}{12}}\). La función de densidad de probabilidad es\ (f (x) =\ frac {1} {b-a}\ text {for} a
- Probabilidad Hipergeométrica
- una variable aleatoria discreta (RV) que se caracteriza por:
- Un número fijo de juicios.
- La probabilidad de éxito no es la misma de un juicio a otro.
- Distribución de probabilidad de Poisson
- una variable aleatoria discreta (RV) que cuenta el número de veces que ocurrirá un determinado evento en un intervalo específico; características de la variable:
- La probabilidad de que el evento ocurra en un intervalo dado es la misma para todos los intervalos.
- Los eventos ocurren con una media conocida e independientemente del tiempo transcurrido desde el último evento.
- Función de distribución de probabilidad (PDF)
- una descripción matemática de una variable aleatoria discreta (RV), dada ya sea en forma de ecuación (fórmula) o en forma de tabla que enumera todos los resultados posibles de un experimento y la probabilidad asociada a cada resultado.
- Variable aleatoria (RV)
- una característica de interés en una población en estudio; la notación común para las variables son letras latinas mayúsculas\(X, Y, Z\),...; notación común para un valor específico del dominio (conjunto de todos los valores posibles de una variable) son letras latinas minúsculas\(x, y\), y\(z\). Por ejemplo, si\(X\) es el número de hijos en una familia, entonces\(x\) representa un entero específico 0, 1, 2, 3,... Las variables en estadística difieren de las variables en álgebra intermedia en las dos formas siguientes.
- El dominio de la variable aleatoria (RV) no es necesariamente un conjunto numérico; el dominio puede expresarse en palabras; por ejemplo, si el color\(X =\) del cabello entonces el dominio es {negro, rubio, gris, verde, naranja}.
- Podemos decir qué valor específico x\(X\) toma la variable aleatoria solo después de realizar el experimento.
- Espacio de muestra
- el conjunto de todos los resultados posibles de un experimento
- Muestreo con Repuesto
- Si cada miembro de una población es reemplazado después de ser escogido, entonces ese miembro tiene la posibilidad de ser elegido más de una vez.
- Muestreo sin Repuesto
- Cuando el muestreo se realiza sin reemplazo, cada miembro de una población podrá ser elegido sólo una vez.
- El Evento Complemento
- El complemento del evento A consiste en todos los resultados que NO están en A.
- La probabilidad condicional de\(A | B\)
- P (A||B) es la probabilidad de que ocurra el evento A dado que el evento B ya ha ocurrido.
- La intersección: el\(\cap \) evento
- Un resultado está en el evento | (A\ cap B\) si el resultado es en ambos\(A \cap B\) al mismo tiempo.
- La Unión: el\(\cup\) Evento
- Un resultado es en el evento\(A \cup B\) si el resultado está en A o está en B o está en ambos A y B.
- Diagrama de árbol
- la representación visual útil de un espacio muestral y eventos en forma de “árbol” con ramas marcadas por posibles resultados junto con probabilidades asociadas (frecuencias, frecuencias relativas)
- Diagrama de Venn
- la representación visual de un espacio muestral y eventos en forma de círculos u óvalos mostrando sus intersecciones
- Encuesta
- un estudio en el que se recolectan datos según lo reportado por individuos.
- Muestreo sistemático
- un método para seleccionar una muestra aleatoria; enumerar los miembros de la población. Utilice un muestreo aleatorio simple para seleccionar un punto de partida en la población. Dejar k = (número de individuos en la población)/(número de individuos necesarios en la muestra). Elija cada késimo individuo de la lista comenzando por el que se seleccionó aleatoriamente. Si es necesario, regresa al inicio del listado poblacional para completar tu muestra.
- Tratamientos
- diferentes valores o componentes de la variable explicativa aplicada en un experimento
- Variable
- una característica de interés para cada persona u objeto en una población
- Frecuencia
- el número de veces que se produce un valor de los datos
- Tabla de frecuencias
- una representación de datos en la que se muestran los datos agrupados junto con las frecuencias correspondientes
- Histograma
- una representación gráfica en forma x - y de la distribución de datos en un conjunto de datos; x representa los datos e y representa la frecuencia, o frecuencia relativa. La gráfica consta de rectángulos contiguos.
- Gama Intercuartil
- o IQR, es el rango del 50 por ciento medio de los valores de los datos; el IQR se encuentra restando el primer cuartil del tercer cuartil.
- Media (aritmética)
- un número que mide la tendencia central de los datos; un nombre común para la media es 'promedio'. El término 'media' es una forma abreviada de 'media aritmética'. Por definición, la media para una muestra (denotada por\(\overline{x}\)) es\(\overline{x}=\frac{\text { Sum of all values in the sample }}{\text { Number of values in the sample }}\), y la media para una población (denotada por μ) es\(\boldsymbol{\mu}=\frac{\text { Sum of all values in the population }}{\text { Number of values in the population }}\)
- Media (geométrica)
- una medida de tendencia central que proporciona una medida del crecimiento geométrico promedio en múltiples períodos de tiempo.
- Mediana
- un número que separa los datos ordenados en mitades; la mitad de los valores son el mismo número o menores que la mediana y la mitad de los valores son el mismo número o mayores que la mediana. La mediana puede o no ser parte de los datos.
- Punto medio
- la media de un intervalo en una tabla de frecuencias
- Modo
- el valor que aparece con mayor frecuencia en un conjunto de datos
- Valor atípico
- una observación que no se ajusta al resto de los datos
- Percentil
- un número que divide los datos ordenados en centésimas; los percentiles pueden o no ser parte de los datos. La mediana de los datos es el segundo cuartil y el percentil 50. El primer y tercer cuartiles son los percentiles 25 y 75, respectivamente.
- Cuartiles
- los números que separan los datos en cuartos; los cuartiles pueden o no ser parte de los datos. El segundo cuartil es la mediana de los datos.
- Frecuencia relativa
- la relación entre el número de veces que se produce un valor de los datos en el conjunto de todos los resultados y el número de todos los resultados
- Desviación estándar
- un número que es igual a la raíz cuadrada de la varianza y mide qué tan lejos están los valores de los datos de su media; notación: s para la desviación estándar de la muestra y σ para la desviación estándar de la población.
- Varianza
- media de las desviaciones cuadradas de la media, o el cuadrado de la desviación estándar; para un conjunto de datos, una desviación se puede representar como x —\(\overline{x}\) donde x es un valor de los datos y\(\overline{x}\) es la media de la muestra. La varianza muestral es igual a la suma de los cuadrados de las desviaciones dividida por la diferencia del tamaño de la muestra y uno.