Apéndice E - El glosario corto de R

Última actualización
Guardar como PDF

Page ID: 150054

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Este glosario muy corto ayudará a encontrar el comando R correspondiente para los términos estadísticos más extendidos. Esto es similar al “índice inverso” que podría ser útil cuando sabes qué hacer pero no sabes qué comando R usar.

Criterio de información de Akaike, AIC — AIC () — criterio de la optimalidad del modelo; el mejor modelo suele corresponder con AIC mínimo.

análisis de varianza, ANOVA — aov () — la familia de pruebas paramétricas, utilizadas para comparar múltiples muestras.

análisis de covarianza, ANCOVA — lm (respuesta ~ influencia*factor) — sólo otra variante de modelos lineales, compara varias líneas de regresión.

“apply family” — aggregate (), apply (), lapply (), sapply (), tapply () y otros — Funciones R que ayudan a evitar bucles, repeticiones de la misma secuencia de comandos. Las diferencias entre las funciones más utilizadas de esta familia (aplicadas en el marco de datos) se muestran en la Figura\(\PageIndex{1}\).

Screen Shot 2019-01-31 a las 12.43.36 AM.png — Figura\(\PageIndex{1}\) Cinco fincciones de uso frecuente de “apply family”.

media aritmética, media, promedio — media () — suma de todos los valores de muestra se divide en su número.

gráfico de barras — barplot () — el diagrama para representar varios valores numéricos (por ejemplo, recuentos).

Prueba de Bartlett — bartlett.test () — comprueba el nulo si las varianzas de las muestras son iguales (supuesto ANOVA).

bootstrap — sample () y muchos otros — técnica de submuestreo muestral para estimar estadísticas de población.

boxplot — boxplot () — el diagrama para representar las características principales de una o varias muestras.

Prueba de chi-cuadrado — chisq.test () — ayuda a verificar si hay una asociación entre filas y columnas en la tabla de contingencia.

análisis de conglomerados, jerárquico — hclust () — visualización de las diferencias de objetos como dendrograma (árbol).

intervalo de confianza — el rango donde se puede ubicar algún valor poblacional (media, mediana, etc.) con una probabilidad dada.

análisis de correlación — cor.test () — grupo de métodos que permiten describir la determinación entre varias muestras.

matriz de correlación — cor () — devuelve coeficientes de correlación para todos los pares de muestras.

tipos de datos — hay una lista (con sinónimos):

medición:
- continuo;
- merístico, discreto, discontinuo;
clasificado, ordinal;
categórico, nominal.

matriz de distancia — dist (), daisy (), vegdist () — calcula la distancia (disimilitud) entre objetos.

distribución — el “layout”, la “forma” de los datos; la distribución teórica muestra cómo deben verse los datos mientras que la distribución muestra cómo se ven los datos en la realidad.

F-test — var.test () — prueba paramétrica utilizada para comparar variaciones en dos muestras.

Prueba exacta de Fisher — fisher.test () — similar a chi-cuadrado pero calcula (no estima) valor p; recomendado para datos pequeños.

modelos lineales generalizados — glm () — extensión de modelos lineales permitiendo (por ejemplo) la respuesta binaria; esta última es la regresión logística.

histograma — hist () — diagrama para mostrar frecuencias de diferentes valores en la muestra.

rango intercuartil — IQR () — la distancia entre el segundo y cuarto cuartil, el método robusto para mostrar variabilidad.

Prueba de Kolmogorov-Smirnov — ks.test () — utilizada para comparar dos distribuciones, incluyendo la comparación entre distribución muestral y distribución normal.

Prueba de Kruskal-Wallis — kruskal.test () — utilizada para comparar múltiples muestras, esto es reemplazo no paramétrico de ANOVA.

análisis discriminante lineal — lda () — método multivariado, permite crear una clasificación basada en la muestra de entrenamiento.

regresión lineal — lm () — investiga la relación lineal (regresión lineal) entre objetos.

long form — stack (); unstack () — la variante de representación de datos donde los ID de grupo (entidad) y los datos son verticales, en columnas:

SEXO TALLA

M 1 M 1
F 2
F 1

LOESS — loess.smooth () — Suavizado de gráfica de dispersión ponderada localmente.

Prueba de McNemar — mcnemar.test () — similar a chi-cuadrado pero permite verificar la asociación en caso de observaciones pareadas.

Prueba de Mann-Whitney — wilcox.test () — ver la prueba de Wilcoxon.

mediana — mediana () — el valor dividiendo la muestra en dos mitades.

fórmulas modelo — formula () — la manera de describir brevemente el modelo estadístico:

respuesta ~ influencia: análisis de la regresión;
respuesta ~ influencia1 + influencia2: análisis de regresión múltiple, modelo aditivo;
factor de respuesta ~: ANOVA de un factor;
respuesta ~ factor1 + factor2: ANOVA multifactor;
respuesta ~ influencia * factor: análisis de covariación, modelo con interacciones, se expande en “respuesta ~ influencia + influencia: factor”.
Operadores utilizados en fórmulas:
- todos los predictores (influencias y factores) del modelo anterior (utilizados junto con update ());
- añade factor o influencia;
- elimina factor o influencia;
- interacción;
- todas las combinaciones lógicas de factores e influencias;
- inclusión, “factor1/factor2” significa que factor2 está incrustado en factor1 (como calle está “incrustado” en distrito y distrito en ciudad);
- condición, “factor1 | factor2” significa “factor de división 1 por los niveles de factor2”;
- interceptar, entonces respuesta ~ influencia - 1 significa modelo lineal sin intercepción;
- devuelve valores aritméticos para todo entre paréntesis. También se utiliza en el comando data.frame () para omitir la conversión en factor para columnas de caracteres.

escalado multidimensional, MDS — cmdscale () — construye algo así como un mapa a partir de la matriz de distancia.

comparaciones múltiples — p.ajustar () — consulte el cómic XKCD para obtener la mejor explicación (Figura\(\PageIndex{2}\)).

no paramétrico — no relacionado con una distribución teórica específica, útil para el análisis de datos arbitrarios.

parcela de distribución normal — parcela (densidad (rnorm (1000000))) — “campana”, “sombrero” (Figura\(\PageIndex{3}\)).

distribución normal — rnorm () — la distribución teórica más importante, el basamento de los métodos paramétricos; aparece, por ejemplo si uno disparará al objetivo durante mucho tiempo y luego medirá todas las distancias al centro (Figura\(\PageIndex{4}\)):

Screen Shot 2019-01-31 a las 12.49.24 AM.png — Figura Comparaciones\(\PageIndex{2}\) múltiples (tomadas de XKCD, http://xkcd.com/882/).

Código\(\PageIndex{1}\) (R):

library(plotrix)
plot(c(-1, 1), c(-1, 1), type="n", xlab="", ylab="", axes=FALSE)
for(n in seq(0.1, 0.9, 0.1)) draw.circle(0, 0, n)
set.seed(11); x <- rnorm(100, sd=.28); y <- rnorm(100, sd=.28)
points(x, y, pch=19)

Screen Shot 2019-01-31 a las 12.53.59 AM.png — Figura Gráfica de distribución\(\PageIndex{3}\) normal.

prueba unidireccional — oneway.test () — similar al ANOVA simple pero omite la homogeneidad de la suposición de varianzas.

prueba t por pares — par.t.test () — prueba paramétrica post hoc con ajuste para comparaciones múltiples.

prueba de Wilcoxon por pares — par.wilcox.test () — prueba post hoc no paramétrica con ajuste para comparaciones múltiples.

paramétrico — correspondiente a la distribución conocida (en este libro: normal, ver), adecuada para el análisis de los datos normalmente distribuidos.

Screen Shot 2019-01-31 a las 12.55.13 AM.png — Figura\(\PageIndex{4}\) Similar a los resultados de la práctica de tiro? Pero esto se hace en R usando dos distribuciones normales (¡vea el código anterior)!

post hoc — pruebas que verifican todos los grupos por pares; contrario al nombre, no es necesario ejecutarlos después de otra cosa.

análisis de componentes principales — princomp (), prcomp () — método multivariado “proyectado” nube multivariante sobre el plano de componentes principales.

prueba de proporción — prop.test () — comprueba si las proporciones son iguales.

p-value — probabilidad de obtener el valor estimado si la hipótesis nula es verdadera; si el valor p está por debajo del umbral, entonces la hipótesis nula debe ser rechazada (consulte el capítulo “datos bidimensionales” para la explicación sobre las hipótesis estadísticas).

robustos: no son tan sensibles a los valores atípicos, muchos métodos robustos también son no paramétricos.

quantile — quantile () — devuelve valores de cuantiles (por defecto, valores que cortan 0, 25, 50, 75 y 100% de la muestra).

scatterplot — plot (x, y) — plot que muestra la correspondencia entre dos variables.

Prueba de Shapiro-Wilk — shapiro.test () — prueba para verificar la normalidad de la muestra.

forma corta — stack (); unstack () — la variante de representación de datos donde los ID de grupo son horizontales (son columnas):

M.TALLA F.TALLA
1 2
1 1

desviación estándar — sd () — raíz cuadrada de la varianza.

error estándar, SE — sd (x) /sqrt (longitud (x)) — varianza normalizada.

Gráfica tallo y hoja — tallo () — gráfica textual que muestra frecuencias de valores en la muestra, alternativa para histograma.

t-test — t.test () — la familia de pruebas paramétricas que se utilizan para estimar y/o comparar valores medios de una o dos muestras.

Tukey HSD — TukeyHSD () — prueba paramétrica post hoc para comparaciones múltiples que calcula las diferencias significativas honestas de Tukey (intervalos de confianza).

La relación lineal de Tukey — línea () — se ajusta robustamente, con medianas de subgrupos.

distribución uniforme — runif () — distribución donde cada valor tiene la misma probabilidad.

varianza — var () — la diferencia promediada entre la media y todos los demás valores de la muestra.

Prueba de Wilcoxon — wilcox.test () — utilizada para estimar y/o comparar medianas de una o dos muestras, este es el reemplazo no paramétrico de la prueba t.