Saltar al contenido principal

# 18.2: Faltan modelos estadísticos en el libro

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$

( \newcommand{\kernel}{\mathrm{null}\,}\) $$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\id}{\mathrm{id}}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\kernel}{\mathrm{null}\,}$$

$$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$

$$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$

$$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

$$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$$

$$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$$

$$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vectorC}[1]{\textbf{#1}}$$

$$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$$

$$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$$

$$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$$

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\avec}{\mathbf a}$$ $$\newcommand{\bvec}{\mathbf b}$$ $$\newcommand{\cvec}{\mathbf c}$$ $$\newcommand{\dvec}{\mathbf d}$$ $$\newcommand{\dtil}{\widetilde{\mathbf d}}$$ $$\newcommand{\evec}{\mathbf e}$$ $$\newcommand{\fvec}{\mathbf f}$$ $$\newcommand{\nvec}{\mathbf n}$$ $$\newcommand{\pvec}{\mathbf p}$$ $$\newcommand{\qvec}{\mathbf q}$$ $$\newcommand{\svec}{\mathbf s}$$ $$\newcommand{\tvec}{\mathbf t}$$ $$\newcommand{\uvec}{\mathbf u}$$ $$\newcommand{\vvec}{\mathbf v}$$ $$\newcommand{\wvec}{\mathbf w}$$ $$\newcommand{\xvec}{\mathbf x}$$ $$\newcommand{\yvec}{\mathbf y}$$ $$\newcommand{\zvec}{\mathbf z}$$ $$\newcommand{\rvec}{\mathbf r}$$ $$\newcommand{\mvec}{\mathbf m}$$ $$\newcommand{\zerovec}{\mathbf 0}$$ $$\newcommand{\onevec}{\mathbf 1}$$ $$\newcommand{\real}{\mathbb R}$$ $$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$$ $$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$$ $$\newcommand{\bcal}{\cal B}$$ $$\newcommand{\ccal}{\cal C}$$ $$\newcommand{\scal}{\cal S}$$ $$\newcommand{\wcal}{\cal W}$$ $$\newcommand{\ecal}{\cal E}$$ $$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$$ $$\newcommand{\gray}[1]{\color{gray}{#1}}$$ $$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$$ $$\newcommand{\rank}{\operatorname{rank}}$$ $$\newcommand{\row}{\text{Row}}$$ $$\newcommand{\col}{\text{Col}}$$ $$\renewcommand{\row}{\text{Row}}$$ $$\newcommand{\nul}{\text{Nul}}$$ $$\newcommand{\var}{\text{Var}}$$ $$\newcommand{\corr}{\text{corr}}$$ $$\newcommand{\len}[1]{\left|#1\right|}$$ $$\newcommand{\bbar}{\overline{\bvec}}$$ $$\newcommand{\bhat}{\widehat{\bvec}}$$ $$\newcommand{\bperp}{\bvec^\perp}$$ $$\newcommand{\xhat}{\widehat{\xvec}}$$ $$\newcommand{\vhat}{\widehat{\vvec}}$$ $$\newcommand{\uhat}{\widehat{\uvec}}$$ $$\newcommand{\what}{\widehat{\wvec}}$$ $$\newcommand{\Sighat}{\widehat{\Sigma}}$$ $$\newcommand{\lt}{<}$$ $$\newcommand{\gt}{>}$$ $$\newcommand{\amp}{&}$$ $$\definecolor{fillinmathshade}{gray}{0.9}$$

La estadística es un campo enorme. Las herramientas centrales que he descrito en este libro (pruebas de chi-cuadrado, pruebas t, ANOVA y regresión) son herramientas básicas que se utilizan ampliamente en el análisis de datos cotidianos, y forman el núcleo de la mayoría de los libros introductorios de estadísticas. Sin embargo, hay muchas otras herramientas por ahí. Hay tantas situaciones de análisis de datos que estas herramientas no cubren, y en futuras versiones de este libro quiero hablar de ellas. Para darte una idea de cuánto más hay, y cuánto más trabajo quiero hacer para terminar esto, la siguiente es una lista de herramientas de modelización estadística de las que me hubiera gustado hablar. Algunos de estos definitivamente lo convertirán en futuras versiones del libro.

• Análisis de covarianza En el Capítulo 16 dediqué un poco de tiempo a discutir la conexión entre ANOVA y regresión, señalando que cualquier modelo ANOVA puede ser refundido como una especie de modelo de regresión. De manera más general, ambos son ejemplos de modelos lineales, y es muy posible considerar modelos lineales que son más generales que cualquiera de ellos. El ejemplo clásico de esto es el “análisis de covarianza” (ANCOVA), y se refiere a la situación en la que algunos de tus predictores son continuos (como en un modelo de regresión) y otros son categóricos (como en un ANOVA).
• Regresión no lineal Al discutir la regresión en el Capítulo 15, vimos que la regresión asume que la relación entre predictores y resultados es lineal. Por otro lado, cuando hablamos del problema más simple de correlación en el Capítulo 5, vimos que existen herramientas (por ejemplo, correlaciones de Spearman) que son capaces de evaluar las relaciones no lineales entre variables. Hay una serie de herramientas en estadística que se pueden utilizar para hacer regresión no lineal. Por ejemplo, algunos modelos de regresión no lineal asumen que la relación entre predictores y resultados es monótona (por ejemplo, regresión isotónica), mientras que otros asumen que es suave pero no necesariamente monótona (por ejemplo, regresión de Lowess), mientras que otros asumen que la relación es de una forma conocida que pasa a ser no lineal (por ejemplo, regresión polinómica).
• Regresión logística Otra variación de la regresión ocurre cuando la variable de resultado es de valor binario, pero los predictores son continuos. Por ejemplo, supongamos que está investigando las redes sociales, y quiere saber si es posible predecir si alguien está o no en Twitter en función de sus ingresos, su edad y un rango de otras variables. Esto es básicamente un modelo de regresión, pero no se puede usar la regresión lineal regular porque la variable de resultado es binaria (o estás en Twitter o no lo estás): debido a que la variable de resultado es binaria, no hay forma de que los residuos puedan distribuirse normalmente. Existen una serie de herramientas que los estadísticos pueden aplicar a esta situación, la más destacada de las cuales es la regresión logística.
• El Modelo Lineal General (GLM) El GLM es en realidad una familia de modelos que incluye regresión logística, regresión lineal, (algunos) regresión no lineal, ANOVA y muchos otros. La idea básica en el GLM es esencialmente la misma idea que sustenta los modelos lineales, pero permite la idea de que sus datos podrían no estar distribuidos normalmente, y permite relaciones no lineales entre predictores y resultados. Hay muchos análisis muy útiles que puedes ejecutar que caen dentro del GLM, por lo que es algo muy útil de conocer.
• Análisis de supervivencia En el Capítulo 2 hablé del “desgaste diferencial”, la tendencia de las personas a abandonar el estudio de manera no aleatoria. En aquel entonces, estaba hablando de ello como una posible preocupación metodológica, pero hay muchas situaciones en las que el desgaste diferencial es en realidad lo que te interesa. Supongamos, por ejemplo, que te interesa saber cuánto tiempo la gente juega diferentes tipos de juegos de computadora en una sola sesión. ¿La gente tiende a jugar juegos RTS (estrategia en tiempo real) por tramos más largos que los juegos de FPS (disparos en primera persona)? Podrías diseñar tu estudio así. La gente entra al laboratorio, y pueden jugar tanto tiempo o tan poco como quieran. Una vez terminadas, grabas el tiempo que pasaron jugando. No obstante, debido a restricciones éticas, supongamos que no se puede permitir que sigan jugando más de dos horas. Mucha gente dejará de jugar antes del límite de dos horas, así que sabes exactamente cuánto tiempo jugaron. Pero algunas personas se encontrarán con el límite de dos horas, y así no sabes cuánto tiempo habrían seguido jugando si hubieras podido continuar con el estudio. Como consecuencia, tus datos son sistemáticamente censurados: te estás perdiendo todos los tiempos muy largos. ¿Cómo analizas estos datos con sensatez? Este es el problema que resuelve el análisis de supervivencia. Está diseñado específicamente para manejar esta situación, donde sistemáticamente te falta un “lado” de los datos porque el estudio terminó. Es muy ampliamente utilizado en la investigación en salud, y en ese contexto a menudo se usa literalmente para analizar la supervivencia. Por ejemplo, es posible que estés rastreando a personas con un tipo particular de cáncer, algunas que han recibido tratamiento A y otras que han recibido tratamiento B, pero solo tienes fondos para rastrearlos durante 5 años. Al final del periodo de estudio algunas personas están vivas, otras no. En este contexto, el análisis de supervivencia es útil para determinar qué tratamiento es más efectivo, y para informarle sobre el riesgo de muerte que enfrentan las personas con el paso del tiempo.
• Medidas repetidas ANOVA Al hablar de remodelar datos en el Capítulo 7, introduje algunos conjuntos de datos en los que cada participante se midió en múltiples condiciones (por ejemplo, en el conjunto de datos de medicamentos, se midió la capacidad de memoria de trabajo (WMC) de cada persona bajo la influencia del alcohol y la cafeína). Es bastante común diseñar estudios que tengan este tipo de estructura de medidas repetidas. Un ANOVA regular no tiene sentido para estos estudios, porque las mediciones repetidas significan que se viola la independencia (es decir, las observaciones del mismo participante están más estrechamente relacionadas entre sí que con las observaciones de otros participantes. El ANOVA de medidas repetidas es una herramienta que se puede aplicar a datos que tienen esta estructura. La idea básica detrás de RM-ANOVA es tomar en cuenta el hecho de que los participantes pueden tener diferentes niveles generales de desempeño. Por ejemplo, Amy podría tener un WMC de 7 normalmente, que cae a 5 bajo la influencia de la cafeína, mientras que Borat podría tener un WMC de 6 normalmente, que cae a 4 bajo la influencia de la cafeína. Debido a que este es un diseño de medidas repetidas, reconocemos que —aunque Amy tiene un WMC más alto que Borat— el efecto de la cafeína es idéntico para estas dos personas. En otras palabras, un diseño de medidas repetidas significa que podemos atribuir parte de la variación en nuestra medición de WMC a diferencias individuales (es decir, algunas de ellas es solo que Amy tiene un WMC mayor que Borat), lo que nos permite sacar conclusiones más fuertes sobre el efecto de la cafeína.