1.2: Tipos de Variables Biológicas
- Page ID
- 149126
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Objetivos de aprendizaje
- Identificar los tipos de variables en un experimento para elegir el método correcto de análisis.
Introducción
Uno de los primeros pasos para decidir qué prueba estadística usar es determinar qué tipo de variables tiene. Cuando sabes cuáles son las variables relevantes, qué tipo de variables son y cuáles son tus hipótesis nulas y alternativas, suele ser bastante fácil averiguar qué prueba debes usar. Clasifico las variables en tres tipos: variables de medición, variables nominales y variables clasificadas. Verás otros nombres para estos tipos de variables y otras formas de clasificar variables en otras referencias estadísticas, así que trata de no confundirte.
Analizarás experimentos similares, con hipótesis nulas y alternativas similares, de manera completamente diferente dependiendo de cuál de estos tres tipos de variables esté involucrada. Por ejemplo, digamos que has medido la variable X en una muestra de isópodos\(56\) masculinos y\(67\) femeninos (Armadillidium vulgare, comúnmente conocido como pichitos o roly-polies), y tu hipótesis nula es “A. vulgare macho y hembra tienen los mismos valores de variable \(X\).”

Si variable\(X\) es el ancho de la cabeza en milímetros, es una variable de medición, y se compararía el ancho de la cabeza en machos y hembras con una prueba t de dos muestras o un análisis de varianza unidireccional (anova). Si la variable\(X\) es un genotipo (como\(AA\)\(Aa\), o\(aa\)), es una variable nominal, y compararías las frecuencias de genotipo en machos y hembras con una prueba exacta de Fisher. Si sacudes los isópodos hasta que se enrollan en bolitas, entonces registra cuál es el primer isópodo en desenrollar, el segundo en desenrollar, etc., es una variable clasificada y compararías el tiempo de desenrollado en machos y hembras con una prueba de Kruskal—Wallis.
Tipos de variables
Hay tres tipos principales de variables:
- Variables de medición, que se expresan como números (por ejemplo\(3.7mm\))
- Variables nominales, que se expresan como nombres (como “hembra”)
- Variables clasificadas, que se expresan como posiciones (como “tercera”)
Variables de medición
Las variables de medición son, como su nombre lo indica, cosas que puedes medir. Una observación individual de una variable de medición es siempre un número. Los ejemplos incluyen longitud, peso, pH y densidad ósea. Otros nombres para ellos incluyen variables “numéricas” o “cuantitativas”.
Algunos autores dividen las variables de medición en dos tipos. Un tipo son las variables continuas, como la longitud de la antena de un isópodo, que en teoría tienen un número infinito de valores posibles. La otra son las variables discretas (o merísticas), que solo tienen valores numéricos enteros; estas son cosas que cuentas, como el número de espinas en la antena de un isópodo. Las teorías matemáticas que subyacen a las pruebas estadísticas que involucran variables de medición asumen que las variables son continuas. Por suerte, estas pruebas estadísticas funcionan bien en variables de medición discretas, por lo que generalmente no es necesario preocuparse por la diferencia entre las variables de medición continuas y discretas. La única excepción sería si tienes un número muy pequeño de valores posibles de una variable discreta, en cuyo caso podrías querer tratarla como una variable nominal en su lugar.
Cuando se tiene una variable de medición con un pequeño número de valores, puede que no quede claro si debe considerarse una variable de medición o una variable nominal. Por ejemplo, digamos que tus isópodos tienen\(20\) que\(55\) espinas en su antena izquierda, y quieres saber si el número promedio de espinas en la antena izquierda es diferente entre machos y hembras. Debe considerar el número de columna vertebral como una variable de medición y analizar los datos usando una prueba t de dos muestras o un anova unidireccional. Si solo hay dos números diferentes de espinas, algunos isópodos tienen\(32\) espinas y otros tienen,\(33\) debe tratar el número de espinas como una variable nominal, con los valores "\(32\)" y "\(33\)"” y comparar las proporciones de isópodos con\(32\) o\(33\) espinas en machos y hembras usando una prueba exacta de independencia de Fisher (o chi-cuadrado o G —prueba de independencia, si el tamaño de su muestra es realmente grande). Lo mismo ocurre con los experimentos de laboratorio; si le das a tus isópodos alimentos con\(15\) diferentes concentraciones de manosa y luego mides su tasa de crecimiento, la concentración de manosa sería una variable de medición; si le das comida a algunos isópodos con\(5mM\) manosa, y el resto de los isópodos obtienen \(25mM\)manosa, entonces la concentración de manosa sería una variable nominal.
Pero, ¿y si diseñas un experimento con tres concentraciones de manosa, o cinco, o siete? No hay una regla rígida, y la forma en que trates la variable dependerá en parte de tus hipótesis nulas y alternativas. Si su hipótesis alternativa es “diferentes valores de manosa tienen diferentes tasas de crecimiento de isópodos”, podría tratar la concentración de manosa como una variable nominal. Incluso si hay algún patrón extraño de crecimiento alto en manosa cero, bajo crecimiento en pequeñas cantidades, crecimiento alto en cantidades intermedias y bajo crecimiento en altas cantidades de manosa, un anova unidireccional podría dar un resultado significativo. Si tu hipótesis alternativa es “los isópodos crecen más rápido con más manosa”, sería mejor tratar la concentración de manosa como una variable de medición, para que puedas hacer una regresión.
Se puede utilizar la siguiente regla general:
- una variable de medición con solo dos valores debe tratarse como una variable nominal
- una variable de medición con seis o más valores debe tratarse como una variable de medición
- no existe una variable de medición con tres, cuatro o cinco valores
Por supuesto, en el mundo real hay experimentos con tres, cuatro o cinco valores de una variable de medición. Los estudios de simulación muestran que el análisis de dichas variables dependientes con los métodos utilizados para las variables de medición funciona bien (Fagerland et al. 2011). No tengo conocimiento de ninguna investigación sobre el efecto de tratar variables independientes con números pequeños de valores como medida o nominales. Tu decisión sobre cómo tratar tu variable dependerá en parte de tu pregunta biológica. Es posible que pueda evitar la ambigüedad al diseñar el experimento; si desea saber si una variable dependiente está relacionada con una variable independiente que podría ser medida, es una buena idea tener al menos seis valores de la variable independiente.
Algo que podría medirse es una variable de medición, incluso cuando se establecen los valores. Por ejemplo, si cultivas isópodos con un lote de alimento que contiene\(10mM\) manosa, otro lote de alimento con\(20mM\) manosa, otro lote con\(30mM\) manosa, etc. hasta\(100mM\) manosa, las diferentes concentraciones de manosa son una variable de medición, a pesar de que hiciste la comida y establecías la concentración de manosa usted mismo.
Tenga cuidado al contar algo, ya que a veces es una variable nominal y a veces una variable de medición. Por ejemplo, el número de colonias de bacterias en una placa es una variable de medición; se cuenta el número de colonias, y hay\(87\) colonias en una placa,\(92\) en otra placa, etc. cada placa tendría un punto de datos, el número de colonias; eso es un número, entonces es una variable de medición. No obstante, si la placa tiene colonias de bacterias rojas y blancas y se cuenta el número de cada una, es una variable nominal. Ahora, cada colonia es un punto de datos separado con uno de dos valores de la variable, “rojo” o “blanco”; porque eso es una palabra, no un número, es una variable nominal. En este caso, podrías resumir los datos nominales con un número (el porcentaje de colonias que son rojas), pero los datos subyacentes siguen siendo nominales.
Ratios
En ocasiones puedes simplificar tu análisis estadístico tomando la relación de dos variables de medición. Por ejemplo, si quieres saber si los isópodos machos tienen cabezas más grandes, en relación con el tamaño corporal, que los isópodos femeninos, podrías tomar la relación entre el ancho de la cabeza y la longitud corporal para cada isópodo, y comparar las proporciones medias de machos y hembras usando una prueba t —de dos muestras. Sin embargo, esto supone que la relación es la misma para diferentes tamaños corporales. Sabemos que eso no es cierto para los humanos, la relación tamaño de la cabeza/tamaño corporal en los bebés es terriblemente grande, en comparación con los adultos, por lo que debe observar la regresión del ancho de la cabeza en la longitud del cuerpo y asegurarse de que la línea de regresión se acerque bastante al origen, ya que una línea de regresión recta a través del origen significa las proporciones permanecer igual para diferentes valores de la\(X\) variable. Si la línea de regresión no se acerca al origen, sería mejor mantener separadas las dos variables en lugar de calcular una relación, y comparar la línea de regresión del ancho de la cabeza sobre la longitud del cuerpo en los machos con la de las hembras usando un análisis de covarianza.
Variables circulares
Un tipo especial de variable de medición es una variable circular. Estos tienen la propiedad de que el valor más alto y el valor más bajo están uno al lado del otro; muchas veces, el punto cero es completamente arbitrario. Las variables circulares más comunes en biología son la hora del día, la época del año y la dirección de la brújula. Si mide la época del año en días, el Día 1 podría ser el 1 de enero, o el equinoccio de primavera, o su cumpleaños; cualquiera que sea el día que elija, el Día 1 es adyacente al Día 2 en un lado y el Día 365 en el otro.
Si solo está considerando parte del círculo, una variable circular se convierte en una variable de medición regular. Por ejemplo, si estás haciendo una regresión polinómica de ataques de osos vs. época del año en el Parque Nacional Yellowstone, podrías tratar al “mes” como una variable de medición, con marzo como\(1\) y noviembre como\(9\); no tendrías que preocuparte de que febrero (mes\(12\)) sea próximo a marzo, porque los osos están hibernando de diciembre a febrero, y ustedes ignorarían esos tres meses.
Sin embargo, si tu variable realmente es circular, hay pruebas estadísticas especiales, muy oscuras diseñadas solo para datos circulares; los capítulos 26 y 27 en Zar (1999) son un buen lugar para comenzar.
Variables nominales
Las variables nominales clasifican las observaciones en categorías discretas. Ejemplos de variables nominales incluyen sexo (los valores posibles son masculinos o femeninos), genotipo (los valores son\(AA\)\(Aa\), o\(aa\)), o condición del tobillo (los valores son normales, esguince, ligamento desgarrado o roto). Una buena regla general es que una observación individual de una variable nominal puede expresarse como una palabra, no un número. Si solo tienes dos valores de lo que normalmente sería una variable de medición, en cambio es nominal: piénsalo como “presente” vs. “ausente” o “bajo” vs “alto”. A menudo se utilizan variables nominales para dividir a los individuos en categorías, de manera que otras variables pueden compararse entre las categorías. En la comparación del ancho de la cabeza en isópodos machos vs hembras, los isópodos se clasifican por sexo, una variable nominal, y la variable de medición ancho de cabeza se compara entre los sexos.
Las variables nominales también se denominan variables categóricas, discretas, cualitativas o atributos. “Categórico” es un nombre más común que “nominal”, pero algunos autores usan “categórico” para incluir tanto lo que estoy llamando “nominal” como lo que estoy llamando “clasificado”, mientras que otros autores usan “categóricas” solo para lo que estoy llamando variables nominales. Me quedaré con “nominal” para evitar esta ambigüedad.
Las variables nominales a menudo se resumen como proporciones o porcentajes. Por ejemplo, si se cuenta el número de A. vulgare macho y hembra en una muestra de Newark y una muestra de Baltimore, se podría decir que\(52.3\%\) de los isópodos en Newark y\(62.1\%\) de los isópodos en Baltimore son hembras. Estos porcentajes pueden parecer una variable de medición, pero realmente representan una variable nominal, el sexo. Se determinó el valor de la variable nominal (macho o hembra) en\(65\) isópodos de Newark, de los cuales\(34\) eran femeninos y\(31\) masculinos. Podrías trazar\(52.3\%\) en una gráfica como una forma sencilla de resumir los datos, pero debes usar los números\(34\) femeninos y\(31\) masculinos en todas las pruebas estadísticas.
Puede ayudar a comprender la diferencia entre las variables de medición y nominales si imagina registrar cada observación en un cuaderno de laboratorio. Si está midiendo anchos de cabeza de isópodos, una observación individual podría ser "”\(3.41mm\). Esa es claramente una variable de medición. Una observación individual del sexo podría ser “femenina”, lo que claramente es una variable nominal. Incluso si no se registra el sexo de cada isópodo individualmente, sino que solo se cuenta el número de machos y hembras y se anotan esos dos números hacia abajo, la variable subyacente es una serie de observaciones de “macho” y “hembra”.
Variables clasificadas
Las variables clasificadas, también llamadas variables ordinales, son aquellas para las que se pueden ordenar las observaciones individuales de menor a mayor, aunque se desconozcan los valores exactos. Si sacudes un montón de A. vulgare, ruedan en bolas, luego después de un rato empiezan a desenrollarse y caminar por ahí. Si quisieras saber si machos y hembras se desenrollaban al mismo tiempo, pero tu cronómetro estaba roto, podrías recoger el primer isópodo para desenrollarlo y ponerlo en un vial marcado como “primero”, recoger el segundo para desenrollarlo y ponerlo en un vial marcado como “segundo”, y así sucesivamente, luego sexo a los isópodos después de que todos se hayan desenrollado. No tendrías la hora exacta en que cada isópodo permaneció enrollado (eso sería una variable de medición), pero tendrías los isópodos en orden de primero a desenrollar a último para desenrollar, que es una variable clasificada. Mientras que una variable nominal se registra como una palabra (como “macho”) y una variable de medición se registra como un número (como "\(4.53\)“), una variable clasificada puede registrarse como un rango (como “séptima”).
Podrías hacer toda una vida de biología y nunca usar una verdadera variable clasificada. Cuando escribo una pregunta de examen que involucra variables clasificadas, suele ser algún escenario ridículo como “Imagina que estás en una isla desierta sin gobernante, y quieres hacer estadísticas sobre el tamaño de los cocos. Los alineas desde los más pequeños hasta los más grandes...” Para una tarea, les pido a los alumnos que elijan un artículo de su diario biológico favorito e identifiquen todas las variables, y cualquiera que encuentre una variable clasificada obtiene una rosquilla; he tenido que comprar cuatro donas en\(13\) años. Las únicas variables clasificadas biológicas comunes que se me ocurren son las jerarquías de dominancia en la biología del comportamiento (ver el ejemplo canino en la página de Kruskal-Wallis) y las etapas de desarrollo, como los diferentes estadios por los que pasan los insectos que mudan.
La razón principal por la que las variables clasificadas son importantes es que las pruebas estadísticas diseñadas para variables clasificadas (llamadas “pruebas no paramétricas”) hacen menos suposiciones sobre los datos que las pruebas estadísticas diseñadas para las variables de medición. Así, el uso más común de variables clasificadas implica convertir una variable de medición a rangos, luego analizarla mediante una prueba no paramétrica. Por ejemplo, digamos que grabaste el tiempo que cada isópodo permaneció enrollado, y que la mayoría de ellos se desenrollaron después de uno o dos minutos. Dos isópodos, que resultaron ser machos, permanecieron enrollados por\(30\) minutos. Si analizaste los datos usando una prueba diseñada para una variable de medición, esos dos isópodos somnolientos harían que el tiempo promedio para los machos fuera mucho mayor que para las hembras, y la diferencia podría parecer estadísticamente significativa. Cuando se convierten a rangos y se analizan mediante una prueba no paramétrica, los isópodos últimos y los últimos isópodos tendrían mucha menos influencia en el resultado general, y sería menos probable que obtengas un resultado engañosamente “significativo” si realmente no hay una diferencia entre machos y hembras.
Algunas variables son imposibles de medir objetivamente con instrumentos, por lo que se pide a las personas que den una calificación subjetiva. Por ejemplo, el dolor a menudo se mide pidiéndole a una persona que ponga una marca en una\(10cm\) escala, donde\(0cm\) hay “no dolor” y\(10cm\) es “el peor dolor posible”. Esta no es una variable clasificada; es una variable de medición, a pesar de que la “medición” la realiza el cerebro de la persona. A efectos de la estadística, lo importante es que se mida en una “escala de intervalos”; idealmente, la diferencia entre dolor calificado\(2\) y\(3\) es la misma que la diferencia entre dolor calificado\(7\) y\(8\). El dolor sería una variable clasificada si los dolores en diferentes momentos se compararan entre sí; por ejemplo, si alguien llevaba un diario de dolor y luego al final de la semana dijera “el martes fue el peor dolor, el jueves fue el segundo peor, el miércoles fue tercero, etc...” Estos rankings no son una escala de intervalos; la diferencia entre martes y jueves puede ser mucho mayor, o mucho menor, que la diferencia entre el jueves y el miércoles.
Al igual que con las variables de medición, si hay un número muy pequeño de valores posibles para una variable clasificada, sería mejor tratarla como una variable nominal. Por ejemplo, si haces una picadura de abeja a la gente en un brazo y una chaqueta amarilla pica a la gente en el otro brazo, entonces pregúntales “¿Fue la picadura de abeja la más dolorosa o la segunda más dolorosa?” , les estás pidiendo el rango de cada picadura. Pero debes tratar los datos como una variable nominal, una que tiene tres valores (“la abeja es peor” o “la chaqueta amarilla es peor” o “el sujeto está tan enojado con tu estúpido y doloroso experimento que se niegan a responder”).
Categorizar
Es posible convertir una variable de medición en una variable nominal, dividiendo a los individuos en dos o más clases en función de los rangos de la variable. Por ejemplo, si estás estudiando la relación entre los niveles de HDL (el “colesterol bueno”) y la presión arterial, podrías medir el nivel de HDL, luego dividir a las personas en dos grupos, “HDL bajo” (menor que\(40mg/dl\)) y “HDL normal” (\(40\)o más\(mg/dl\)) y comparar las presiones sanguíneas medias del dos grupos, usando una agradable prueba t —muestra simple de dos muestras.
La conversión de variables de medición en variables nominales (“dicotomización” si se divide en dos grupos, “categorización” en general) es común en epidemiología, psicología y algunos otros campos. Sin embargo, existen varios problemas con la categorización de las variables de medición (MacCallum et al. 2002). Un problema es que estarías descartando mucha información; en nuestro ejemplo de presión arterial, estarías agrupando a todos con HDL de\(0\) a\(39mg/dl\) en un solo grupo. Esto reduce tu poder estadístico, disminuyendo tus posibilidades de encontrar una relación entre las dos variables si realmente hay una. Otro problema es que sería fácil elegir consciente o inconscientemente la línea divisoria (“cutpoint”) entre HDL bajo y normal que dio un resultado “interesante”. Por ejemplo, si hiciste el experimento pensando que el HDL bajo causó presión arterial alta, y un par de personas con HDL entre\(40\) y\(45\) resultó tener presión arterial alta, podrías poner la línea divisoria entre baja y normal en\(45mg/dl\). Esto sería hacer trampa, porque aumentaría las posibilidades de obtener una diferencia “significativa” si realmente no la hay.
Para ilustrar el problema con la categorización, digamos que querías saber si los basquetbolistas altos pesan más que los jugadores bajos. Aquí están los datos del equipo de básquetbol masculino 2012-2013 en Morgan State University:
Altura (pulgadas) |
Peso (libras) |
---|---|
69 | 180 |
72 | 185 |
74 | 170 |
74 | 190 |
74 | 220 |
76 | 200 |
77 | 190 |
77 | 225 |
78 | 215 |
78 | 225 |
80 | 210 |
81 | 208 |
81 | 220 |
86 | 270 |
Cuadro 1.2.1 Selección masculina de basquetbol 2012-2013 en Morgan State University

Si mantienes ambas variables como variables de medición y analizas usando regresión lineal, obtienes un\(P\) valor de\(0.0007\); la relación es altamente significativa. Los basquetbolistas altos realmente son más pesados, como es obvio de la gráfica. Sin embargo, si divide las alturas en dos categorías, “corto” (\(77\)pulgadas o menos) y “alto” (más de\(77\) pulgadas) y compara los pesos medios de los dos grupos usando una prueba t —test de dos muestras, el\(P\) valor es\(0.043\), que apenas es significativo en la habitual\(P< 0.05\) nivel. Y si además divides los pesos en dos categorías, “ligero” (\(210\)libras y menos) y “pesado” (mayor que\(210\) libras), obtienes\(6\) quienes son bajos y livianos,\(2\) quiénes son bajos y pesados,\(2\) quiénes son altos y ligeros, y\(4\) quiénes son altos y pesados. La proporción de personas bajas que son pesadas no es significativamente diferente de la proporción de personas altas que son pesadas, cuando se analiza mediante la prueba exacta de Fisher (\(P=0.28\)). Entonces, al categorizar ambas variables de medición, se ha hecho que una relación obvia y altamente significativa entre la altura y el peso se vuelva completamente no significativa. Esto no es algo bueno. Creo que es mejor para la mayoría de los experimentos biológicos si no categorizas.
Artículos Likert
A los científicos sociales les gusta usar artículos Likert. Presentarán una declaración como:
“Es importante que todos los biólogos aprendan estadísticas”
y pedir a la gente que elija
- 1=Totalmente en desacuerdo
- 2=En desacuerdo
- 3=Ni de acuerdo ni en desacuerdo
- 4=De acuerdo,
- 5=Totalmente de acuerdo.
A veces usan siete valores en lugar de cinco, al agregar “Muy Muy en desacuerdo” y “Muy Muy Muy De Acuerdo”; y a veces se pide a las personas que califiquen su fuerza de acuerdo en una escala\(11\) de puntos\(9\) o puntos. Preguntas similares pueden tener respuestas como
- 1=Nunca
- 2=Rara vez
- 3=A veces
- 4=A menudo
- 5=Siempre
Estrictamente hablando, una escala Likert es el resultado de sumar las puntuaciones en varios ítems Likert. A menudo, sin embargo, un solo ítem Likert se llama escala Likert.
Hay mucha controversia sobre cómo analizar un ítem Likert. Una opción es tratarla como una variable nominal con cinco (o siete, o por muchos) elementos. Luego, los datos se resumirían por la proporción de personas que dan cada respuesta, y se analizarían mediante pruebas de chi-cuadrado o G —. No obstante, esto ignora el hecho de que los valores van en orden de menor acuerdo a más, lo cual es información bastante importante. Las otras opciones son tratarla como una variable clasificada o una variable de medición.
Tratar un ítem Likert como una variable de medición le permite resumir los datos usando una media y una desviación estándar, y analizar los datos usando las pruebas paramétricas familiares como anova y regresión. Un argumento en contra de tratar un ítem Likert como una variable de medición es que los datos tienen un pequeño número de valores que es poco probable que se distribuyan normalmente, pero las pruebas estadísticas utilizadas en las variables de medición no son muy sensibles a las desviaciones de la normalidad, y las simulaciones han demostrado que las pruebas para las variables de medición funcionan bien incluso con pequeños números de valores (Fagerland et al. 2011).
Un problema mayor es que las respuestas en un ítem Likert son solo subdivisiones burdas de alguna medida subyacente de sentimiento, y la diferencia entre “Totalmente en desacuerdo” y “No estoy de acuerdo” puede no ser del mismo tamaño que la diferencia entre “No estoy de acuerdo” y “Ni de acuerdo ni en desacuerdo”; en otras palabras, las respuestas no son una verdadera variable de “intervalo”. Como analogía, imagina que le preguntaste a un grupo de estudiantes universitarios:
“Cuánta televisión ven en una semana típica”
y les das las opciones de
- 0=Ninguno
- 1=Un poco
- 2=A Cantidad Moderada
- 3=Lote
- 4=Demasiado
Si las personas que dijeron “Un poco” ven una o dos horas a la semana, las personas que dijeron “Una cantidad moderada” miran de tres a nueve horas a la semana, y las personas que dijeron “Mucho” miran\(10\) a\(20\) horas a la semana, entonces la diferencia entre “Ninguno” y “Un poco” es mucho menor que la diferencia entre” Una Cantidad Moderada” y “Mucho”. Eso haría que tu escala de\(0-4\) puntos no fuera una variable de intervalo. Si tus datos realmente estuvieran en horas, entonces la diferencia entre\(0\) horas y\(1\) horas es del mismo tamaño que la diferencia entre\(19\) horas y\(20\) horas; “horas” sería una variable de intervalo.
Personalmente, no veo cómo tratar los valores de un ítem Likert como una variable de medición provocará problemas estadísticos. Se trata, en esencia, de una transformación de datos: aplicar una función matemática a una variable para llegar a una nueva variable. En química, el pH es la base del recíproco\(10 log\) de la actividad del hidrógeno, por lo que la diferencia en la actividad del hidrógeno entre una\(6\) solución de pH\(5\) y pH es mucho mayor que la diferencia entre pH\(8\) y pH 9. Pero no creo que nadie se oponga a tratar el pH como una variable de medición. Convertir\(25-44\) en algún “índice de agreeicidad” subyacente a "\(2\)" y convertir\(45-54\) a ""\(3\) "no parece muy diferente de convertir la actividad de hidrógeno a pH, o micropascales de sonido a decibelios, o cuadrar la altura de una persona para calcular el índice de masa corporal.
La impresión que obtengo, al mirar brevemente la literatura, es que muchas de las personas que utilizan los artículos Likert en su investigación los tratan como variables de medición, mientras que la mayoría de los estadísticos piensan que esto es escandalosamente incorrecto. Creo que tratarlas como variables de medición tiene varias ventajas, pero debes considerar cuidadosamente la práctica en tu campo particular; siempre es mejor si estás hablando el mismo lenguaje estadístico que tus compañeros. Debido a que hay desacuerdo, debes incluir el número de personas que dan cada respuesta en tus publicaciones; esto proporcionará toda la información que otros investigadores necesitan para analizar tus datos utilizando la técnica que prefieran.
Todo lo anterior se aplica a las estadísticas realizadas en un solo ítem Likert. La práctica habitual es sumar un montón de artículos Likert en una escala Likert; un politólogo podría sumar los puntajes de las preguntas Likert sobre aborto, control de armas, impuestos, medio ambiente, etc. y llegar a una escala liberal vs. conservadora de 100 puntos. Una vez que se suman varios ítems Likert para hacer una escala Likert, parece haber menos objeción a tratar la suma como una variable de medición; incluso algunos estadísticos están de acuerdo con eso.
Variables independientes y dependientes
Otra forma de clasificar las variables es como variables independientes o dependientes. Una variable independiente (también conocida como variable predictora, explicativa o de exposición) es una variable que crees que puede causar un cambio en una variable dependiente (también conocida como variable de resultado o respuesta). Por ejemplo, si cultivas isópodos con\(10\) diferentes concentraciones de manosa en sus alimentos y mide su tasa de crecimiento, la concentración de manosa es una variable independiente y la tasa de crecimiento es una variable dependiente, porque piensas que diferentes concentraciones de manosa pueden causar diferentes tasas de crecimiento . Cualquiera de los tres tipos de variables (medición, nominal o clasificada) puede ser independiente o dependiente. Por ejemplo, si quieres saber si el sexo afecta la temperatura corporal en ratones, el sexo sería una variable independiente y la temperatura sería una variable dependiente. Si quisieras saber si la temperatura de incubación de los huevos afecta al sexo en las tortugas, la temperatura sería la variable independiente y el sexo sería la variable dependiente.
Como verás en las descripciones de pruebas estadísticas particulares, a veces es importante decidir cuál es la variable independiente y cuál es la dependiente; determinará si debes analizar tus datos con una prueba t —test de dos muestras o una regresión logística simple, por ejemplo. Otras veces no es necesario decidir si una variable es independiente o dependiente. Por ejemplo, si mides el contenido de nitrógeno del suelo y la densidad de las plantas de diente de león, podrías pensar que el contenido de nitrógeno es una variable independiente y la densidad del diente de león es una variable dependiente; estarías pensando que el contenido de nitrógeno podría afectar dónde viven las plantas de diente de león. Pero tal vez los dientes de león usan mucho nitrógeno del suelo, por lo que es la densidad del diente de león la que debería ser la variable independiente. O tal vez alguna tercera variable que no mediste, como el contenido de humedad, afecta tanto el contenido de nitrógeno como la densidad del diente de león. Para su experimento inicial, que analizaría usando correlación, no necesitaría clasificar el contenido de nitrógeno o la densidad del diente de león como independientes o dependientes. Si encontraste una asociación entre las dos variables, probablemente querrías hacer un seguimiento con experimentos en los que manipulaste el contenido de nitrógeno (convirtiéndolo en una variable independiente) y observaste la densidad del diente de león (convirtiéndolo en una variable dependiente), y otros experimentos en los que manipulaste el diente de león densidad (convirtiéndola en una variable independiente) y observó el cambio en el contenido de nitrógeno (convirtiéndola en la variable dependiente).
Referencias
- Fagerland, M. W., L. Sandvik, y P. Mowinckel. 2011. Los métodos paramétricos superaron a los métodos no paramétricos en comparaciones de variables numéricas discretas. Metodología de la Investigación Médica BMC 11:44.
- MacCallum, R. C., S. B. Zhang, K. J. Predicador, y D. D. Rucker. 2002. Sobre la práctica de dicotomización de variables cuantitativas. Métodos Psicológicos 7:19-40.
- Zar, J.H. 1999. Análisis bioestadístico. 4ª edición. Prentice Hall, Upper Saddle River, Nueva Jersey.