Saltar al contenido principal
LibreTexts Español

4.6: Transformaciones de datos

  • Page ID
    149136
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje
    • Aprender a usar la transformación de datos si una variable de medición no se ajusta a una distribución normal o tiene desviaciones estándar muy diferentes en diferentes grupos.

    Introducción

    Muchas variables biológicas no cumplen con los supuestos de las pruebas estadísticas paramétricas: normalmente no se distribuyen, las desviaciones estándar no son homogéneas, o ambas. El uso de una prueba estadística paramétrica (como un anova o regresión lineal) en dichos datos puede dar un resultado engañoso. En algunos casos, transformar los datos hará que se ajuste mejor a los supuestos.

    Fig. 4.6.1 Histogramas del número de peces de lodo orientales por 75 m de sección de arroyo (muestras con 0 peces de lodo excluidas). Datos sin transformar a la izquierda, datos transformados logarítmicos a la derecha.

    Para transformar datos, realiza una operación matemática en cada observación, luego usa estos números transformados en su prueba estadística. Por ejemplo, como se muestra en la primera gráfica anterior, la abundancia de las especies de peces Umbra pygmaea (minnow oriental) en arroyos de Maryland no se distribuye normalmente; hay muchos arroyos con una pequeña densidad de peces de lodo, y algunos arroyos con muchos de ellos. Aplicar la transformación logarítmica hace que los datos sean más normales, como se muestra en la segunda gráfica.

    Fig. 4.6.2 Minnow de lodo oriental (Umbra pygmaea).

    Aquí están\(12\) los números del conjunto de datos mudminnow; la primera columna son los datos no transformados, la segunda columna es la raíz cuadrada del número en la primera columna, y la tercera columna es el\(10\) logaritmo base del número en la primera columna.

    Sin transformar Raíz cuadrada
    transformada
    Log
    transformado
    38 6.164 1.580
    1 1.000 0.000
    13 3.606 1.114
    2 1.414 0.301
    13 3.606 1.114
    20 4.472 1.301
    50 7.071 1.699
    9 3.000 0.954
    28 5.292 1.447
    6 2.449 0.778
    4 2.000 0.602
    43 6.557 1.633

    Tú haces las estadísticas sobre los números transformados. Por ejemplo, la media de los datos no transformados es\(18.9\); la media de los datos transformados de raíz cuadrada es\(3.89\); la media de los datos transformados logarítmicos es\(1.044\). Si estuvieras comparando la abundancia de peces en diferentes cuencas hidrográficas y decidieras que la transformación logarítmica era la mejor, harías un anova unidireccional sobre los registros de abundancia de peces, y probarías la hipótesis nula de que las medias de las abundancias transformadas logarítmicas eran iguales.

    Transformación de espalda

    Aunque hayas realizado una prueba estadística sobre una variable transformada, como el log de abundancia de peces, no es buena idea reportar tus medias, errores estándar, etc. en unidades transformadas. Una gráfica que mostrara que la media del tronco de peces por\(75m\) arroyo era no\(1.044\) sería muy informativa para alguien que no puede hacer exponentes fraccionarios en su cabeza. En cambio, deberías volver a transformar tus resultados. Esto implica hacer lo contrario de la función matemática que utilizó en la transformación de datos. Para la transformación logarítmica, volvería a transformarse elevando 10 a la potencia de su número. Por ejemplo, los datos logarítmicos transformados anteriores tienen una media\(1.044\) y un intervalo de\(95\%\) confianza de peces\(\pm 0.344\) transformados logarítmicos. La media retrotransformada sería el\(10^{1.044}=11.1\) pez. El límite de confianza superior sería\(10^{(1.044+0.344)}=24.4\) pescado, y el límite inferior de confianza sería\(10^{(1.044-0.344)}=5.0\) pescado. Obsérvese que el intervalo de confianza no es simétrico; el límite superior es\(13.3\) pez por encima de la media, mientras que el límite inferior es\(6.1\) pez por debajo de la media. También tenga en cuenta que no puede simplemente retrotransformar el intervalo de confianza y sumar o restarlo de la media retrotransformada; no puede tomar\(10^{0.344}\) y sumar o restar eso.

    Elegir la transformación correcta

    Las transformaciones de datos son una herramienta importante para el correcto análisis estadístico de los datos biológicos. A aquellos con un conocimiento limitado de las estadísticas, sin embargo, pueden parecer un poco sospechosos, una forma de jugar con tus datos para obtener la respuesta que deseas. Por lo tanto, es fundamental que seas capaz de defender tu uso de las transformaciones de datos.

    Hay un número infinito de transformaciones que podrías usar, pero es mejor usar una transformación que otros investigadores suelen usar en tu campo, como la transformación de raíz cuadrada para datos de conteo o la transformación de log para datos de tamaño. Incluso si una transformación oscura de la que no mucha gente ha oído hablar te da datos un poco más normales o más homoscedásticos, probablemente será mejor usar una transformación más común para que la gente no sospeche. Recuerda que tus datos no tienen que ser perfectamente normales y homoscedásticos; las pruebas paramétricas no son extremadamente sensibles a las desviaciones de sus suposiciones.

    También es importante que decidas qué transformación usar antes de hacer la prueba estadística. Probar diferentes transformaciones hasta que encuentres una que te dé un resultado significativo es hacer trampa. Si se tiene un gran número de observaciones, compare los efectos de diferentes transformaciones sobre la normalidad y la homocedasticidad de la variable. Si tienes un pequeño número de observaciones, es posible que no puedas ver mucho efecto de las transformaciones sobre la normalidad y la homocedasticidad; en ese caso, deberías usar cualquier transformación que las personas en tu campo usen rutinariamente para tu variable. Por ejemplo, si estás estudiando la distancia de dispersión de polen y otras personas la transforman de forma rutinaria, también deberías transformar log-transformar la distancia del polen, incluso si solo tienes\(10\) observaciones y por lo tanto no puedes mirar realmente la normalidad con un histograma.

    Transformaciones comunes

    Hay muchas transformaciones que se utilizan ocasionalmente en biología; aquí hay tres de las más comunes:

    Transformación de troncos

    Esto consiste en tomar el registro de cada observación. Puede usar\(10\) registros base (LOG en una hoja de cálculo, LOG10 en SAS) o registros base, también conocidos como\(e\) registros naturales (LN en una hoja de cálculo, LOG en SAS). No hace diferencia para una prueba estadística si usa\(10\) registros base o registros naturales, porque difieren por un factor constante; el\(10\) log base de un número es justo\(2.303…\times \text{the\; natural\; log\; of\; the\; number}\). Debes especificar qué registro estás usando cuando escribes los resultados, ya que afectará cosas como la pendiente e interceptar en una regresión. Prefiero\(10\) bitácoras base, porque es posible mirarlas y ver la magnitud del número original:\(log(1)=0,\; log(10)=1,\; log(100)=2\), etc.

    La transformación posterior es elevar\(10\) o\(e\) a la potencia del número; si la media de sus datos\(10\) transformados logarítmicos base es\(1.43\), la media transformada hacia atrás es\(10^{1.43}=26.9\) (en una hoja de cálculo, “=10^1.43"). Si la media de sus datos transformados logarítmicos de base e es\(3.65\), la media transformada hacia atrás es\(e^{3.65}=38.5\) (en una hoja de cálculo, “=EXP (3.65)”. Si tienes ceros o números negativos, no puedes tomar el registro; debes agregar una constante a cada número para que sean positivos y distintos de cero. Si tienes datos de conteo, y algunos de los recuentos son cero, la convención es agregar\(0.5\) a cada número.

    Muchas variables en biología tienen distribuciones log-normales, lo que significa que después de la transformación logarítmica, los valores se distribuyen normalmente. Esto se debe a que si tomas un montón de factores independientes y los multiplica juntos, el producto resultante es log-normal. Por ejemplo, digamos que has plantado un montón de semillas de arce, entonces\(10\) años después ves lo altos que son los árboles. La altura de un árbol individual se vería afectada por el nitrógeno en el suelo, la cantidad de agua, la cantidad de luz solar, la cantidad de daño por insectos, etc. Tener más nitrógeno podría hacer que un árbol sea más\(10\%\) grande que uno con menos nitrógeno; la cantidad correcta de agua podría hacerlo\(30\%\) más grande que uno con demasiado mucha o muy poca agua; más luz solar podría hacerla más\(20\%\) grande; menos daño por insectos podría hacerlo\(15\%\) más grande, etc. Así el tamaño final de un árbol sería una función de\(\text{nitrogen}\times \text{water}\times \text{sunlight}\times \text{insects}\), y matemáticamente, este tipo de función resulta ser logarítmica normal.

    Transformación de raíz cuadrada

    Esto consiste en tomar la raíz cuadrada de cada observación. La transformación posterior es para cuadrar el número. Si tienes números negativos, no puedes tomar la raíz cuadrada; debes agregar una constante a cada número para que todos sean positivos.

    La gente suele utilizar la transformación de raíz cuadrada cuando la variable es un recuento de algo, como colonias bacterianas por placa de Petri, células sanguíneas que pasan por un capilar por minuto, mutaciones por generación, etc.

    Transformación de arcoseno

    Esto consiste en tomar el arcoseno de la raíz cuadrada de un número. (El resultado se da en radianes, no grados, y puede variar desde\(-\pi /2\; to\; \pi /2\).) Los números a transformar arcoseno deben estar en el rango\(0\) a\(1\). Esto se usa comúnmente para proporciones, que van desde\(0\) hasta\(1\), como la proporción de peces de lodo orientales hembras que están infestadas por un parásito. Tenga en cuenta que este tipo de proporción es realmente una variable nominal, por lo que es incorrecto tratarla como una variable de medición, ya sea que la transforme o no la arcoseno. Por ejemplo, sería incorrecto contar el número de peces de lodo que están o no parasitados cada uno de varios arroyos en Maryland, tratar la proporción transformada de arcseno de hembras parasitadas en cada arroyo como una variable de medición, luego realizar una regresión lineal sobre estos datos vs. profundidad de corriente. Esto se debe a que las proporciones de arroyos con un tamaño de muestra más pequeño de peces tendrán una desviación estándar mayor que las proporciones de arroyos con muestras de peces más grandes, información que no se tiene en cuenta al tratar las proporciones transformadas con arcoseno como variables de medición. En su lugar, debe usar una prueba diseñada para variables nominales; en este ejemplo, debe hacer regresión logística en lugar de regresión lineal. Si insistes en usar la transformación arcoseno, a pesar de lo que te acabo de decir, la transformación hacia atrás es cuadrar el seno del número.

    Cómo transformar datos

    Hoja de Cálculo

    En una columna en blanco, ingresa la función apropiada para la transformación que hayas elegido. Por ejemplo, si desea transformar números que comiencen en la celda\(A2\), iría a la celda\(B2\) e ingresaría =LOG (A2) o =LN (A2) para registrar la transformación, =SQRT (A2) a la transformación de raíz cuadrada, o =ASIN (SQRT (A2)) a la transformada de arcseno. A continuación, copie la celda\(B2\) y péguela en todas las celdas en la columna\(B\) que están al lado de las celdas en la columna\(A\) que contienen datos. Para copiar y pegar los valores transformados en otra hoja de cálculo, recuerde usar el comando “Pegar especial...”, luego elija pegar “Valores”. El uso del comando “Pegar Especial... Valores” hace que Excel copie el resultado numérico de una ecuación, en lugar de la ecuación misma. (Si su hoja de cálculo es Calc, elija “Pegar especial” en el menú Editar, desmarque las casillas etiquetadas “Pegar todo” y “Fórmulas” y marque la casilla etiquetada “Números”).

    Para retrotransformar los datos, simplemente ingrese la inversa de la función que utilizó para transformar los datos. Para retrotransformar datos de registro transformados en celda\(B2\), ingrese =10^B2 para\(10\) registros base o =EXP (B2) para registros naturales; para datos transformados de raíz cuadrada, ingrese =B2^2; para datos transformados de arcoseno, ingrese =( SIN (B2)) ^2

    Páginas web

    No estoy al tanto de ninguna página web que haga transformaciones de datos.

    SAS

    Para transformar datos en SAS, lea en los datos originales, luego cree una nueva variable con la función apropiada. Este ejemplo muestra cómo crear dos nuevas variables, transformadas con raíz cuadrada y transformadas en log, de los datos mudminnow.

    DATA mudminnow;
    INPUT location $ banktype $ count;
    countlog=log10 (count);
    countsqrt=sqrt (count);
    DATALINES;
    Gwynn_1 bosque 38
    Gwynn_2 urbano 1
    Gwynn_3 urbano 13
    Jones_1 urbano 2
    Jones_2 bosque 13
    LGunpowder_1 bosque 20
    LGunpowder_2 campo 50
    LGunpowder_3 bosque 9
    BGunpowder_1 bosque 28
    BGunpowder_2 bosque 6
    BGunpowder_3 bosque 4
    BGunpowder_4 campo 43
    ;

    El conjunto de datos “mudminnow” contiene todas las variables originales (“location”, “banktype” y “count”) más las nuevas variables (“countlog” y “countsqrt”). Luego ejecutas el PROC que quieras y analizas estas variables como lo harías con cualquier otra. Por supuesto, este ejemplo hace dos transformaciones diferentes solo como ilustración; en realidad, debes decidir sobre una transformación antes de analizar tus datos.

    La función SAS para la transformación de arco X es ARSIN (SQRT (X)).

    Probablemente te resulte más fácil retrotransformar usando una hoja de cálculo o calculadora, pero si realmente quieres hacer todo en SAS, la función para llevar\(10\) a la\(X\) potencia es 10**X; la función para llevar\(e\) a una potencia es EXP (X); la función para cuadrar \(X\)es X**2; y la función para retrotransformar un número transformado de arcoseno es SIN (X) **2.

    Referencia

    Imagen de un minnow de El Acuario Virtual de Virginia.


    This page titled 4.6: Transformaciones de datos is shared under a not declared license and was authored, remixed, and/or curated by John H. McDonald via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.