Saltar al contenido principal
LibreTexts Español

1.1: Pasos de análisis de datos

  • Page ID
    149125
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)
    Objetivos de aprendizaje
    • Cómo determinar la mejor manera de analizar un experimento biológico

    Cómo determinar la prueba estadística apropiada

    Un enfoque sistemático y paso a paso es la mejor manera de decidir cómo analizar los datos biológicos. Se recomienda que siga estos pasos:

    1. Especifique la pregunta biológica que está haciendo.
    2. Poner la pregunta en forma de hipótesis nula biológica e hipótesis alternativa.
    3. Poner la pregunta en forma de hipótesis estadística nula e hipótesis alterna.
    4. Determinar qué variables son relevantes para la pregunta.
    5. Determinar qué tipo de variable es cada una.
    6. Diseñar un experimento que controle o aleatoriice las variables de confusión.
    7. Con base en el número de variables, los tipos de variables, el ajuste esperado a los supuestos paramétricos y la hipótesis a probar, elija la mejor prueba estadística para usar.
    8. Si es posible, realice un análisis de potencia para determinar un buen tamaño de muestra para el experimento.
    9. Haz el experimento.
    10. Examine los datos para ver si cumple con los supuestos de la prueba estadística que eligió (principalmente normalidad y homocedasticidad para pruebas de variables de medición). Si no lo hace, elija una prueba más adecuada.
    11. Aplica la prueba estadística que elegiste, e interpreta los resultados.
    12. Comunique sus resultados de manera efectiva, generalmente con una gráfica o tabla.

    A medida que trabajes tu camino a través de este libro de texto, aprenderás sobre las diferentes partes de este proceso. Un punto importante para que recuerdes: “haz el experimento” es el paso 9, no el paso 1. Debes pensar mucho, planear y tomar decisiones antes de hacer un experimento. Si haces esto, tendrás un experimento que es fácil de entender, fácil de analizar e interpretar, responde a las preguntas que intentas responder, y no es ni demasiado grande ni demasiado pequeño. Si solo abofetean un experimento sin pensar en cómo van a hacer las estadísticas, pueden terminar necesitando pruebas estadísticas más complicadas y oscuras, obteniendo resultados difíciles de interpretar y explicar a los demás, y tal vez usando demasiados temas (desperdiciando así sus recursos) o demasiado pocos sujetos (desperdiciando así todo el experimento).

    Aquí hay un ejemplo de cómo funciona el procedimiento. Verrelli y Eanes (2001) midieron el contenido de glucógeno en individuos de Drosophila melanogaster. Las moscas fueron polimórficas en el locus genético que codifica para la enzima fosfoglucomutasa (PGM). En el sitio\(52\) en la secuencia de la proteína PGM, las moscas tenían una valina o una alanina. En el sitio\(484\), tenían ya sea una valina o una leucina. Las cuatro combinaciones de aminoácidos (V-V, V-L, A-V, A-L) estuvieron presentes.

    Fig. 1.1.1 Drosophila melanogaster
    1. Una pregunta biológica es “¿Los polimorfismos de aminoácidos en el locus Pgm tienen un efecto sobre el contenido de glucógeno?” La pregunta biológica suele ser algo sobre los procesos biológicos, a menudo en la forma “¿El cambio\(X\) causa un cambio en\(Y\)?” Es posible que desee saber si un medicamento cambia la presión arterial; si el pH del suelo afecta el crecimiento de los arbustos de arándanos; o si la proteína Rab10 media el transporte de membrana a los cilios.
    2. La hipótesis biológica nula es “Diferentes secuencias de aminoácidos no afectan las propiedades bioquímicas de PGM, por lo que el contenido de glucógeno no se ve afectado por la secuencia de PGM”. La hipótesis alternativa biológica es “Diferentes secuencias de aminoácidos sí afectan las propiedades bioquímicas de PGM, por lo que el contenido de glucógeno se ve afectado por la secuencia PGM”. Al pensar en las hipótesis biológicas nulas y alternativas, te estás asegurando de que tu experimento dará diferentes resultados para diferentes respuestas a tu pregunta biológica.
    3. La hipótesis estadística nula es “Las moscas con diferentes secuencias de la enzima PGM tienen el mismo contenido promedio de glucógeno”. La hipótesis alternativa es “Las moscas con diferentes secuencias de PGM tienen diferentes contenidos promedio de glucógeno”. Si bien las hipótesis biológicas nulas y alternativas son sobre procesos biológicos, las hipótesis estadísticas nulas y alternativas son todas sobre los números; en este caso, los contenidos de glucógeno son iguales o diferentes. Probar tu hipótesis estadística nula es el tema principal de este manual, y debería darte una respuesta clara; rechazarás o aceptarás ese nulo estadístico. Si rechazar una hipótesis estadística nula es evidencia suficiente para responder a tu pregunta biológica puede ser una decisión más difícil, más subjetiva; puede haber otras posibles explicaciones para tus resultados, y tú como experto en tu área especializada de biología tendrás que considerar cuán plausibles son.
    4. Las dos variables relevantes en el experimento de Verrelli y Eanes son el contenido de glucógeno y la secuencia PGM.
    5. El contenido de glucógeno es una variable de medición, algo que se registra como un número que podría tener muchos valores posibles. La secuencia de PGM que tiene una mosca (V-V, V-L, A-V o A-L) es una variable nominal, algo con un pequeño número de valores posibles (cuatro, en este caso) que se suelen registrar como una palabra.
    6. Otras variables que podrían ser importantes, como la edad y dónde en un vial la mosca pupa, fueron controladas (se utilizaron moscas de todas la misma edad) o aleatorias (las moscas se tomaron aleatoriamente de los viales sin tener en cuenta dónde puparon). También habría sido posible observar las variables de confusión; por ejemplo, Verrelli y Eanes podrían haber utilizado moscas de diferentes edades, para luego utilizar una técnica estadística que se ajustó para la edad. Esto habría hecho que el análisis fuera más complicado de realizar y más difícil de explicar, y si bien podría haber resultado algo interesante sobre la edad y el contenido de glucógeno, no habría ayudado a abordar la principal cuestión biológica sobre el genotipo PGM y el contenido de glucógeno.
    7. Debido a que el objetivo es comparar las medias de una variable de medición entre grupos clasificados por una variable nominal, y hay más de dos categorías, la prueba estadística apropiada es un anova unidireccional. Una vez que sepas qué variables estás analizando y de qué tipo son, el número de posibles pruebas estadísticas suele estar limitado a una o dos (al menos para las pruebas que presento en este manual).
    8. Un análisis de potencia habría requerido una estimación de la desviación estándar del contenido de glucógeno, que probablemente podría haberse encontrado en la literatura publicada, y un número para el tamaño del efecto (la variación en el contenido de glucógeno entre genotipos que los experimentadores querían detectar). En este experimento, cualquier diferencia en el contenido de glucógeno entre genotipos sería interesante, por lo que los experimentadores solo usaron tantas moscas como fuera práctico en el tiempo disponible.
    9. Se realizó el experimento: se midió el contenido de glucógeno en moscas con diferentes secuencias PGM.
    10. El anova asume que la variable de medición, el contenido de glucógeno, es normal (la distribución se ajusta a la curva normal en forma de campana) y homoscedástica (las varianzas en el contenido de glucógeno de las diferentes secuencias de PGM son iguales), e inspeccionando histogramas de los datos muestra que los datos se ajustan a estos supuestos. Si los datos no hubieran cumplido con los supuestos del anova, la prueba de Kruskal—Wallis o la prueba de Welch podrían haber sido mejores.
    11. El anova unidireccional se realizó, utilizando una hoja de cálculo, página web o programa de computadora, y el resultado del anova es un\(P\) valor menor que\(0.05\). La interpretación es que las moscas con algunas secuencias de PGM tienen un contenido promedio de glucógeno diferente al de las moscas con otras secuencias de PGM.
    12. Los resultados podrían resumirse en una tabla, pero una forma más efectiva de comunicarlos es con una gráfica:
    Fig. 1.1.2 Contenido de glucógeno en Drosophila melanogaster. Cada barra representa el contenido medio de glucógeno (en microgramos por mosca) de 12 moscas con el haplotipo PGM indicado. Las barras estrechas representan intervalos de confianza del 95%.

    Referencias

    1. Imagen de Drosophila melanogaster de Farkleberries.
    2. Verrelli, B.C., y W.F. Eanes. 2001. Impacto funcional del polimorfismo de aminoácidos PGM sobre el contenido de glucógeno en Drosophila melanogaster. Genética 159:201-210. (Tenga en cuenta que para los fines de esta página web, he utilizado una prueba estadística diferente a la que hicieron Verrelli y Eanes. Estaban interesados en las interacciones entre los polimorfismos de aminoácidos individuales, por lo que utilizaron un anova bidireccional).

    This page titled 1.1: Pasos de análisis de datos is shared under a not declared license and was authored, remixed, and/or curated by John H. McDonald via source content that was edited to the style and standards of the LibreTexts platform.