3.1: Estadística de Tendencia Central
- Page ID
- 149205
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Objetivos de aprendizaje
- Una estadística de tendencia central te dice dónde está la mitad de un conjunto de mediciones. La media aritmética es, con mucho, la más común, pero la mediana, la media geométrica y la media armónica son a veces útiles.
Introducción
Todas las pruebas de la primera parte de este manual han analizado variables nominales. Resume los datos de una variable nominal como porcentaje o proporción. Por ejemplo,\(76.1\%\) (o\(0.761\)) de los guisantes en uno de los cruces genéticos de Mendel eran lisos, y\(23.9\%\) estaban arrugados. Si tienes el porcentaje y el tamaño de la muestra (\(556\), para los guisantes Mendel), tienes toda la información que necesitas sobre la variable.
El resto de pruebas de este manual analizan variables de medición. Resumir datos de una variable de medición es más complicado, y requiere un número que represente el “centro” de un conjunto de números (conocido como “estadística de tendencia central” o “estadística de ubicación”), junto con una medida del “spread” de los números (conocido como “estadística de dispersión”). La media aritmética es el estadístico más común de tendencia central, mientras que la varianza o desviación estándar se suele utilizar para describir la dispersión.
Las pruebas estadísticas para las variables de medición suponen que la distribución de probabilidad de las observaciones se ajusta a la curva normal (en forma de campana). Si esto es cierto, la distribución se puede describir con precisión mediante dos parámetros, la media aritmética y la varianza. Debido a que asumen que la distribución de las variables puede ser descrita por estos dos parámetros, las pruebas para las variables de medición se denominan “pruebas paramétricas”. Si la distribución de una variable no se ajusta a la curva normal, no se puede describir con precisión solo por estos dos parámetros, y los resultados de una prueba paramétrica pueden ser inexactos. En ese caso, los datos pueden convertirse a rangos y analizarse mediante una prueba no paramétrica, que es menos sensible a las desviaciones de la normalidad.
La distribución normal
Muchas variables de medición en biología se ajustan bastante bien a la distribución normal. Según el teorema del límite central, si se tienen varias variables diferentes que cada una tiene alguna distribución de valores y las suman juntas, la suma sigue bastante bien la distribución normal. No importa cuál sea la forma de la distribución de las variables individuales, la suma seguirá siendo normal. La distribución de la suma se ajusta más estrechamente a la distribución normal a medida que aumenta el número de variables. Las gráficas a continuación son histogramas de frecuencia de\(5,000\) números. La primera gráfica muestra la distribución de un solo número con una distribución uniforme entre\(0\) y\(1\). Las otras gráficas muestran las distribuciones de las sumas de dos, tres o cuatro números aleatorios con la misma distribución.

Como puede ver, a medida que se suman más números aleatorios, la distribución de frecuencia de la suma se acerca rápidamente a una curva en forma de campana. Esto es análogo a una variable biológica que es el resultado de varios factores diferentes. Por ejemplo, digamos que has capturado\(100\) lagartos y medido su velocidad máxima de carrera. La velocidad de carrera de un lagarto individual sería función de su genotipo en muchos genes; su nutrición a medida que crecía; las enfermedades que ha tenido; qué tan lleno está su estómago ahora; cuánta agua se bebe; y lo motivado que está para correr rápido en un hipódromo de lagartos. Cada una de estas variables podría no estar normalmente distribuida; el efecto de la enfermedad podría ser restar\(10\; cm/sec\) si ha tenido enfermedad retardadora de lagartos, o agregar\(20\; cm/sec\) si no lo ha hecho; el efecto del gen A podría ser sumar\(25\; cm/sec\) para genotipo\(AA\),\(20\; cm/sec\) para genotipo\(Aa\), o \(15\; cm/sec\)para genotipo\(aa\). A pesar de que las variables individuales podrían no tener efectos distribuidos normalmente, la velocidad de ejecución que es la suma de todos los efectos se distribuiría normalmente.
Si los diferentes factores interactúan de manera multiplicativa, no aditiva, la distribución será logarítmica normal. Un ejemplo sería si el efecto de la enfermedad retardadora de lagartos no es restar\(10\; cm/sec\) de la velocidad promedio, sino reducir la velocidad por\(10\%\) (en otras palabras, multiplicar la velocidad por\(0.9\)). La distribución de una variable logarítmica normal se verá como una curva de campana que ha sido empujada hacia la izquierda, con una cola larga que va hacia la derecha. Tomando el log de dicha variable producirá una distribución normal. Es por ello que la transformación logarítmica se usa con tanta frecuencia.

La figura anterior muestra la distribución de frecuencias para el producto de cuatro números, teniendo cada número una distribución aleatoria uniforme entre\(0.5\) y\(1\). La gráfica de la izquierda muestra el producto no transformado; la gráfica de la derecha es la distribución de los productos transformados logarítmicos.
Diferentes medidas de tendencia central
Si bien la media aritmética es, con mucho, la estadística más utilizada de tendencia central, debes estar al tanto de algunas otras.
Media aritmética
La media aritmética es la suma de las observaciones dividida por el número de observaciones. Es la estadística más común de tendencia central, y cuando alguien dice simplemente “la media” o “la media”, esto es lo que quiere decir. A menudo se simboliza poniendo una barra sobre una letra; la media de\(Y_1,\; Y_2,\; Y_3,...\) es\(Y\).
La media aritmética funciona bien para valores que se ajustan a la distribución normal. Es sensible a valores extremos, lo que hace que no funcione bien para datos que están muy sesgados. Por ejemplo, imagina que estás midiendo las alturas de los abetos en una zona donde\(99\%\) de árboles hay árboles jóvenes, de aproximadamente un\(1\) metro de altura, que crecieron después de un incendio, y\(1\%\) de los árboles son árboles de\(50\) -metros de altura que sobrevivieron al fuego. Si una muestra de\(20\) árboles incluyera a uno de los gigantes, la altura media aritmética sería\(3.45\) metros; una muestra que no incluyera un árbol grande tendría una altura media de aproximadamente\(1\) metro. La media de una muestra variaría mucho, dependiendo de si pasó o no incluir un árbol grande.
En una hoja de cálculo, la media aritmética viene dada por la función PROMEDIO (Ys), donde\(Ys\) representa un listado de celdas (\(A2,\; B7,\; B9\)) o un rango de celdas (\(A2:A20\)) o ambas (\(A2,\; B7,\; B9:B21\)). Tenga en cuenta que las hojas de cálculo solo cuentan aquellas celdas que tienen números en ellas; podría ingresar PROMEDIO (\(A1:A100\)), poner números en celdas\(A1\; to\; A9\), y la hoja de cálculo calcularía correctamente la media aritmética de esos\(9\) números. Esto es cierto para otras funciones que operan en un rango de celdas.
Media geométrica
La media geométrica es la\(N^{th}\) raíz del producto de\(N\) valores de\(Y\); por ejemplo, la media geométrica de\(5\) valores de\(Y\) sería la\(5^{th}\) raíz de\(Y_1\times Y_2\times Y_3\times Y_4\times Y_5\). Está dada por la función de hoja de cálculo GEOMEAN (\(Ys\)). La media geométrica se utiliza para variables cuyo efecto es multiplicativo. Por ejemplo, si un árbol aumenta su altura en\(60\%\) un año,\(8\%\) el año siguiente, y\(4\%\) el tercer año, su altura final sería la altura inicial multiplicada por\(1.60\times 1.08\times 1.04=1.80\). Tomar la media geométrica de estos números (\(1.216\)) y multiplicarla por sí misma tres veces también da la altura final correcta (\(1.80\)), mientras que tomar la media aritmética (\(1.24\)) por sí misma tres veces no da la altura final correcta. La media geométrica es ligeramente menor que la media aritmética; a menos que los datos estén muy sesgados, la diferencia entre las medias aritméticas y geométricas es pequeña.
Si alguno de tus valores es cero o negativo, la media geométrica será indefinida.
La media geométrica tiene algunas aplicaciones útiles en economía que involucran tasas de interés, etc., pero rara vez se usa en biología. Debes ser consciente de que existe, pero no veo sentido memorizar la definición.
Media armónica
La media armónica es la recíproca de la media aritmética de los recíprocos de los valores; por ejemplo, la media armónica de\(5\) valores de\(Y\) sería\(\frac{5}{1/Y_1+1/Y_2+1/Y_3+1/Y_4+1/Y_5}\). Está dada por la función de hoja de cálculo HARMEAN (\(Ys\)). La media armónica es menos sensible a unos pocos valores grandes que la media aritmética o geométrica, por lo que a veces se usa para variables altamente sesgadas como la distancia de dispersión. Por ejemplo, si seis aves establecen su primer nido\(1.0,\; 1.4,\; 1.7,\; 2.1,\; 2.8,\; and\; 47\; km\) del nido en el que nacieron, la distancia de dispersión media aritmética sería\(9.33\; km\), la media geométrica sería\(2.95\; km\), y la media armónica sería\(1.90\; km\).
Si alguno de tus valores es cero, la media armónica será indefinida.
Creo que la media armónica tiene algunas aplicaciones útiles en ingeniería, pero rara vez se usa en biología. Debes ser consciente de que existe, pero no veo sentido memorizar la definición.
Mediana
Cuando los\(Ys\) se ordenan de menor a mayor, este es el valor de\(Y\) que se encuentra en el medio. Para un número impar de\(Ys\), la mediana es el valor único de\(Y\) en el medio de la lista ordenada; para un número par, es la media aritmética de los dos valores de\(Y\) en el medio. Así, para una lista ordenada de\(5\)\(Ys\), la mediana sería\(Y_3\); para una lista ordenada de\(6\)\(Y\) s, la mediana sería la media aritmética de\(Y_3\) y\(Y_4\). La mediana viene dada por la función de hoja de cálculo MEDIAN (Ys).
La mediana es útil cuando se trata de distribuciones altamente sesgadas. Por ejemplo, si estuvieras estudiando la dispersión de bellotas, podrías encontrar que la gran mayoría de bellotas caen\(5\) a metros del árbol, mientras que un pequeño número son arrastradas a\(500\) metros por las aves. La media aritmética de las distancias de dispersión estaría muy inflada por el pequeño número de bellotas de larga distancia. Dependería de la pregunta biológica que te interesara, pero para algunos fines una distancia mediana de dispersión de\(3.5\) metros podría ser una estadística más útil que una distancia media de dispersión de\(50\) metros.
La segunda situación en la que la mediana es útil es cuando no es práctico medir todos los valores, como cuando se está midiendo el tiempo hasta que algo sucede. El tiempo de supervivencia es un buen ejemplo de esto; para determinar el tiempo medio de supervivencia, hay que esperar hasta que cada individuo esté muerto, mientras que determinar el tiempo de supervivencia medio solo requiere esperar hasta que la mitad de los individuos estén muertos.
Existen pruebas estadísticas para medianas, como la prueba mediana de Mood, pero no mucha gente las usa por su falta de poder, y no las discuto en este manual. Si estás trabajando con tiempos de supervivencia de organismos de larga vida (como las personas), necesitarás aprender sobre las estadísticas especializadas para eso; Bewick et al. (2004) es un lugar para comenzar.
Modo
Este es el valor más común en un conjunto de datos. Requiere que una variable continua se agrupe en un número relativamente pequeño de clases, ya sea haciendo mediciones imprecisas o agrupando los datos en clases. Por ejemplo, si las alturas de\(25\) las personas se midieran al milímetro más cercano, probablemente habría valores\(25\) diferentes y por lo tanto ningún modo. Si las alturas se midieran a los\(5\) centímetros más cercanos, o si las medidas precisas originales se agruparan en clases de\(5\) centímetros, probablemente habría una altura que varias personas compartieran, y esa sería la modalidad.
Rara vez es útil determinar el modo de un conjunto de observaciones, pero es útil distinguir entre distribuciones unimodales, bimodales, etc., donde parece que la distribución de frecuencia paramétrica subyacente a un conjunto de observaciones tiene un pico, dos picos, etc. El modo viene dado por la hoja de cálculo función MODO (Ys).
Ejemplo

La Encuesta Biológica de Corrientes de Maryland utilizó la electropesca para contar el número de individuos de cada especie de peces en segmentos\(75m\) largos seleccionados al azar de arroyos en Maryland. Aquí están los números de dace de nariz negra, Rhinichthys atratulus, en arroyos de la cuenca de Rock Creek:
Stream | peces/75m |
---|---|
Mill_Creek_1 | 76 |
Mill_Creek_2 | 102 |
North_Branch_Rock_Creek_1 | 12 |
North_Branch_Rock_Creek_2 | 39 |
Rock_Creek_1 | 55 |
Rock_Creek_2 | 93 |
Rock_Creek_3 | 98 |
Rock_Creek_4 | 53 |
Turquía_Sucursal | 102 |
Aquí están las estadísticas de tendencia central. En realidad, rara vez tendrías alguna razón para reportar más de uno de estos:
Media aritmética | 70.0 |
Media geométrica | 59.8 |
Media armónica | 45.1 |
Mediana | 76 |
Modo | 102 |
Cómo calcular las estadísticas
Hoja de Cálculo
He hecho una hoja de cálculo de estadística descriptiva descriptive.xls que calcula las medias aritméticas, geométricas y armónicas, la mediana, y el modo, para hasta\(1000\) observaciones.
Páginas web
Esta página web calcula la media aritmética y la mediana para hasta\(10,000\) observaciones. También calcula la desviación estándar, el error estándar de la media y los intervalos de confianza.
R
El\(R\) compañero de Salvatore Mangiafico tiene programas R de muestra para media, mediana y modo.
SAS
Hay tres procedimientos SAS que hacen estadística descriptiva, PROC MEANS, PROC RESUMEN y PROC UNIVARIATE. No sé por qué hay tres. PROC UNIVARIATE calculará una lista más larga de estadísticas, por lo que también podría usarla. Aquí hay un ejemplo, usando los datos de peces de arriba.
DATA fish;
INPUT location $ dacenumber;
DATALINES;
Mill_Creek_1 76 Mill_Creek_2 102
North_Branch_Rock_Creek_1 12
North_Branch_Rock_Creek_2 39
Rock_Creek_1 55
Rock_Creek_2 93
Rock_Creek_3 98
Rock_Creek_4 53
Turkey_Branch 102
;
PROC UNIVARIATE data=Fish;
RUN;
Hay mucha salida de PROC UNIVARIATE, incluyendo la media aritmética, la mediana y el modo:
Medidas estadísticas básicas Variabilidad de
ubicación
Media 70.0000 Desviación estándar 32.08582
Mediana 76.0000 Varianza 1030
Modo 102.0000 Rango 90.00000
Intercuartil Rango 45.00000
Puede especificar qué variables desea la media, la mediana y el modo de, utilizando una instrucción VAR. También puede obtener las estadísticas solo para aquellos valores de la variable de medición que tengan un valor particular de una variable nominal, usando una instrucción CLASS. Este ejemplo calcula las estadísticas para la longitud de mejillones, por separado para cada una de las dos especies, Mytilus edulis y M. trossulus.
DATOS mejillones; especies
INPUT $ largo ancho;
DATALINES;
edulis 49.0 11.0
tross 51.2 9.1
tross 45.9 9.4
edulis 56.2 13.2
edulis 52.7 10.7
edulis 48.4 10.4
tross 47.6 9.5
tross 46.2 8.9
tross 37.2 7.1
;
PROC UNIVARIATE data=mejillones; longitud
VAR; especie
CLASE;
RUN;
Sorprendentemente, ninguno de los procedimientos SAS calcula la media armónica o geométrica. Existen funciones llamadas HARMEAN y GEOMEAN, pero solo calculan las medias para una lista de variables, no todos los valores de una sola variable.
Referencias
Datos de dace de nariz negra de Maryland Biological Stream Survey.
Bewick, V., L. Cheek, y J. Ball. 2004. Revisión estadística 12: Análisis de supervivencia. Cuidados Críticos 8:389-394.