Saltar al contenido principal
LibreTexts Español

1.4: Descripciones numéricas de los datos I: Medidas del Centro

  • Page ID
    149757
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Por extraño que parezca, hay varias medidas de tendencia central, como se llaman formas de definir el medio de un conjunto de datos. Hay diferentes trabajos por hacer para calcular cada uno de ellos, y tienen diferentes usos, fortalezas y debilidades.

    Para toda esta sección asumiremos que hemos recopilado valores\(n\) numéricos, los valores de nuestra variable cuantitativa para la muestra que pudimos estudiar. Cuando escribimos formul æ con estos valores, no podemos darles nombres de variables que parezcan\(a, b, c, \dots\), porque no sabemos dónde parar (¿y qué haríamos si\(n\) fueran más de 26?). En su lugar, usaremos las variables\(x_1, x_2, \dots, x_n\) para representar los valores de los datos.

    Un poco más de notación muy conveniente, una vez que hemos comenzado a escribir un número desconocido (\(n\)) de números\(x_1, x_2, \dots, x_n\), es una forma de escribir su suma:

    [def:summation] Si tenemos\(n\) números que escribimos\(x_1, \dots, x_n\), entonces usamos la notación de suma taquigráfica\(\sum x_i\) para representar la suma\(\sum x_i = x_1 + \dots + x_n\). 2

    [eg:subscriptssums] Si nuestro conjunto de datos fuera\(\{1, 2, 17, -3.1415, 3/4\}\), entonces\(n\) sería 5 y las variables se\(x_1, \dots, x_5\) definirían con valores\(x_1=1\),\(x_2=2\),\(x_3=17\),\(x_4=-3.1415\), y \(x_5=3/4\).

    Además 3, tendríamos\(\sum x_i = x_1+x_2+x_3+x_4+x_5=1+2+17-3.1415+ 3/4=17.6085\).

    Modo

    Primero discutamos probablemente la medida más simple de tendencia central, y de hecho una que fue presagiada por términos como “unimodal”.

    [def:mode] Un modo de un conjunto de datos\(x_1, \dots, x_n\) de\(n\) números es uno de los valores\(x_i\) que ocurre al menos con tanta frecuencia en el conjunto de datos como cualquier otro valor.

    Sería bueno decir esto de una manera más simple, algo así como “el modo es el valor que ocurre con mayor frecuencia en el conjunto de datos”, pero puede que no haya un solo número de ese tipo.

    EJEMPLO 1.4.4. Continuando con los datos del Ejemplo 1.3.1, es fácil ver, mirando la gráfica tallo y hoja, que tanto 73 como 90 son modos.

    Tenga en cuenta que en algunos de los histogramas que hicimos usando estos datos y diferentes anchos de bin, los bins que contenían 73 y 90 eran de la misma altura, mientras que en otros eran de diferentes alturas. Este es un ejemplo de cómo puede ser bastante difícil ver en un histograma dónde está el modo... o dónde están los modos s.

    Media

    La siguiente medida de tendencia central, y ciertamente la que más se escucha en la prensa, es simplemente la media. No obstante, en estadística, a esto se le da un nombre diferente.

    [def:mean] La media de un conjunto\(x_1, \dots, x_n\) de datos de\(n\) números viene dada por la fórmula\(\left(\sum x_i\right)/n\).

    Si los datos provienen de una muestra, usamos la notación\(\overline{x}\) para la media de la muestra.

    Si\(\{x_1, \dots, x_n\}\) es todos los datos de una población entera, usamos la notación\(\ \mu X\) [esta es la letra griega “mu”, pronunciada “mew”, para rimar con “nuevo”.] para la media poblacional.

    EJEMPLO 1.4.6. Como ya hemos calculado la suma de los datos en el Ejemplo 1.4.2 para ser\(17.6085\) y había\(5\) valores en el conjunto de datos, la media es\(\overline{x}=17.6085/5 = 3.5217\).

    EJEMPLO 1.4.7. Nuevamente usando los datos del Ejemplo 1.3.1, podemos calcular la media\(\overline{x}=\left(\sum x_i\right)/n =2246/30=74.8667\).

    Observe que la media en los dos ejemplos anteriores no fue uno de los valores de los datos. Esto es cierto con bastante frecuencia. Lo que eso significa es que la frase “el promedio lo que sea”, como en “la familia estadounidense promedio tiene\(X\)” o “el estudiante promedio lo hace\(Y\), no está hablando de ninguna familia en particular, y no debemos esperar que ninguna familia o estudiante en particular tener o hacer esa cosa. Alguien con educación estadística debería editar mentalmente cada frase así que escuche para ser en cambio algo así como “la media de la variable\(X\) en la población de todas las familias americanas es...”, o “la media de la variable\(Y\) en la población de todos los estudiantes es ...”, o lo que sea.

    Mediana

    Nuestra tercera medida de tendencia central no es el resultado de la aritmética, sino en lugar de poner los valores de los datos en orden creciente.

    DEFINICIÓN 1.4.8. Imagínese que hemos puesto los valores de un conjunto\(\{x_1, \dots, x_n\}\) de datos de\(n\) números en orden creciente (o al menos no decreciente), así que eso\(x_1\le x_2\le \dots \le x_n\). Entonces si\(n\) es impar, la mediana del conjunto de datos es el valor medio\(x_{(n+1)/2}\), mientras que si\(n\) es par, la mediana es la media de los dos números medios,\(\frac{x_{n/2}+x_{(n/2)+1}}{2}\).

    EJEMPLO 1.4.9. Trabajando con los datos en el Ejemplo 1.4.2, primero debemos ponerlos en orden, ya que\(\{-3.1415, 3/4, 1, 2, 17\}\), así la mediana de este conjunto de datos es el valor medio,\(1\).

    EJEMPLO 1.4.10. Ahora encontremos la mediana de los datos del Ejemplo 1.3.1. Afortunadamente, en ese ejemplo, hicimos una parcela de tallo y hoja e incluso pusimos en orden las hojas, para que comenzando por la parte inferior y yendo por las filas de hojas y luego hasta la siguiente fila, ¡nos den todos los valores en orden! Dado que hay 30 valores, contamos hasta los\(16^{th}\) valores\(15^{th}\) y, siendo 76 y 77, y a partir de esto encontramos que la mediana del conjunto de datos es\(\frac{76+77}{2}=76.5\).

    Fortalezas y Debilidades de Estas Medidas de Tendencia Central

    El más débil de los tres compases anteriores es el modo. Sí, es bueno saber qué valor ocurrió con mayor frecuencia en un conjunto de datos (o qué valores sucedieron todos con igual frecuencia y más a menudo que todos los demás valores). Pero esto a menudo no necesariamente nos dice mucho sobre la estructura general de los datos.

    EJEMPLO 1.4.11. Supongamos que tenemos los datos\[\begin{matrix} 86 & 80 & 25 & 77 & 73 & 76 & 100 & 90 & 67 & 93\\ 94 & 83 & 72 & 75 & 79 & 70 & 91 & 82 & 71 & 95\\ 40 & 58 & 68 & 69 & 100 & 78 & 87 & 25 & 92 & 74 \end{matrix}\] con la correspondiente gráfica de tallo y hoja

    Stem
    10 0
    9 0 1 2 3 4 5
    8 0 2 3 6 7 8
    7 0 1 2 3 4 5 6 7 8 9
    6 7 8 9
    5 8
    4 0
    3
    2 5 5

    Esto tendría un histograma con bins de ancho 10 que se ve exactamente como el del Ejemplo 1.3.2 —así que el centro del histograma parecería, visualmente, todavía estar alrededor de la barra a lo largo de los 80— pero ahora hay un modo único de 25.

    Lo que este ejemplo muestra es que un pequeño cambio en algunos de los valores de datos, lo suficientemente pequeño como para no cambiar el histograma en absoluto, puede cambiar el modo (s) drásticamente. También muestra que la ubicación del modo dice muy poco sobre los datos en general o su forma, el modo se basa enteramente en una coincidencia posiblemente accidental de algunos valores en el conjunto de datos, sin importar si esos valores están en el “centro” del histograma o no.

    La media tiene un problema similar: un pequeño cambio en los datos, en el sentido de agregar solo un nuevo valor de datos, pero uno que está muy lejos de los demás, puede cambiar bastante la media. Aquí hay un ejemplo.

    EJEMPLO 1.4.12. Supongamos que tomamos los datos del Ejemplo 1.3.1 pero cambiamos solo un valor —tal como cambiando el 100 a un 1000, quizás por un simple error tipográfico de la entrada de datos. Entonces si calculamos la media, obtenemos\(\overline{x}=\left(\sum x_i\right)/n =3146/30=104.8667\), que es bastante diferente de la media del conjunto de datos original.

    Un valor de datos que parece ser bastante diferente de todos (o la gran mayoría de) el resto se llama un valor atípico 4 Lo que acabamos de ver es que la media es muy sensible a los valores atípicos. Se trata de un defecto grave, aunque por lo demás es fácil de calcular, de trabajar, y de probar teoremas sobre.

    Por último, la mediana es algo tediosa de calcular, porque el primer paso es poner en orden todos los valores de datos, lo que puede llevar mucho tiempo. Pero, una vez hecho eso, arrojar un valor atípico tiende a mover la mediana sólo un poquito. Aquí hay un ejemplo.

    EJEMPLO 1.4.13. Si hacemos como en el Ejemplo 1.4.12 y cambiamos el valor de datos de 100 en el conjunto de datos del Ejemplo 1.3.1 a 1000, pero dejamos todos los demás valores de datos sin cambios, no cambia la mediana en absoluto ya que el 1000 es el nuevo valor más grande, y eso no cambia los dos valores medios en absoluto.

    Si en cambio tomamos los datos del Ejemplo 1.3.1 y simplemente agregamos otro valor, 1000, con- fuera quitando el 100, eso sí cambia el medio: ahora hay un número impar de valores de datos, por lo que la mediana es la media después de que se pongan en orden, que es 78. Por lo que la mediana sólo ha cambiado medio punto, pasando de 77.5 a 78. Y el suyo incluso sería cierto si el valor que estábamos agregando al conjunto de datos fuera 1000000 y no solo 1000!

    En otras palabras, la mediana es muy insensible a los valores atípicos. Dado que, en la práctica, es muy fácil que los datasets tengan algunos valores aleatorios, malos (errores tipográficos, errores mecánicos, etc.), que a menudo son valores atípicos, suele ser más inteligente usar la mediana que la media.

    Como punto final, nótese que como mencionamos en §4.2, la palabra “promedio”, la versión poco sofisticada de “media”, a menudo se usa incorrectamente como modificador de los individuos en alguna población que se estudia (como en “el americano promedio...”), más que como modificador de la variable en el estudio (“el promedio ingresos...”), lo que indica un malentendido fundamental de lo que significa la media. Si miras un poco más a este malentendido, sin embargo, tal vez se base en la idea de que estamos buscando el centro, el valor “típico” de la variable.

    El modo puede parecer una buena manera, es el valor que ocurre con más frecuencia. Pero hemos visto como eso es algo defectuoso.

    La media también puede parecer una buena manera — es el “promedio”, literalmente. Pero también hemos visto problemas con la media.

    De hecho, la mediana es probablemente la más cercana a la idea intuitiva de “el centro de los datos”. Es, después de todo, un valor con la propiedad que tanto por encima como por debajo de ese valor se encuentran la mitad de los valores de datos.

    Un último ejemplo para subrayar esta idea:

    EJEMPLO 1.4.14. El período de dificultad económica para los mercados mundiales a finales de la década de 2000 y principios de la década de 2010 a veces se llama la Gran Recesión. Supongamos que un político dice que hemos salido de esa época de apuros, y da como prueba el hecho de que el ingreso familiar promedio ha aumentado desde el bajo valor que tuvo durante la Gran Recesión hasta los valores que tenía antes de entonces, y tal vez sea incluso superior a lo que era en 2005.

    Es posible que de hecho la gente esté mejor, ya que el incremento en esta media —media— parece implicar. Pero también es posible que mientras el ingreso medio haya subido, el ingreso medio siga siendo bajo. Esto sucedería si el histograma de ingresos recientemente todavía tiene la mayoría de las barras altas hacia abajo donde la variable (ingreso familiar) es baja, pero tiene algunos valores atípicos muy altos. En resumen, si los súper ricos se han vuelto aún más ricos, eso hará que la media (promedio) suba, aunque la mayoría de la población haya experimentado salarios estancados o decrecientes —pero la mediana dirá lo que le está pasando a la mayoría de la población.

    Entonces, cuando un político utiliza la evidencia de la media (media) como se sugiere aquí, es posible que estén tratando de ocultar al púbico la realidad de lo que le está sucediendo a los ricos y a los no tan ricos. También es posible que este político simplemente esté mal educado en estadística y no se dé cuenta de lo que está pasando. Sé tú el juez... pero presta atención para que sepas qué preguntar.

    Lo último que tenemos que decir sobre las fortalezas y debilidades de nuestras diferentes medidas de tendencia central es una manera de aprovechar las debilidades de la media y la mediana para nuestro beneficio. Es decir, dado que la media es sensible a los valores atípicos, y tirada en la dirección de esos valores atípicos, mientras que la mediana no lo es, podemos usar la diferencia entre los dos para decirnos en qué dirección se asienta un histograma.

    HECHO 1.4.15. Si la media de un conjunto de datos es mayor que la mediana, entonces los histogramas de ese conjunto de datos estarán sesgados a la derecha. Del mismo modo, si la media es menor que la mediana, los histogramas estarán sesgados a la izquierda.


    This page titled 1.4: Descripciones numéricas de los datos I: Medidas del Centro is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Jonathan A. Poritz via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.