Saltar al contenido principal
Library homepage
 
LibreTexts Español

5.10: Epílogo- ¡Las buenas estadísticas descriptivas son descriptivas!

  • Page ID
    151566
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La muerte de un hombre es una tragedia. La muerte de millones es una estadística.

    — Josef Stalin, Potsdam 1945

    950,000 — 1,200,000

    — Estimación de muertes por represión soviética, 1937-1938 (Ellman 2002)

    Vale la pena reflexionar sobre la infame cita de Stalin sobre el carácter estadístico de la muerte de millones. El claro propósito de su declaración es que la muerte de un individuo nos toque personalmente y su fuerza no se puede negar, sino que las muertes de una multitud son incomprensibles, y como consecuencia meras estadísticas, más fácilmente ignoradas. Yo diría que Stalin tenía la mitad de la razón. Una estadística es una abstracción, una descripción de eventos más allá de nuestra experiencia personal, y tan difícil de visualizar. Pocos si alguno de nosotros podemos imaginar cómo es “realmente” la muerte de millones, pero podemos imaginar una muerte, y esto le da a la muerte solitaria su sensación de tragedia inmediata, sentimiento que falta en la fría descripción estadística de Ellman.

    Sin embargo, no es tan sencillo: sin números, sin recuentos, sin una descripción de lo ocurrido, no tenemos ninguna posibilidad de entender lo que realmente sucedió, ningún evento de oportunidad para tratar de convocar el sentimiento perdido. Y en verdad, mientras escribo esto, sentado cómodamente un sábado por la mañana, medio mundo y toda una vida lejos de los Gulags, cuando pongo la estimación de Ellman junto a la cita de Stalin un sordo pavor se instala en mi estómago y un escalofrío se asienta sobre mí. La represión estalinista es algo verdaderamente más allá de mi experiencia, pero con una combinación de datos estadísticos y esas historias personales registradas que nos han llegado, no está del todo más allá de mi comprensión. Porque lo que nos dicen los números de Ellman es esto: en un periodo de dos años, la represión estalinista acabó con el equivalente de cada hombre, mujer y niño que vive actualmente en la ciudad donde vivo. Cada una de esas muertes tenía su propia historia, era su propia tragedia, y sólo algunas de esas son conocidas por nosotros ahora. Aun así, con algunas estadísticas cuidadosamente elegidas, la escala de la atrocidad comienza a entrar en foco.

    Por lo tanto, no es poca cosa decir que la primera tarea del estadístico y del científico es resumir los datos, encontrar alguna colección de números que pueda transmitir a una audiencia un sentido de lo que ha sucedido. Este es el trabajo de la estadística descriptiva, pero no es un trabajo que se pueda decir únicamente usando los números. Eres un analista de datos, no un paquete de software estadístico. Parte de tu trabajo es tomar estas estadísticas y convertirlas en una descripción. Al analizar datos, no es suficiente enumerar una colección de números. Recuerda siempre que lo que realmente estás tratando de hacer es comunicarte con un público humano. Los números son importantes, pero hay que juntarlos en una historia significativa que tu audiencia pueda interpretar. Eso significa que hay que pensar en enmarcar. Hay que pensar en el contexto. Y hay que pensar en los eventos individuales que sus estadísticas están resumiendo.


    Referencias

    Ellman, Michael. 2002. “Estadísticas de represión soviética: algunos comentarios”. Estudios Europa-Asia 54 (7). Taylor y Francis: 1151—72.


    1. Nota para los no australianos: la AFL es una competencia australiana de fútbol de reglas. No necesitas saber nada sobre las reglas australianas para poder seguir esta sección.
    2. La elección de usar σ para denotar la suma no es arbitraria: es la letra griega mayúscula sigma, que es el análogo de la letra S en ese alfabeto. De igual manera, hay un símbolo equivalente que se usa para denotar la multiplicación de lotes de números: debido a que las multiplicaciones también se llaman “productos”, usamos el símbolo π para esto; el griego pi mayúscula, que es el análogo de la letra P.
    3. Tenga en cuenta que, tal como vimos con la función combine c () y la función remove rm (), la función sum () tiene argumentos sin nombre. Hablaré de argumentos sin nombre más adelante en la Sección 8.4.1, pero por ahora solo ignoremos este detalle.
    4. www.abc.net.au/noticias/historias/2010/09/24/3021480.htm
    5. O al menos, la teoría estadística básica —en estos días hay todo un subcampo de estadísticas llamado estadísticas robustas que trata de lidiar con el desorden de los datos reales y desarrollar una teoría que pueda afrontarlo.
    6. Como vimos antes, sí tiene una función llamada mode (), pero hace algo completamente diferente.
    7. Esto se llama una “función de pérdida 0-1”, es decir, que o ganas (1) o pierdes (0), sin término medio.
    8. Bueno, voy a mencionar muy brevemente el que creo que es más genial, para una definición muy particular de “cool”, es decir. Las variaciones son aditivas. Esto es lo que eso significa: supongamos que tengo dos variables X e Y, cuyas varianzas son $
    9. Con la posible excepción de la tercera cuestión.
    10. Estrictamente, el supuesto es que los datos se distribuyen normalmente, lo que es un concepto importante que discutiremos más en el Capítulo 9, y que volveremos una y otra vez más adelante en el libro.
    11. ¡Otra vez la suposición es que los datos están distribuidos normalmente!
    12. La parte “−3” es algo que los estadísticos viran para asegurar que la curva normal tenga curtosis cero. Se ve un poco estúpido, simplemente pegando un “-3” al final de la fórmula, pero hay buenas razones matemáticas para hacer esto.
    13. No he hablado de cómo calcular las puntuaciones z, explícitamente, pero probablemente puedas adivinar. Para una variable X, la forma más sencilla es usar un comando como (X - media (X))/sd (X). También hay una función más elegante llamada scale () que puedes usar, pero se basa en conceptos R algo más complicados que aún no he explicado.
    14. Técnicamente, porque estoy calculando medias y desviaciones estándar a partir de una muestra de datos, pero quiero hablar de mi maldad relativa a una población, lo que en realidad estoy haciendo es estimar una puntuación z. No obstante, como aún no hemos hablado de estimación (ver Capítulo 10) creo que lo mejor es ignorar esta sutileza, sobre todo porque hace muy poca diferencia en nuestros cálculos.
    15. Aunque por lo general se justifica cierta precaución. No siempre se da el caso de que una desviación estándar en la variable A corresponda al mismo “tipo” de cosas que una desviación estándar en la variable B. Utilice el sentido común al tratar de determinar si las puntuaciones z de dos variables pueden compararse de manera significativa o no.
    16. En realidad, incluso esa mesa es más de lo que me molestaría. En la práctica, la mayoría de las personas escogen una medida de tendencia central y una medida de variabilidad solamente.
    17. Al igual que vimos con la varianza y la desviación estándar, en la práctica dividimos por N−1 en lugar de N.
    18. Esto es una simplificación excesiva, pero servirá para nuestros propósitos.
    19. Si estás leyendo esto después de haber completado ya el Capítulo 11 quizás te estés preguntando acerca de las pruebas de hipótesis para correlaciones. R tiene una función llamada cor.test () que ejecuta una prueba de hipótesis para una sola correlación, y el paquete psych contiene una versión llamada corr.test () que puede ejecutar pruebas para cada correlación en una matriz de correlación; las pruebas de hipótesis para correlaciones se discuten en más detalle en la Sección 15.6.
    20. Un uso alternativo de cor () es correlacionar un conjunto de variables con otro subconjunto de variables. Si X e Y son ambos marcos de datos con el mismo número de filas, entonces cor (x = X, y = Y) producirá una matriz de correlación que correlaciona todas las variables en X con todas las variables en Y.
    21. Vale la pena señalar que, a pesar de que nos faltan datos para cada una de estas variables, la salida no contiene ningún valor NA. Esto se debe a que, si bien describe () también tiene un argumento na.rm, el valor predeterminado para esta función es na.rm = VERDADERO.
    22. El término técnico aquí es “falta completamente al azar” (a menudo escrito MCAR para abreviar). Tiene sentido, supongo, pero a mí me suena poco gramatical.

    This page titled 5.10: Epílogo- ¡Las buenas estadísticas descriptivas son descriptivas! is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Danielle Navarro via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.