Saltar al contenido principal
LibreTexts Español

6.4: Conceptos y Técnicas Estadísticas Básicas

  • Page ID
    95147
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    En esta sección y en la siguiente, el objetivo es equiparnos para comprender, analizar y criticar argumentos usando estadísticas. Tales argumentos son extremadamente comunes; también suelen ser manipuladores y/o falaces. Como dijo una vez Mark Twain: “Hay tres tipos de mentiras: mentiras, malditas mentiras y estadísticas”. Es posible, sin embargo, con una comprensión mínima de algunos conceptos y técnicas estadísticas básicas, junto con una conciencia de las diversas formas en que estos son comúnmente mal utilizados (intencionalmente o no), para ver las “mentiras” por lo que son: malos argumentos que no deberían persuadirnos. En esta sección, proporcionaremos una base de conocimiento estadístico básico. En la siguiente, veremos diversas falacias estadísticas.

    Promedios: Media vs. Mediana

    La palabra 'promedio' es resbaladiza: se puede utilizar para referirse tanto a la media aritmética como a la mediana de un conjunto de valores. La media y la mediana suelen ser diferentes, y cuando este es el caso, el uso de la palabra 'promedio' es equívoco. Una persona inteligente puede usar este hecho para su ventaja retórica. Escuchamos la palabra 'promedio' tirada bastante en discusiones: la familia promedio tiene tal y tal ingreso, el estudiante promedio lleva tal y tal en deuda de préstamos estudiantiles, y así sucesivamente. Se supone que el público debe tomar esta entidad promedio ficticia para que sea representativa de todas las demás, y dependiendo de la conclusión de la que esté tratando de convencer a la gente, la persona que haga el argumento elegirá entre media y mediana, escogiendo el número que mejor le sirva a su propósito retórico. Es importante, por lo tanto, que el oyente crítico pregunte, cada vez que se usa la palabra 'promedio', “¿Se refiere esto a la media o a la mediana? ¿Cuál es la diferencia entre los dos? ¿Cómo afectaría el uso del otro al argumento?”

    Un ejemplo sencillo puede dejar esto claro. (La inspiración para este ejemplo, como con mucho que sigue, viene de Darrell Huff, 1954, How to Lie with Statistics, Nueva York: Norton.) Dirijo un negocio de contratación de albañilería en el lado: Logic Constructions (una subsidiaria de propiedad total de LogiCorp). Incluyéndome a mí, 22 personas trabajan en Construcciones Lógicas. Esto es lo que se les paga por año: $350,000 por mí (yo soy el jefe); $75.000 cada uno por dos capataces; $70,000 por mi contador; $50.000 cada uno por cinco albañiles de piedra; 30,000 dólares para el secretario de oficina; $25,000 cada uno para dos aprendices; y $20,000 cada uno por diez trabajadores. Para calcular el salario medio en Construcciones Lógicas, sumamos todos los salarios individuales (mis $350,000, $75.000 dos veces ya que hay dos capataces, y así sucesivamente) y dividimos por el número de empleados. El resultado es de 50 mil dólares. Para calcular el salario medio, ponemos todos los salarios individuales en orden numérico (diez entradas de 20,000 dólares para los trabajadores, luego dos entradas de $25,000 para los aprendices, etc.) y encontramos el número medio, o, como es el caso de nuestro conjunto, que tiene un número par de entradas, la media de los dos medios números. Los dos números del medio son ambos $25,000, por lo que el salario medio es de $25,000.

    Ahora, te habrás dado cuenta, a muchos de mis trabajadores no les pagan particularmente bien. En particular, los que están en la parte inferior, mis diez trabajadores, realmente están recibiendo el eje: 20.000 dólares al año por ese tipo de trabajo desgarrador es un trato crudo. Supongamos que un día, mientras voy pasando por nuestro sitio de construcción (en la parte trasera de mi limusina, naturalmente), noto a algunos agitadores externos compadecerse de mis trabajadores durante su descanso para almorzar (10 minutos), ya sabes del tipo, organizadores sindicales, comunistas pinko (en esta historia, soy un capitalista codicioso; sigue el juego). Están tratando de convencer a mis empleados de que negocien colectivamente por salarios más altos. Ahora tenemos un debate: ¿se debería pagar más a los trabajadores de Construcciones Lógicas? Tomo un lado del tema; los trabajadores y organizadores toman el otro. En el curso de hacer nuestros argumentos, ambos podríamos referirnos al trabajador promedio en Construcciones Lógicas. Voy a querer hacerlo de una manera que haga parecer que a este mítico obrero le va bastante bien, y así no necesitamos cambiar nada; los organizadores van a querer hacerlo de tal manera que haga parecer que al trabajador promedio no le va muy bien en absoluto. Tenemos dos sentidos de 'promedio' para elegir: media y mediana. En este caso, la media es mayor, por lo que la utilizaré: “El trabajador promedio en Construcciones Lógicas gana 50 mil dólares anuales. ¡Ese es un salario bastante bueno!” Mis oponentes, los organizadores sindicales, van a contrarrestar, utilizando la mediana: “El trabajador promedio en Construcciones lógicas gana apenas 25 mil dólares al año. ¡Intenta criar a una familia en tal miopía!”

    Mucho depende de qué sentido de 'promedio' elegimos. Esto es cierto en muchas circunstancias de la vida real. Por ejemplo, los ingresos de los hogares en Estados Unidos se distribuyen mucho como los salarios están en mi compañía ficticia de Construcciones Lógicas: los que están en la parte superior de la gama tienen una tarifa mucho mejor que los de abajo. (En 2014, el quinto más rico de los hogares estadounidenses representaba más del 51% de los ingresos; el quinto más pobre, el 3%). En tales circunstancias, la media es mayor que la mediana. En 2014, el ingreso promedio de los hogares en Estados Unidos fue de 72, 641 dólares. ¡Eso es bastante bueno! La mediana, sin embargo, fue de apenas 53, 657 dólares. ¡Esa es una gran diferencia! “La familia promedio gana alrededor de $72,000 al año” suena mucho mejor que “La familia promedio gana alrededor de $53.000 al año”.

    Distribuciones normales: desviación estándar, intervalos de confianza

    Si le diste pruebas de coeficiente intelectual a un montón de gente, y luego graficas los resultados en un histograma o gráfico de barras, para que cada vez que veas una partitura en particular, la barra para esa puntuación aumentara, terminarías con una imagen como esta:

    Screen Shot 2019-10-08 a las 11.54.56 PM.png

    Este tipo de distribución se llama distribución “normal” o “gaussiana” (gaussiana” porque el gran matemático alemán Carl Friedrich Gauss realizó un estudio de tales distribuciones a principios del siglo XIX (en relación con su relación con los errores en la medición); por su forma, a menudo se la llama una “curva de campana”. Además del coeficiente intelectual, muchos fenómenos en la naturaleza se distribuyen (aproximadamente) normalmente: altura, presión arterial, movimientos de moléculas individuales en una colección, vida útil de productos industriales, errores de medición, etc. (Esto es consecuencia de un resultado matemático, el Teorema del Límite Central, cuyo resultado básico es que si alguna variable aleatoria (un rasgo como el coeficiente intelectual, por ejemplo, para ser concreto) es la suma de muchas variables aleatorias independientes (causas de diferencias de CI: muchos factores genéticos diferentes, muchos diferentes factores ambientales), entonces la variable (IQ) se distribuirá normalmente. El teorema matemático trata de números abstractos, y la distribución sólo es perfectamente “normal” cuando el número de variables independientes se acerca al infinito. Es por eso que las distribuciones de la vida real son solo aproximadamente normales). E incluso cuando los rasgos no se distribuyen normalmente, puede ser útil tratarlos como si fueran. Esto se debe a que la curva de campana proporciona un punto de partida extremadamente conveniente para hacer ciertas inferencias. Es conveniente porque uno puede saber todo sobre tal curva especificando dos de sus características: su media (que, debido a que la curva es simétrica, es la misma que su mediana) y su desviación estándar.

    Ya entendemos la media. Vamos a agarrar la desviación estándar. No necesitamos aprender a calcularlo (aunque eso se pueda hacer); solo queremos una comprensión cualitativa (a diferencia de cuantitativa) de lo que significa. Aproximadamente, es una medida de la dispersión de los datos representados en la curva; es una forma de indicar qué tan lejos, en promedio, los valores tienden a desviarse de la media. Un ejemplo puede dejar esto claro. Considera dos ciudades: Milwaukee, WI y San Diego, CA. Estas dos ciudades son diferentes en una variedad de formas, sobre todo en el tipo de clima que experimentan sus residentes. Dejando a un lado la precipitación, centrémonos solo en la temperatura. Si registraste las altas temperaturas todos los días en cada pueblo durante un largo periodo de tiempo e hiciste un histograma para cada una (con temperaturas en el eje x, número de días en el eje y), obtendrías dos curvas de aspecto muy diferente. Tal vez algo como estos:

    Screen Shot 2019-10-08 a las 11.56.36 PM.png

    Las altas temperaturas promedio para las dos ciudades, los picos de las curvas, serían, por supuesto, diferentes: San Diego es más cálido en promedio que Milwaukee. Pero el rango de temperaturas que se vive en Milwaukee es mucho mayor que el de San Diego: algunos días en Milwaukee, la temperatura alta está por debajo de cero, mientras que en algunos días en verano supera los 100°F San Diego, por otro lado, es básicamente siempre perfecto: justo alrededor de los 70° más o menos . (Esto es una exageración, claro, pero no mucho de uno. El máximo promedio en San Diego en enero es de 65°; en julio, es de 75°. En tanto, en Milwaukee, el máximo promedio en enero es de 29°, mientras que en julio es de 80°). La desviación estándar de las temperaturas en Milwaukee es mucho mayor que en San Diego. Esto se refleja en las formas de las respectivas curvas de campana: la de Milwaukee es más corta y ancha, con un número no trivial de días en las temperaturas extremas y una amplia distribución para todos los demás días, y la de San Diego es más alta y más estrecha, con temperaturas rondando en un rango estrecho todo el año, y por lo tanto más días en cada temperatura registrada (lo que explica las alturas relativas de las curvas).

    Una vez que conocemos la media y desviación estándar de una distribución normal, sabemos todo lo que necesitamos saber al respecto. Existen tres datos muy útiles sobre estas curvas que se pueden afirmar en términos de la media y la desviación estándar (DE). De hecho matemático, el 68.3% de la población representada en la curva (ya sean personas con ciertos CI, días en los que se alcanzaron ciertas temperaturas, mediciones con cierta cantidad de error) se encuentra dentro de un rango de una desviación estándar a cada lado de la media. Entonces, por ejemplo, el coeficiente intelectual medio es 100; la desviación estándar es 15. De ello se deduce que el 68.3% de las personas tiene un coeficiente intelectual entre 85 y 115—15 puntos (un DE) a cada lado de 100 (la media). Otro dato: 95.4% de la población representada en una curva de campana caerá dentro de un rango de dos desviaciones estándar de la media. Por lo que 95.4% de las personas tienen un coeficiente intelectual entre 70 y 130—30 puntos (2 SD) a cada lado de 100. Finalmente, 99.7% de la población se encuentra dentro de tres desviaciones estándar de la media; 99.7% de las personas tienen CI entre 55 y 145. Estos rangos se denominan intervalos de confianza. (Escoge una persona al azar. ¿Qué tan seguro estás de que tengan un coeficiente intelectual entre 70 y 130? 95.4%, así de confiado.) Son puntos de referencia convenientes comúnmente utilizados en la inferencia estadística. (De hecho, en la práctica actual, se utilizan con mayor frecuencia otros intervalos de confianza: 90%, (exactamente) 95%, 99%, etc. Estos rangos se encuentran a cada lado de la media dentro de múltiplos no enteros de la desviación estándar. Por ejemplo, el intervalo exactamente -95% es de 1.96 SDs a cada lado de la media. La conveniencia de las calculadoras y hojas de cálculo para hacer nuestras matemáticas por nosotros hace que estos intervalos de confianza sean más prácticos. Pero nos quedaremos con los intervalos 68.3/95.4/99.7 por simplicidad.)

    Inferencia estadística: pruebas de hipótesis

    Si comenzamos con el conocimiento de las propiedades de una distribución normal dada, podemos probar afirmaciones sobre el mundo para el que esa información es relevante. A partir de una curva de campana —información de carácter general— podemos sacar conclusiones sobre hipótesis particulares. Estas son conclusiones de argumentos inductivos; no son ciertos, sino más o menos probables. Cuando utilizamos el conocimiento de las distribuciones normales para dibujarlas, podemos ser precisos acerca de lo probables que son. Esta es la lógica inductiva.

    El patrón básico de los tipos de inferencias de los que estamos hablando es este: se formula una hipótesis, luego se ejecuta un experimento para probarla; la prueba implica comparar los resultados de ese experimento con lo que se conoce (alguna distribución normal); dependiendo de qué tan bien concuerden los resultados del experimento con lo que se esperaría dado el conocimiento de fondo representado por la curva de campana, sacamos una conclusión sobre si la hipótesis es cierta o no.

    Aunque son aplicables en una amplia gama de contextos, quizás sea más fácil explicar los patrones de razonamiento que vamos a examinar usando ejemplos de la medicina. Este tipo de casos son vívidos; ayudan a comprender al hacer más reales las consecuencias de posibles errores. Además, en estos casos las hipótesis que se están probando son relativamente simples: afirmaciones sobre la salud de los individuos, ya sea que estén sanos o enfermos, tengan algún padecimiento o no, en contraposición a hipótesis que tratan con poblaciones más grandes y mediciones de sus propiedades. Examinar estos casos más simples nos permitirá ver con mayor claridad los patrones subyacentes de razonamiento que cubren todas esas instancias de prueba de hipótesis, y conocer el vocabulario que los estadísticos utilizan en su trabajo.

    El conocimiento con el que comenzamos es cómo algún rasgo relevante para la condición particular se distribuye en la población en general: una curva de campana. (Nuevamente, la distribución real puede no ser normal, pero asumiremos que está en nuestros ejemplos. Los patrones básicos de razonamiento son similares cuando se trata de diferentes tipos de distribuciones.) El experimento que realizamos es medir el rasgo relevante en el individuo cuya salud estamos evaluando. El resultado de una comparación con el resultado de esta medición y la distribución conocida del rasgo nos dice algo sobre si la persona está sana o no. Supongamos que comenzamos con información sobre cómo se distribuye un rasgo entre las personas que están sanas. El hematocrito, por ejemplo, es una medida de cuánta sangre de una persona es absorbida por los glóbulos rojos, expresada como porcentaje (del volumen total de sangre). Los niveles más bajos de hematocrito se asocian con anemia; los niveles más altos se asocian con deshidratación, ciertos tipos de tumores y otros trastornos. Entre los hombres sanos, el nivel medio de hematocrito es de 47%, con una desviación estándar de 3.5%. Podemos dibujar la curva, anotando los límites de los intervalos de confianza:

    Screen Shot 2019-10-08 a las 11.58.12 PM.png

    Debido a las propiedades matemáticas fijas de la curva de campana, sabemos que 68.3% de los hombres sanos tienen niveles de hematocrito entre 43.5% y 50.5%; 95.4% de ellos están entre 40% y 54%; y 99.7% de ellos están entre 36.5% y 57.5%. Consideremos a un hombre cuya salud nos interesa evaluar. Llámalo Larry. Tomamos una muestra de sangre de Larry y medimos el nivel de hematocrito. Lo comparamos con los valores en la curva para ver si puede haber alguna razón para preocuparse por la salud de Larry. Recuerda, la curva nos dice los niveles de hematocrito para hombres sanos; queremos saber si Larry es uno de ellos. La hipótesis que estamos probando es que Larry está sano. Los estadísticos a menudo refieren la hipótesis bajo examen en tales pruebas como la “hipótesis nula”, una suposición por defecto, algo que nos inclinamos a creer a menos que descubramos evidencia en su contra. En fin, estamos midiendo el hematocrito de Larry; ¿qué tipo de resultado debería estar esperando? Claramente, le gustaría estar lo más cerca posible de la parte media y gorda de la curva; ahí es donde está la mayoría de las personas sanas. Cuanto más lejos del nivel promedio de hematocrito de la persona sana se desvía, más le preocupa su salud. Así funcionan estas pruebas: si el resultado del experimento (medir el hematocrito de Larry) está lo suficientemente cerca de la media, no tenemos razón para rechazar la hipótesis nula (que Larry está sano); si el resultado está lejos, sí tenemos razones para rechazarlo.

    ¿Qué tan lejos de la media está demasiado lejos? Depende. Un corte típico es dos desviaciones estándar de la media: el intervalo de confianza de 95.4%. (En realidad, el nivel típico es ahora exactamente del 95%, o 1.96 desviaciones estándar de la media. A partir de ahora, sólo vamos a pretender que los niveles de 95.4% y 95% son lo mismo). Es decir, si el nivel de hematocrito de Larry está por debajo del 40% o por encima del 54%, entonces podríamos decir que tenemos razones para dudar de la hipótesis nula de que Larry está sano. El lenguaje que usan los estadísticos para tal resultado —digamos, por ejemplo, si el hematocrito de Larry llegó al 38%— es decir que es “estadísticamente significativo”. Además, especifican el nivel en el que es significativo, una indicación del corte de intervalo de confianza que se utilizó. En este caso, diríamos que el resultado de Larry de 38% es estadísticamente significativo en el nivel .05. (95% = .95; 1 - .95 = .05) O Larry no es saludable (anemia, muy probablemente), o está entre el (aproximadamente) 5% de personas sanas que caen fuera de los dos rangos de desviación estándar. Si entrara en un nivel aún más alejado de la media —digamos, 36%— diríamos que este resultado es significativo en el nivel .003 (99.7% = .997; 1 - .997 = .003). Eso nos daría aún más razones para dudar de que Larry esté sano.

    Entonces, cuando estamos diseñando una prueba médica como esta, la decisión crucial a tomar es dónde establecer el límite. Nuevamente, normalmente ese es el intervalo de confianza del 95%. Si un resultado cae fuera de ese rango, la persona da “positivo” por cualquier condición que estemos buscando. (Por supuesto, un resultado “positivo” no es una noticia positiva, en el sentido de ser algo que quieres escuchar). Pero este tipo de resultados no son concluyentes: puede ser que la hipótesis nula (esta persona está sana) sea cierta, y que simplemente sean uno de los relativamente raros 5% que caen en las afueras de la curva. En tal caso, diríamos que la prueba le ha dado a la persona un resultado “falso positivo”: la prueba indica enfermedad cuando de hecho no hay ninguna. Los estadísticos se refieren a este tipo de error como “error tipo I”. Podríamos reducir el número de resultados erróneos que da nuestra prueba cambiando los niveles de confianza en los que damos un resultado positivo. Volviendo al ejemplo concreto anterior: supongamos que Larry tiene un nivel de hematocrito de 38%, pero que de hecho no es anémico; ya que 38% está fuera de los dos rangos de desviación estándar, nuestra prueba le daría a Larry un resultado falso positivo si usáramos el nivel de confianza del 95%. Sin embargo, si eleváramos el umbral de significancia estadística al nivel de tres desviaciones estándar de 99.7%, Larry no sería marcado por anemia; no habría falsos positivos, ningún error tipo I.

    Por lo que siempre debemos usar el rango más amplio en este tipo de pruebas para evitar falsos positivos, ¿verdad? No tan rápido. Hay otro tipo de error que podemos cometer: falsos negativos, o errores de tipo II. Aumentar nuestro rango aumenta nuestro riesgo de este segundo tipo de foul-up. Allá abajo en el extremo flaco de la curva hay relativamente pocas personas sanas. Los enfermos son los que generalmente tienen medidas en ese rango; ellos son los que estamos tratando de atrapar. Cuando emitimos un falso negativo, los estamos perdiendo. Un falso negativo ocurre cuando la prueba te dice que no hay razón para dudar de la hipótesis nula (que estás sano), cuando de hecho estás enfermo. Si aumentamos nuestro rango de dos a tres desviaciones estándar —del nivel del 95% al nivel del 99.7%— evitaremos darle un resultado falso positivo a Larry, quien está sano a pesar de su bajo nivel de hematocrito del 38%. Pero terminaremos dando falsas seguridades a algunas personas anémicas que tienen niveles similares a los de Larry; alguien que tiene un nivel de 38% y está enfermo obtendrá un resultado falso negativo si solo marcamos a aquellos que están fuera del intervalo de confianza del 99.7% (36.5% - 57.5%).

    Este es un dilema perenne en los exámenes médicos: la mejor manera de lograr un equilibrio entre los dos tipos de errores, entre alarmar innecesariamente a personas sanas con resultados falsos positivos y no detectar enfermedades en personas con resultados falsos negativos. Los términos que utilizan los médicos para caracterizar qué tan bien funcionan las pruebas diagnósticas a lo largo de estas dos dimensiones son sensibilidad y especificidad. Una prueba altamente sensible detectará una gran cantidad de casos de enfermedad; tiene una alta tasa de resultados verdaderos positivos; por supuesto, esto también tiene el costo de aumentar el número de resultados falsos positivos. Una prueba con un alto nivel de especificidad tendrá una alta tasa de resultados verdaderos negativos, identificando correctamente a las personas sanas como tales; sin embargo, el costo del aumento de la especificidad es un aumento en el número de resultados falsos negativos, personas enfermas que la prueba pierde. Dado que cada falso positivo es una oportunidad perdida para un verdadero negativo, el aumento de la sensibilidad viene a costa de disminuir la especificidad. Y dado que cada falso negativo es un verdadero positivo perdido, el aumento de la especificidad viene a costa de disminuir la especificidad. Un pedacito final de jerga médica: una prueba de detección es precisa en la medida en que es sensible y específica.

    Dada la información suficientemente completa sobre la distribución de rasgos entre poblaciones sanas y enfermas, los médicos pueden manipular sus pruebas diagnósticas para que sean tan sensibles o específicas como quieran. Pero como esas dos propiedades tiran en direcciones opuestas, hay límites en cuanto al grado de precisión que es posible. Y dependiendo del caso particular, puede ser deseable sacrificar especificidad por más sensibilidad, o viceversa.

    Para ver cómo se puede manipular una prueba de detección para maximizar la sensibilidad, consideremos un ejemplo hipotético abstracto. Supongamos que conocemos la distribución de cierto rasgo entre la población de personas que padecen una determinada enfermedad. (Contraste esto con nuestro punto de partida anterior: conocimiento de la distribución entre individuos sanos.) Este tipo de conocimiento es común en contextos médicos: se sabe que diversos llamados biomarcadores —mutaciones genéticas, proteínas en la sangre, etc.— son indicativos de ciertas afecciones; a menudo, se puede saber cómo se distribuyen dichos marcadores entre las personas con la afección. Nuevamente, manteniéndolo abstracto e hipotético, supongamos que sabemos que entre las personas que padecen la Enfermedad X, el nivel medio de un determinado biomarcador β para la enfermedad es 20, con una desviación estándar de 3. Podemos resumir este conocimiento con una curva:

    Screen Shot 2019-10-08 a las 11.59.58 PM.png

    Ahora, supongamos que la Enfermedad X es realmente muy grave. Sería un beneficio para la salud pública si pudiéramos idear una prueba de detección que pudiera detectar tantos casos como sea posible, una prueba con una alta sensibilidad. Dado el conocimiento que tenemos sobre la distribución de β entre los pacientes con la enfermedad, podemos hacer que nuestra prueba sea lo más sensible que queramos. Sabemos, por cuestión de hecho matemático, que 68.3% por ciento de las personas con la enfermedad tienen niveles β entre 17 y 23; 95.4% de las personas con la enfermedad tienen niveles entre 14 y 26; 99.7% tienen niveles entre 11 y 29. Ante estos hechos, podemos idear una prueba que capte el 99.7% de los casos de Enfermedad X así: medir el nivel de biomarcador β en las personas, y si tienen un valor entre 11 y 29, obtienen un resultado positivo en la prueba; un resultado positivo es indicativo de enfermedad. Esto atrapará el 99.7% de los casos de la afección, porque el rango elegido es de tres desviaciones estándar a cada lado de la media, y ese rango contiene 99.7% de personas insalubres; si marcamos a todos en ese rango, atraparemos 99.7% de los casos. Por supuesto, probablemente también terminaremos atrapando a mucha gente sana si lanzamos nuestra red tan amplia; obtendremos muchos falsos positivos. Podríamos corregir esto haciendo que nuestra prueba sea menos sensible, digamos bajando el umbral para una prueba positiva a los dos rangos de desviación estándar de 14 — 26. Ahora solo atraparíamos 95.4% de los casos de enfermedad, pero reduciríamos el número de personas sanas a las que se les dan falsos positivos; en cambio, obtendrían verdaderos resultados negativos, incrementando la especificidad de nuestra prueba.

    Observe que la forma en que usamos la curva de campana en nuestra prueba hipotética para la Enfermedad X fue diferente de la forma en que usamos la curva de campana en nuestra prueba de niveles de hematocrito anteriores. En ese caso, señalamos a las personas como potencialmente enfermas cuando se encontraban fuera de un rango alrededor de la media; en el nuevo caso, marcamos a las personas como potencialmente enfermas cuando caían dentro de cierto rango. Esta diferencia corresponde a las diferencias en las dos poblaciones que representan las respectivas distribuciones: en el caso del hematocrito, comenzamos con una curva que representa la distribución de un rasgo entre personas sanas; en el segundo caso, comenzamos con una curva que nos habla de personas enfermas. En el primer caso, los enfermos tenderán a estar lejos de la media; en el segundo, tenderán a agruparse más cerca.

    La tensión que hemos observado entre sensibilidad y especificidad, entre aumentar el número de casos que capta nuestra prueba diagnóstica y reducir el número de falsos positivos que produce, se puede ver cuando se muestran curvas para poblaciones sanas y poblaciones enfermas en la misma gráfica. Existe un biomarcador llamado alfa-fetoproteína en el suero sanguíneo de mujeres embarazadas. Los niveles bajos de esta proteína están asociados con el síndrome de Down en el feto; los niveles altos se asocian con defectos del tubo neural como espina bífida abierta (la columna vertebral no está completamente dentro del cuerpo) y anencefalia (apenas se desarrolla nada del cerebro/cráneo). Se trata de afecciones graves, especialmente las asociadas a los niveles altos: si el bebé tiene espina bífida abierta, es necesario estar listo para eso (con especialistas y equipo especial) al momento del nacimiento; en casos de anencefalia, el feto no será viable (en el peor de los casos) o vivirá sin sensación o conciencia (en el mejor de los casos?). Al principio del embarazo, estos padecimientos son examinados para. Como son tan serios, te gustaría atrapar tantos casos como sea posible. Y sin embargo, le gustaría evitar alarmantes resultados falsos positivos para estas afecciones. La siguiente tabla, con curvas de campana para bebés sanos, aquellos con espina bífida abierta y anencefalia, ilustra las difíciles compensaciones para tomar este tipo de decisiones (Foto de un post en www.pregnancylab.net de David Grenache, PhD: http://www.pregnancylab.net/2012/11/...e-defects.html):

    Screen Shot 2019-10-09 a las 12.02.25 AM.png

    La línea vertical a 2.5 MoM (múltiplos de la mediana) es el punto de corte típico para un resultado “positivo” (marcado por problemas potenciales). Por un lado, hay porciones sustanciales de las dos curvas que representan a las poblaciones poco saludables —a la izquierda de esa línea— que no serán marcadas por la prueba. Esos son casos de enfermedad que no atraparemos —falsos negativos. Por otro lado, hay un montón de bebés sanos cuyos padres van a estar innecesariamente alarmados. El área de la curva “No afectada” a la derecha de la línea puede no parecerse mucho, pero estas curvas no se dibujan en una escala lineal. Si lo fueran, esa curva sería mucho (¡mucho!) mayor que los dos para espina bífida abierta y anencefalia: esas afecciones son realmente raras; hay bebés mucho más sanos. El resultado es que esa porción de aspecto pequeño de la curva sana representa muchos falsos positivos.

    Nuevamente, este tipo de compensación entre sensibilidad y especificidad a menudo presenta a los médicos con opciones difíciles en el diseño de pruebas diagnósticas. Deben sopesar los beneficios de atrapar tantos casos como sea posible frente a los costos potenciales de demasiados falsos positivos. Entre los costos se encuentran los impactos psicológicos de obtener un falso positivo. Como padre que lo experimentó, te puedo decir que recibir noticias de potencial espina bífida abierta o anencefalia es bastante traumático. (Falso positivo: el bebé estaba perfectamente sano.) Pero podría ser peor. Por ejemplo, cuando se identificó por primera vez un biomarcador para el SIDA a mediados de la década de 1980, las personas de los Centros para el Control de Enfermedades consideraron el cribado de la enfermedad entre toda la población. La prueba fue sensible, por lo que sabían que atraparían muchos casos. Pero también sabían que habría un buen número de falsos positivos. Considerando la histeria que probablemente surgiría de tantos diagnósticos de la temida enfermedad (en aquellos días, la gente apenas sabía nada del SIDA; la gente se estaba muriendo de una misteriosa enfermedad, y el miedo y la desinformación estaban muy extendidos), se decidieron en contra del cribado universal. En ocasiones, las consecuencias negativas de los falsos positivos incluyen costos financieros y médicos. En 2015, la Sociedad Americana del Cáncer cambió sus recomendaciones para el cribado del cáncer de mama: en lugar de comenzar mamografías anuales a los 40 años, las mujeres deben esperar hasta los 45 años. (Excepto aquellos que se sabe que están en riesgo, quienes deben comenzar antes.) Esta fue una decisión polémica. Después, muchas mujeres se adelantaron para testificar que sus vidas fueron salvadas por la detección temprana del cáncer de mama, y que bajo los nuevos lineamientos puede que no les haya ido tan bien. Pero contra el beneficio de atrapar esos casos, el SCA tuvo que sopesar los costos de las mamografías con falsos positivos. El seguimiento de una mamografía positiva suele ser una biopsia; eso es un procedimiento quirúrgico invasivo y costoso. Contraste eso con el seguimiento a un resultado positivo para espina bífida/anencefalia abierta: una ecografía no invasiva y barata. Y a diferencia de una ecografía, la biopsia a veces es bastante difícil de interpretar; se obtienen algunos diagnósticos de cáncer cuando el cáncer no está presente. Esas mujeres pueden continuar recibiendo tratamiento —quimioterapia, radiación— para el cáncer que no tienen. Los costos y efectos secundarios físicos de eso son severos. (Especialmente perversos son los casos en los que el propio tratamiento de radiación causa cáncer en un paciente que no tuvo que ser tratado para empezar). En un estudio, se determinó que por cada vida salvada por el tamizaje mamográfico, había 100 mujeres que obtuvieron falsos positivos (y se enteraron de ello después de una biopsia) y cinco mujeres tratadas por cáncer que no tenían. (PC Gøtzsche y KJ Jørgensen, 2013, Base de datos Cochrane de revisiones sistemáticas (6), CD001877.pub5)

    La lógica de las pruebas de hipótesis estadísticas es relativamente clara. Lo que no está claro es cómo debemos aplicar esas técnicas relativamente sencillas en la práctica real. Eso a menudo implica decisiones financieras, médicas y morales difíciles.

    Inferencia estadística: Muestreo

    Cuando estábamos probando hipótesis, nuestro punto de partida era el conocimiento sobre cómo se distribuían los rasgos entre una gran población, por ejemplo, los niveles de hematocrito entre hombres sanos. Ahora hacemos una pregunta apremiante: ¿cómo adquirimos ese conocimiento? ¿Cómo averiguamos cómo están las cosas con una población muy grande? La dificultad es que suele ser imposible verificar a cada miembro de la población. En cambio, tenemos que hacer una inferencia. Esta inferencia implica el muestreo: en lugar de probar a cada miembro de la población, analizamos una pequeña porción de la población —una muestra— e inferimos de sus propiedades a las propiedades del conjunto. Es un simple argumento inductivo:

    La muestra tiene propiedad X.
    Por lo tanto, la población general tiene propiedad X.

    El argumento es inductivo: la premisa no garantiza la verdad de la conclusión; simplemente la hace más probable. Como fue el caso en las pruebas de hipótesis, podemos ser precisos sobre las probabilidades involucradas, y nuestras probabilidades provienen de la vieja curva de campana.

    Tomemos un ejemplo sencillo. (Estoy en deuda por este ejemplo en particular (y por muchos antecedentes sobre la presentación del razonamiento estadístico en general) a John Norton, 1998, How Science Works, Nueva York: McGraw-Hill, pp. 12.14 — 12.15.) Supongamos que estábamos tratando de descubrir el porcentaje de hombres en la población general; encuestamos a 100 personas, y resulta que hay 55 hombres en nuestra muestra. Entonces, la proporción de hombres en nuestra muestra es de .55. Estamos tratando de hacer una inferencia de esta premisa a una conclusión sobre la proporción de hombres en la población general. ¿Cuál es la probabilidad de que la proporción de hombres en la población general sea .55? Sin embargo, esta no es exactamente la pregunta que queremos responder en este tipo de casos. Más bien, nos preguntamos, ¿cuál es la probabilidad de que la verdadera proporción de hombres en la población general esté en algún rango a cada lado del .55? Podemos dar una respuesta precisa a esta pregunta; la respuesta depende del tamaño del rango que estés considerando de una manera familiar.

    Dado que la proporción de hombres de nuestra muestra es de .55, es relativamente más probable que la verdadera proporción en la población general esté cerca de ese número, menos probable que esté lejos. Por ejemplo, es más probable, dado el resultado de nuestra encuesta, que de hecho el 50% de la población sean hombres que que solo el 45% sean hombres. Y es aún menos probable que sólo el 40% sean hombres. El mismo patrón se mantiene en sentido contrario: es más probable que el verdadero porcentaje de hombres sea de 60% que 65%. En términos generales, cuanto más nos alejamos de los resultados de nuestra encuesta, menos probable es que tengamos el verdadero valor para la población general. La caída en probabilidades descrita toma la forma de una curva de campana:

    Screen Shot 2019-10-09 a las 12.04.33 AM.png

    La desviación estándar de .05 es una función de nuestro tamaño de muestra de 100. (Y la media (nuestro resultado de .55). Los detalles matemáticos del cálculo no tienen por qué detenernos.) Podemos utilizar los intervalos de confianza habituales —de nuevo, con 2 desviaciones estándar, 95.4% siendo práctica estándar— para interpretar los hallazgos de nuestra encuesta: estamos bastante seguros —por una suma del 95%— de que la población general está entre 45% y 65% de hombres.

    Esa es una gama bastante amplia. Nuestro resultado no es tan impresionante (sobre todo considerando el hecho de que sabemos que el número real está muy cerca del 50%). Pero eso es lo mejor que podemos hacer dadas las limitaciones de nuestra encuesta. La principal limitación, por supuesto, fue el tamaño de nuestra muestra: 100 personas simplemente no son muchas. Podríamos reducir el rango dentro del cual estamos 95% seguros si aumentamos el tamaño de nuestra muestra; hacerlo probablemente (aunque no ciertamente) nos daría una proporción en nuestra muestra más cercana al valor verdadero de (aproximadamente) .5. La relación entre el tamaño de la muestra y el ancho de los intervalos de confianza es puramente matemática. A medida que aumenta el tamaño de la muestra, la desviación estándar disminuye; la curva se estrecha:

    Screen Shot 2019-10-09 a las 12.04.38 AM.png

    El patrón de razonamiento que se muestra en nuestro ejemplo de juguete es el mismo que el utilizado en el muestreo en general. Quizás las instancias de muestreo más familiares en la vida cotidiana son las encuestas de opinión pública. En lugar de tratar de determinar la proporción de personas en la población general que son hombres (no es un verdadero misterio), los encuestadores de opinión tratan de determinar la proporción de una población determinada que, digamos, pretende votar por cierto candidato, o aprobar el trabajo que está haciendo el presidente, o cree en Bigfoot. Los encuestadores encuestan a una muestra de personas sobre la pregunta que nos ocupa, y terminan con un resultado: el 29% de los estadounidenses cree en Bigfoot, por ejemplo. (Aquí hay una encuesta real con ese resultado: angusreidglobal.com/wp-conten... 3.04_Myths.pdf)

    Pero el número del titular, como hemos visto, no cuenta toda la historia. El 29% de la muestra (en este caso, alrededor de mil estadounidenses) reportó creer en Bigfoot; no sigue con certeza que 29% de la población general (todos los estadounidenses) tiene esa creencia. Más bien, los encuestadores tienen cierto grado de confianza (nuevamente, 95% es estándar) de que el porcentaje real de estadounidenses que creen en Bigfoot está en algún rango alrededor del 29%. Es posible que haya escuchado el “margen de error” mencionado en relación con dichas encuestas. Esta frase se refiere al mismo rango del que estamos hablando. En la encuesta sobre Bigfoot, el margen de error es del 3%. (En realidad, es 3.1%, pero no importa.) Esa es la distancia desde la media (el 29% que se encuentra en la muestra) y los extremos de los dos intervalos de confianza de desviación estándar, el rango en el que estamos 95% seguros de que se encuentra el valor verdadero. Nuevamente, este rango es solo una función matemática del tamaño de la muestra: si el tamaño de la muestra es de alrededor de 100, el margen de error es de aproximadamente 10% (vea el ejemplo de juguete anterior: 2 SDs = .10); si el tamaño de la muestra es de alrededor de 400, se obtiene eso hasta 5%; a 600, está abajo al 4%; a alrededor de 1,000, 3%; para bajar al 2%, necesita alrededor de 2,500 en la muestra, y para bajar al 1%, se necesitan 10,000. (Dato matemático interesante: estas relaciones se mantienen sin importar cuán grande sea la población general de la que estés muestreando (siempre y cuando esté por encima de cierto umbral). Podría ser el tamaño de la población de Wisconsin o la población de China: si tu muestra es de 600 habitantes de Wisconsin, tu margen de error es de 4%; si son 600 chinos, sigue siendo 4%. Esto es contradictorio, pero cierto, al menos, en abstracto. Estamos omitiendo la dificultad muy seria que surge en las encuestas reales (que discutiremos anon): encontrar a los 600 habitantes de Wisconsin o chinos adecuados para que su encuesta sea confiable; China presentará más dificultad que Wisconsin). Entonces, el resultado real del resultado de la encuesta de Bigfoot es algo como esto: en algún lugar entre el 26% y el 32% de los estadounidenses creen en Bigfoot, y estamos 95% seguros de que ese es el rango correcto; o, para decirlo de otra manera, usamos un método para determinar la verdadera proporción de estadounidenses que creen en Bigfoot que puede ser esperaba determinar un rango en el que el valor verdadero realmente cae 95% de las veces, y el rango que resultó de nuestra aplicación del método en esta ocasión fue de 26% - 32%.

    Esa última frase, debemos admitir, sería un titular de periódico bastante pésimo (“¡29% de los estadounidenses cree en Bigfoot!” es mucho más sexy), pero es la presentación más honesta de lo que realmente muestran los resultados de este tipo de ejercicio de muestreo. El muestreo nos da un rango, que será más amplio o más estrecho dependiendo del tamaño de la muestra, y ni siquiera una garantía de que el valor real esté dentro de ese rango. Eso es lo mejor que podemos hacer; estos son argumentos inductivos, no deductivos.

    Por último, en el tema del muestreo, debemos reconocer que en la práctica real, el sondeo es duro. Las relaciones matemáticas entre el tamaño de la muestra y el margen de error/confianza que hemos anotado se mantienen en abstracto, pero las encuestas de la vida real pueden tener errores que van más allá de estas limitaciones teóricas sobre su precisión. Como nos mostraron las elecciones presidenciales de Estados Unidos de 2016, y el llamado voto “Brexit” en el Reino Unido ese mismo año, y muchos, muchos otros ejemplos a lo largo de la historia de las encuestas de opinión pública, las encuestas pueden ser sistemáticamente erróneas. El tipo de hechos que hemos estado declarando —que con un tamaño muestral de 600, una encuesta tiene un margen de error de 4% en el nivel de confianza del 95%— se mantienen solo en el supuesto de que existe una relación sistemática entre la muestra y la población general que se pretende representar; es decir, que la muestra es representante. Una muestra representativa refleja la población general; en el caso de las personas, esto significa que la muestra y la población en general tienen el mismo maquillaje demográfico—mismo porcentaje de personas mayores y jóvenes, blancos y personas de color, gente rica y pobre, etc., etc. Encuestas cuyas muestras son no representativos probablemente tergiversen la característica de la población que están tratando de capturar. Supongamos que quería saber qué porcentaje de la población estadounidense piensa favorablemente de Donald Trump. Si le preguntara a mil personas en, digamos, la zona rural de Oklahoma, obtendría un resultado; si le preguntara a mil personas en el centro de Manhattan, obtendría un resultado muy diferente. Ninguna de esas dos muestras es representativa de la población de Estados Unidos en su conjunto. Para obtener tal muestra, tendría que ser mucho más cuidadoso con respecto a quién encuesté. Un famoso ejemplo de la historia de las encuestas públicas ilustra las dificultades aquí con bastante dureza: en las elecciones presidenciales de Estados Unidos de 1936, los contendientes fueron el republicano Alf Landon de Kansas, y el presidente en ejercicio Franklin D. Roosevelt. Una revista (ahora desaparecida), Literary Digest realizó una encuesta con 2.4 millones (!) participantes, y predijeron que Landon ganaría en un deslizamiento de tierra. En cambio, perdió en un deslizamiento de tierra; FDR ganó la segunda de sus cuatro elecciones presidenciales. ¿Qué salió mal? Con un tamaño de muestra tan grande, el margen de error sería pequeño. El problema era que su muestra no era representativa de la población estadounidense. Eligieron a los participantes al azar de tres fuentes: a) su lista de suscriptores; b) formularios de registro de automóviles; y c) listados telefónicos. El problema con este procedimiento de selección es que los tres grupos tendían a ser más ricos que la media. Esto fue 1936, durante las profundidades de la Gran Depresión. La mayoría de la gente no tenía suficientes ingresos disponibles para suscribirse a revistas, y mucho menos tener teléfonos o autos propios. Por lo tanto, la encuesta sobremuestreó a los votantes republicanos y obtuvo resultados sesgados. Incluso una muestra grande y aparentemente aleatoria puede llevar a uno por mal camino. Esto es lo que hace tan difícil el sondeo: encontrar muestras representativas es difícil. (Es aún más difícil de lo que este párrafo pretende ser. Por lo general, es imposible que una muestra —la gente con la que ha hablado por teléfono sobre el presidente o lo que sea— refleje exactamente la demografía de la población. Por lo que los encuestadores tienen que ponderar las respuestas de ciertos miembros de su muestra más que otros para suplir estas discrepancias. Esto es más arte que ciencia. Diferentes encuestadores, presentados con exactamente los mismos datos, tomarán diferentes decisiones sobre cómo ponderar las cosas, y terminarán reportando diferentes resultados. Vea esta fascinante pieza para un ejemplo: www.nytimes.com/interactive/2... about.html_r=0)

    Otras dificultades prácticas con las encuestas son dignas de mención. Primero, la forma en que está redactada tu pregunta de sondeo puede marcar una gran diferencia en los resultados que obtienes. Como discutimos en el Capítulo 2, el encuadre de un tema —las palabras utilizadas para especificar una política o posición en particular— puede tener un efecto dramático sobre cómo se sentirá una persona relativamente desinformada al respecto. Si quisieras conocer la opinión del público estadounidense sobre si es o no una buena idea gravar la transferencia de riqueza a los herederos de personas cuyas tenencias son más de 5.5 millones de dólares más o menos, obtendrías un conjunto de respuestas si te refirieras a la política como un “impuesto patrimonial”, un conjunto diferente de respuestas si referías a ella como un “impuesto de sucesiones”, y un conjunto aún diferente si lo llamaste el “impuesto de defunciones”. Una encuesta de residentes de Tennessee encontró que 85% se opuso a “Obamacare”, mientras que solo 16% se opuso a “Asegurar Tennessee” (son lo mismo, por supuesto). (Fuente: http://www.nbcnews.com/politics/elec... -power-n301031) Incluso ligeros cambios en la redacción de las preguntas pueden alterar los resultados de una encuesta de opinión. Es por ello que la firma encuestadora Gallup no ha cambiado la redacción de su pregunta de aprobación presidencial desde la década de 1930. Siempre preguntan: “¿Aprueba o desaprueba la forma en que [nombre del presidente] está manejando su trabajo como Presidente?” Una desviación de esta redacción estándar puede producir resultados diferentes. El bufete de encuestas Ipsos encontró que sus encuestas eran más favorables que las de otras para el presidente. Ellos rastrearon la discrepancia a la manera diferente en que formularon su pregunta, dando una opción adicional: “¿Aprueba, desaprueba o tiene sentimientos encontrados sobre la forma en que Barack Obama está manejando su trabajo como presidente?” (spotlight.ipsos-na.com/index... on-wording-on-levels-of-presidencial-support/) Una conjetura: el índice de aprobación de Obama bajaría si los encuestadores incluyeran su segundo nombre (Hussein) al hacer la pregunta. Pequeños cambios pueden marcar una gran diferencia.

    Otra dificultad con las encuestas es que algunas preguntas son más difíciles de obtener datos confiables que otras, simplemente porque involucran temas sobre los que las personas tienden a ser falsas. Preguntarle a alguien si aprueba el trabajo que está haciendo el presidente es una cosa; preguntarle si alguna vez ha engañado o no a sus impuestos, digamos, es otra muy distinta. Probablemente no le da miedo compartir su opinión sobre la primera pregunta; va a ser mucho más reacio a ser veraz sobre esta última (asumiendo que alguna vez ha estropeado las cosas en sus declaraciones de impuestos). Hay muchas cosas que sería difícil descubrir por esta razón: la frecuencia con la que las personas usan hilo dental, cuánto beben, si hacen ejercicio o no, sus hábitos sexuales, etc. A veces esta renuencia a compartir la verdad sobre uno mismo es bastante consecuente: algunos expertos piensan que la razón por la que las encuestas no lograron predecir la elección de Donald Trump como presidente de Estados Unidos en 2016 fue que algunos de sus partidarios eran “tímidos” —reacios a admitir que apoyaron lo polémico candidato. (Ver aquí, por ejemplo: https://www.washingtonpost.com/news/...=.f20212063a9c) No tuvieron tales reparos en la caseta de votación, sin embargo.

    Por último, quién hace la pregunta —y el contexto en el que se la pide— puede marcar una gran diferencia. La gente puede estar más dispuesta a responder preguntas en el relativo anonimato de una encuesta en línea, un poco menos dispuesta en el contexto algo más personal de una llamada telefónica, y aún menos comunicativa en una entrevista cara a cara. Los encuestadores utilizan todos estos métodos para recopilar datos, y los resultados varían en consecuencia. Por supuesto, estos factores se vuelven especialmente relevantes cuando la pregunta que se está sondeando es sensible, o algo sobre lo que la gente tiende a no ser honesta o comunicativa. Por poner un ejemplo: la mejor manera de descubrir con qué frecuencia la gente realmente usa hilo dental es probablemente con una encuesta anónima en línea. Probablemente la gente tendría más probabilidades de mentir sobre eso por teléfono, y aún más probable que lo haga en una conversación cara a cara. La peor fuente absoluta de datos sobre esa cuestión, perversamente, probablemente sería de las personas que más lo preguntan: odontólogos e higienistas dentales. Cada vez que entras para una limpieza, te preguntan con qué frecuencia te cepillas y usas hilo dental; y si eres como la mayoría de la gente, mientes, exagerando la asiduidad con la que atiendes a tu mantenimiento de salud dental (“Me cepillo después de cada comida y uso hilo dental dos veces al día, honesto”).

    Como fue el caso de las pruebas de hipótesis, la lógica del muestreo estadístico es relativamente clara. Las cosas se vuelven turbias, de nuevo, cuando los métodos abstractos directos confrontan los factores de confusión involucrados en la aplicación de la vida real.

    Ejercicios

    1. Yo y un grupo de mis amigos nos estamos preparando para jugar un emocionante juego de “hombres del ejército”. Juntos, tenemos a 110 de los pequeños soldados de juguete de plástico, suficientes para toda una batalla. No obstante, algunos tenemos más soldados que otros. Will, Brian y yo tenemos cada uno 25; Roger y Joe tenemos 11 cada uno; Dan tiene 4; John y Herb tienen cada uno 3; Mike, Jamie y Dennis tienen solo 1 cada uno.

    a) ¿Cuál es el número medio de hombres del ejército detenidos? ¿Cuál es la mediana?
    b) Jamie, por ejemplo, quizás esté comprensiblemente descontento con la distribución; yo, en cambio, estoy satisfecho con el arreglo. Al defender nuestras posiciones, cada uno de nosotros podría referirse a la “persona promedio” y al número de hombres del ejército que tiene. ¿Qué sentido de 'promedio', medio o mediano, debería usar Jamie para obtener una ventaja retórica? ¿Qué sentido debo usar?

    2. Considera gatos y perros: el tipo domesticado, las mascotas (los tigres no cuentan). Supongamos que produje un histograma para un número muy grande de gatos domésticos en función de su peso, e hice lo mismo con los perros de compañía. ¿Qué distribución tendría la mayor desviación estándar?

    3. Las alturas de los hombres normalmente se distribuyen, con una media de aproximadamente 70 pulgadas y una desviación estándar de aproximadamente 3 pulgadas. El 68.3% de los hombres se encuentran dentro de qué rango de alturas? ¿Dónde cae el 95.4% de ellos? ¿99.7%? Mi suegro medía 76 pulgadas de alto. ¿Qué porcentaje de hombres eran más altos que él?

    4. Las mujeres, en promedio, tienen niveles de hematocrito más bajos que los hombres. La media para las mujeres sanas es de 42%, con una desviación estándar de 3%. Supongamos que queremos probar la hipótesis nula de que Alice está sana. ¿Cuáles son las lecturas de hematocrito por encima y por debajo de las cuales el resultado de la prueba de Alice se consideraría significativo en el nivel .05?

    5. Entre las personas sanas, el nivel medio de glucosa en sangre (en ayunas) es de 90 mg/dL, con una desviación estándar de 9 mg/dL. ¿Cuáles son los niveles en el extremo alto y bajo del intervalo de confianza del 95.4%? Recientemente, me hicieron un análisis de sangre y obtuve un resultado de 100 mg/dL. ¿Este resultado es significativo en el nivel .05? Mi resultado fue marcado como potencialmente indicativo de que soy “prediabético” (la glucosa alta en sangre es un marcador de diabetes). Mi médico dijo que este es un nuevo estándar, ya que la diabetes está en la terise últimamente, pero no debería preocuparme porque no tenía sobrepeso y por lo demás estaba saludable. En comparación con un régimen de pruebas que solo señala a pacientes fuera de los dos intervalos de confianza de desviación estándar, ¿esta nueva práctica de marcar resultados a 100 mg/dL aumenta o disminuye la sensibilidad del cribado de diabetes? ¿Aumenta o disminuye su especificidad?

    6. Un derrame cerebral es cuando la sangre no llega a una parte del cerebro debido a una obstrucción de un vaso sanguíneo. A menudo, la obstrucción se debe a la aterosclerosis—un endurecimiento/estrechamiento de las arterias debido a la acumulación de placa. Los trazos pueden ser muy malos, así que sería bueno predecirlos. Investigaciones recientes han buscado un biomarcador potencialmente predictivo, y un estudio encontró que entre las víctimas de ictus había un nivel inusualmente alto de una enzima llamada mieloperoxidasa: la media fue de 583 pmol/L, con una desviación estándar de 48 pmol/L. (Ver este estudio: https://www.ncbi.nlm.nih.gov/pubmed/21180247) Supongamos que quisiéramos idear una prueba de cribado a partir de estos datos. Para garantizar que atrapamos al 99.7% de las posibles víctimas de un ictus, ¿qué rango de niveles de mieloperoxidasa deberían obtener un resultado “positivo” en la prueba? Si el nivel medio de mieloperoxidasa entre personas sanas es de 425 pmol/L, con una desviación estándar de 36 pmol/L, aproximadamente ¿qué porcentaje de personas sanas obtendrá un resultado positivo de nuestra prueba de tamizaje propuesta?

    7. Encuestas a una muestra de mil estadounidenses (supongamos que es representativa) y el 43% de ellos informan que creen que Dios creó a los seres humanos en su forma actual hace menos de 10 mil años. (Ver este suevey: http://www.gallup.com/poll/27847/Maj...Evolution.aspx) Al nivel de confianza del 95%, ¿cuál es el rango dentro del cual probablemente se encuentra el verdadero porcentaje?

    8. Miembros voluntarios de Mothers Against Drunk Driving realizaron una encuesta puerta a puerta en un dormitorio universitario un sábado por la noche, y descubrieron que los estudiantes beben y promedio de dos bebidas alcohólicas por semana. ¿Cuáles son algunas razones para dudar de los resultados de esta encuesta?


    This page titled 6.4: Conceptos y Técnicas Estadísticas Básicas is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by Matthew Knachel via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.