1.4: Las grandes ideas de la estadística

Última actualización
Guardar como PDF

Page ID: 150628

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

Hay una serie de ideas muy básicas que atraviesan casi todos los aspectos del pensamiento estadístico. Varios de estos son esbozados por Stigler (2016) en su destacado libro “Los siete pilares de la sabiduría estadística”, que he aumentado aquí.

1.4.1 Aprender de los datos

Una forma de pensar en la estadística es como un conjunto de herramientas que nos permiten aprender de los datos. En cualquier situación, comenzamos con un conjunto de ideas o hipótesis sobre lo que podría ser el caso. En el estudio PURE, los investigadores pueden haber comenzado con la expectativa de que comer más grasa conduciría a mayores tasas de mortalidad, dado el dogma negativo prevaleciente sobre las grasas saturadas. Posteriormente en el curso introduciremos la idea de conocimiento previo, que está destinado a reflejar los conocimientos que traemos a una situación. Este conocimiento previo puede variar en su fuerza, muchas veces basado en nuestra cantidad de experiencia; si visito un restaurante por primera vez es probable que tenga una débil expectativa de lo bueno que será, pero si visito un restaurante donde he comido diez veces antes, mis expectativas serán mucho más fuertes. Del mismo modo, si miro un sitio de reseñas de restaurantes y veo que la calificación promedio de cuatro estrellas de un restaurante solo se basa en tres reseñas, tendré una expectativa más débil que la que tendría si estuviera basada en 300 reseñas.

La estadística nos proporciona una manera de describir cómo se pueden utilizar mejor los nuevos datos para actualizar nuestras creencias, y de esta manera existen profundos vínculos entre la estadística y la psicología. De hecho, muchas teorías del aprendizaje humano y animal de la psicología están estrechamente alineadas con ideas del nuevo campo del aprendizaje automático. El aprendizaje automático es un campo en la interfaz de la estadística y la informática que se enfoca en cómo construir algoritmos informáticos que puedan aprender de la experiencia. Si bien las estadísticas y el aprendizaje automático suelen tratar de resolver los mismos problemas, los investigadores de estos campos suelen adoptar enfoques muy diferentes; el famoso estadístico Leo Breiman alguna vez se refirió a ellos como “Las dos culturas” para reflejar cuán diferentes pueden ser sus enfoques (Breiman 2001). En este libro intentaré mezclar las dos culturas porque ambos enfoques proporcionan herramientas útiles para pensar en datos.

1.4.2 Agregación

Otra forma de pensar en la estadística es “la ciencia de tirar datos”. En el ejemplo del estudio PURE anterior, tomamos más de 100 mil números y los condensamos en diez. Es este tipo de agregación el que es uno de los conceptos más importantes en estadística. Cuando se adelantó por primera vez, esto fue revolucionario: Si tiramos todos los detalles sobre cada uno de los participantes, entonces ¿cómo podemos estar seguros de que no nos falta algo importante?

Como veremos, la estadística nos proporciona formas de caracterizar la estructura de agregados de datos, y con fundamentos teóricos que explican por qué esto suele funcionar bien. Sin embargo, también es importante tener en cuenta que la agregación puede ir demasiado lejos, y más adelante nos encontraremos con casos en los que un resumen puede proporcionar una imagen engañosa de los datos que se están resumiendo.

1.4.3 Incertidumbre

El mundo es un lugar incierto. Ahora sabemos que fumar cigarrillos causa cáncer de pulmón, pero esta causalidad es probabilística: Un hombre de 68 años que fumó dos paquetes al día durante los últimos 50 años y sigue fumando tiene un riesgo del 15% (1 de 7) de contraer cáncer de pulmón, que es mucho mayor que la probabilidad de cáncer de pulmón en un no fumador. No obstante, también significa que habrá mucha gente que fuma toda su vida y nunca contraiga cáncer de pulmón. La estadística nos proporciona las herramientas para caracterizar la incertidumbre, para tomar decisiones bajo incertidumbre y para hacer predicciones cuya incertidumbre podemos cuantificar.

A menudo se ve a los periodistas escribir que los investigadores científicos han “probado” alguna hipótesis. Pero el análisis estadístico nunca puede “probar” una hipótesis, en el sentido de demostrar que debe ser cierta (como se haría en una prueba lógica o matemática). La estadística nos puede aportar evidencia, pero siempre es tentativa y sujeta a la incertidumbre que siempre está presente en el mundo real.

1.4.4 Muestreo

El concepto de agregación implica que podemos hacer insights útiles colapsando entre los datos, pero ¿cuántos datos necesitamos? La idea de muestreo dice que podemos resumir una población entera a partir de apenas un pequeño número de muestras de la población, siempre y cuando esas muestras se obtengan de la manera correcta. Por ejemplo, el estudio PURE inscribió una muestra de alrededor de 135 mil personas, pero su objetivo era proporcionar información sobre los miles de millones de humanos que conforman la población de la que se tomaron muestras de esas personas. Como ya comentamos anteriormente, la forma en que se obtiene la muestra de estudio es crítica, ya que determina cuán ampliamente podemos generalizar los resultados. Otra visión fundamental sobre el muestreo es que si bien las muestras más grandes siempre son mejores (en términos de su capacidad para representar con precisión a toda la población), hay rendimientos decrecientes a medida que la muestra se hace más grande. De hecho, la velocidad a la que disminuye el beneficio de muestras más grandes sigue una regla matemática simple, creciendo como la raíz cuadrada del tamaño de la muestra, de tal manera que para duplicar la calidad de nuestros datos necesitamos cuadruplicar el tamaño de nuestra muestra.

Search

Text Color

Text Size

Margin Size

Font Type