Saltar al contenido principal
LibreTexts Español

8.8: Variabilidad- ¿Qué tan bien se ajusta la media a los datos?

  • Page ID
    150841
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Una vez que hemos descrito la tendencia central de los datos, a menudo también queremos describir qué tan variables son los datos; esto a veces también se conoce como “dispersión”, reflejando el hecho de que describe cuán dispersos son los datos.

    Ya nos hemos encontrado con la suma de errores al cuadrado anterior, que es la base de las medidas de variabilidad más utilizadas: la varianza y la desviación estándar. La varianza para una población (denominada σ 2) es simplemente la suma de errores cuadrados dividida por el número de observaciones, es decir, es exactamente lo mismo que el error cuadrático medio que encontró anteriormente:

    \(\ \sigma^2=\frac{SSE}{N}=\frac{\sum_{i=1}^n(x_i - \mu)^2}{N}\)

    donde μ es la media poblacional. La desviación estándar es simplemente la raíz cuadrada de esto —es decir, el error medio cuadrático de raíz que vimos antes. La desviación estándar es útil porque los errores están en las mismas unidades que los datos originales (deshaciendo la cuadratura que aplicamos a los errores).

    Normalmente no tenemos acceso a toda la población, por lo que tenemos que calcular la varianza utilizando una muestra, a la que nos referimos como\(\ \hat{\sigma}^2\), con el “sombrero” representando el hecho de que esta es una estimación basada en una muestra. La ecuación para\(\ \hat{\sigma}^2\) es similar a la de σ 2:

    \(\ \hat{\sigma}^2=\frac{\sum_{i=1}^N(x_i - \bar{X})^2}{n-1}\)

    La única diferencia entre las dos ecuaciones es que dividimos por n - 1 en lugar de N. Esto se relaciona con un concepto estadístico fundamental: grados de libertad. Recuerde que para calcular la varianza de la muestra, primero tuvimos que estimar la media de la muestra\(\ \bar{X}\). Habiendo estimado esto, un valor en los datos ya no es libre de variar. Por ejemplo, digamos que tenemos los siguientes puntos de datos para una variable x: [3, 5, 7, 9, 11], cuya media es 7. Debido a que sabemos que la media de este conjunto de datos es 7, podemos calcular cuál sería cualquier valor específico si faltara. Por ejemplo, digamos que íbamos a oscurecer el primer valor (3). Habiendo hecho esto, todavía sabemos que su valor debe ser 3, porque la media de 7 implica que la suma de todos los valores es 7*n=35 y 35− (5+7+9+11) =3.

    Entonces, cuando decimos que hemos “perdido” cierto grado de libertad, significa que hay un valor que no es libre de variar después de encajar el modelo. En el contexto de la varianza de la muestra, si no se tiene en cuenta el grado de libertad perdido, entonces nuestra estimación de la varianza muestral será sesgada, provocando que subestimaremos la incertidumbre de nuestra estimación de la media.


    This page titled 8.8: Variabilidad- ¿Qué tan bien se ajusta la media a los datos? is shared under a not declared license and was authored, remixed, and/or curated by Russell A. Poldrack via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.