Saltar al contenido principal
LibreTexts Español

3.6: Valores atípicos, y cómo encontrarlos

  • Page ID
    150010
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Los problemas que surgen al escribir datos no se limitan a celdas vacías. También son comunes los tipos erróneos y otros tipos de errores, y entre ellos los más notorios están los valores atípicos, valores de datos altamente desviados. Algunos valores atípicos no podían ser ni siquiera errores de tipo, provienen de los datos altamente heterogéneos. Independientemente del origen, dificultan significativamente el análisis de datos ya que muchos métodos estadísticos simplemente no son aplicables a los conjuntos con valores atípicos.

    La forma más fácil de capturar valores atípicos es observar el máximo y el mínimo para las variables numéricas, y en la tabla de frecuencias para las variables de carácter. Esto se podría hacer con la práctica función summary (). Entre los métodos de plotting, boxplot () (y boxplot.stats ()) es probablemente el mejor método para visualizar valores atípicos.

    Mientras que si es bastante fácil detectar un valor que difiere del rango normal de mediciones en un orden de magnitud, digamos “17” en lugar de “170” cm de altura, un error de mecanografía de “171” en lugar de “170” es casi imposible de encontrar. Aquí nos basamos en la naturaleza estadística de los datos: cuantas más mediciones tengamos, menos importará cualquier error individual.

    Existen múltiples procedimientos estadísticos robustos que no están tan influenciados por los valores atípicos. Muchos de ellos también son no paramétricos, es decir, no son sensibles a los supuestos sobre la distribución de los datos. Discutiremos algunos métodos robustos más adelante.

    Relacionado con los valores atípicos está el error común al cargar datos, ignorando los encabezados cuando realmente existen:

    Código\(\PageIndex{1}\) (R):

    m1 <- read.table("data/mydata.txt", sep=";") # wrong!
    str(m1)
    m2 <- read.table("data/mydata.txt", sep=";", h=TRUE) # correct!
    str(m2)

    Command read.table () convierte columnas enteras en factores (o vectores de caracteres) incluso si un valor de datos no es un número apropiado. Este comportamiento es útil para identificar tipos erróneos, como “O” (letra O) en lugar de “0” (cero), pero dará lugar a problemas si los encabezados no se definen explícitamente. Para diagnosticar problema, use str (), ayuda a distinguir entre la forma incorrecta y correcta. ¡No olvides usar str () todo el tiempo mientras trabajas en R!


    This page titled 3.6: Valores atípicos, y cómo encontrarlos is shared under a Public Domain license and was authored, remixed, and/or curated by Alexey Shipunov via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.