1.4: Qué encontrar en los datos

Última actualización
Guardar como PDF

Page ID: 149955

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Por qué necesitamos el análisis de datos

Bueno, si todo es tan complicado, ¿por qué analizar datos? Con frecuencia es evidente que una tienda tiene más clientes que la otra, o un medicamento es más efectivo, y así sucesivamente... —Esto es correcto, pero sólo en cierta medida. Por ejemplo, estos datos

2 3 4 2 1 2 2 0

Código\(\PageIndex{1}\) (Python):

2 3 4 2 1 2 2 0

es más o menos autoexplicativo. Es fácil decir que aquí hay una tendencia, y esta tendencia es muy probable 2. En realidad, es fácil usar solo un cerebro para analizar datos que contienen 5-9 objetos. Pero ¿qué pasa con estos datos?

88 22 52 31 51 63 32 57 68 27 15
20 26 3 33 7 35 17 28 32 8 19
60 18 30 104 0 72 51 66 22 44 75
87 95 65 77 34 47 108 9 105 24 29
31 65 12 82

Código\(\PageIndex{2}\) (Python):

88 22 52 31 51 63 32 57 68 27 15
20 26 3 33 7 35 17 28 32 8 19
60 18 30 104 0 72 51 66 22 44 75
87 95 65 77 34 47 108 9 105 24 29
31 65 12 82

(Este es el ejemplo de palabra real de algunas medidas de flores en orquídeas, se puede descargar de la carpeta de datos del libro como dact.txt.)

Es mucho más difícil decir algo de tendencia sin cálculos: hay demasiados objetos. Sin embargo, a veces la gran muestra es bastante fácil de entender:

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2

Código\(\PageIndex{3}\) (Python):

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2

Aquí todo es tan similar que otra vez, los métodos de análisis de datos serían redundantes.

Como conclusión, podríamos decir que se buscan métodos estadísticos en casos de (1) numerosos objetos y/o (2) cuando los datos no son uniformes. Y claro, si no hay una (como en los ejemplos anteriores) sino varias variables, nuestro cerebro no las maneja fácilmente y nuevamente necesitamos estadísticas.

Qué puede hacer el análisis de datos

En primer lugar, el análisis de datos puede caracterizar muestras, revelar tendencia central (por supuesto, si es aquí) y variación. Puedes pensar en ellos como sobre el objetivo y las desviaciones.
Luego, el análisis de datos revela diferencias entre muestras (generalmente dos muestras). Por ejemplo, en medicina es muy importante entender si existe una diferencia entre las características fisiológicas de dos grupos de pacientes: los que recibieron el medicamento en cuestión, y los que recibieron el placebo. No hay otra manera de entender si el medicamento funciona. Las pruebas estadísticas y las estimaciones del tamaño del efecto ayudarán a comprender la confiabilidad de la diferencia numéricamente.
El análisis de datos podría ayudar a comprender las relaciones dentro de los datos. Hay muchos tipos de relación. Por ejemplo, la asociación es la situación en la que frecuentemente ocurren dos cosas juntas (como relámpagos y truenos). El otro tipo es la correlación donde está la manera de medir la fuerza y el signo (positivo o negativo) de la relación. Y finalmente, las dependencias permiten no sólo detectar su presencia y medir su fuerza sino comprender la dirección y predecir el valor del efecto en situaciones desconocidas (se trata de un modelo estadístico).
Finalmente, el análisis de datos podría ayudar a subestimar la estructura de los datos. Esta es la parte más complicada de la estadística porque la estructura incluye múltiples objetos y múltiples variables. El resultado más importante del análisis de la estructura es la clasificación que, en palabras simples, es una herramienta definitiva para entender el mundo que nos rodea. Sin una clasificación adecuada, la mayoría de los problemas es imposible de resolver.

Todos los métodos anteriores incluyen tanto métodos de descripción (visualización), que explican la situación, como métodos inferenciales, que emplean teoría de probabilidad y otras matemáticas. Los métodos inferenciales incluyen muchas variedades (algunas de ellas explicadas a continuación en el texto principal y en los apéndices), por ejemplo, métodos paramétricos y no paramétricos, métodos robustos y métodos de remuestreo. También hay análisis que entran en varias de estas categorías.

Qué no puede hacer el análisis de datos

El análisis de datos no puede leer tu mente. Debes iniciar el análisis de datos solo si sabes cuáles son tus datos, y qué preguntas exactas necesitas responder.
El análisis de datos no puede darle certeza. La mayoría de los métodos inferenciales se basan en la teoría de la probabilidad.
El análisis de datos no refleja el mundo a la perfección. Siempre se basa en una muestra.