Adelante

Última actualización
Guardar como PDF

Page ID: 150058

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Este libro está escrito para quienes quieran aprender a analizar datos. Este reto surge con frecuencia cuando se necesita determinar un hecho previamente desconocido. Por ejemplo: ¿este nuevo medicamento tiene algún efecto en los síntomas de un paciente? O bien: ¿Hay alguna diferencia entre la calificación pública de dos políticos? O: ¿cómo cambiarán los precios del petróleo en la próxima semana? Podrías pensar que puedes encontrar la respuesta a tal pregunta simplemente mirando los números. Desafortunadamente este no suele ser el caso.

¿Los resultados de esta encuesta de salida te dicen que el candidato A ganó la elección?

Después de encuestar a 262 personas que salían de un sitio de votación, se encontró que 52% votó por el candidato A y 48% por el candidato B.

Solución

Pensándolo, muchos dirían “sí”, y luego, considerándolo por un momento, “Bueno, no sé, ¿quizás?” Pero hay una simple (desde el punto de vista de los programas informáticos modernos) “prueba de proporción” que te dice no solo la respuesta (en este caso, “No, los resultados de la encuesta de salida no indican que el Candidato A ganó la elección”) sino que además te permite calcular cuántas personas necesitarías encuestar para poder para responder a esa pregunta. En este caso, la respuesta sería “alrededor de 5 mil personas” —vea la explicación al final del capítulo sobre datos unidimensionales.

El desconocimiento de los métodos estadísticos puede conducir a errores e interpretaciones erróneas. Desafortunadamente, la comprensión de estos métodos está lejos de ser común. Muchas carreras universitarias requieren un curso de teoría de probabilidad y estadística matemática, pero todo lo que muchos de nosotros recordamos de estos cursos es horror y/o frustración ante fórmulas matemáticas complejas llenas de letras griegas, algunas de ellas con sombreros.

Es cierto que la teoría de probabilidad forma la base de la mayoría de los métodos de análisis de datos pero por otro lado, la mayoría de la gente usa nevera sin conocimientos sobre termodinámica y ciclo Carnot. Para los fines prácticos del análisis de datos, no es necesario que sea completamente fluido en la estadística matemática y la teoría de probabilidad. Por ello, intentamos seguir a Steven Hawking quien en el “Una breve historia del tiempo” afirmó que “... alguien me dijo que cada ecuación que incluyera en el libro reduciría a la mitad las ventas. Por lo tanto, resolví no tener ninguna ecuación en absoluto..”. En consecuencia, sólo hay una ecuación en este libro. Por cierto, un ejercicio interesante es sólo para encontrarlo. Aún mejor, el enfoque casi ideal sería el libro cercano a “Thing Explainer” de R. Munroe\(^{(1)}\) donde se explican conceptos complicados usando diccionario de 1,000 palabras inglesas más frecuentes.

Con todo, este libro es el tipo de “estadística sin matemáticas”, pero con R.

Sin embargo, se requiere cierta precaución para los lectores de tales libros: muchos métodos de análisis estadístico tienen, por así decirlo, un fondo falso. Puede aplicar estos métodos sin profundizar en los principios subyacentes, obtener resultados y discutir estos resultados en su informe. Pero es posible que algún día encuentre que un método dado era totalmente inadecuado para los datos que tenía, y por lo tanto sus conclusiones no son válidas. Debes ser cuidadoso y consciente de las limitaciones de cualquier método que intentes usar y determinar si son aplicables a tu situación.

En ejemplos: Este libro se basa en un software que ejecuta archivos de datos, y hemos hecho que la mayoría de los archivos de datos utilizados aquí estén disponibles para descargar desde

http://ashipunov.info/data

Recomendamos copiar archivos de datos al subdirectorio de datos de su directorio de trabajo; uno de los métodos posibles es abrir esta URL en el navegador y descargar todos los archivos. Entonces todos los ejemplos de código deberían funcionar sin conexión a Internet.

Sin embargo, puedes cargar datos directamente desde la URL anterior. Si decides trabajar en línea, entonces la convención es que cuando los libros dicen "data/... “, sustitúyalo por" http://ashipunov.info/data/...”.

Algunos datos también están disponibles en el repositorio abierto del autor en

http://ashipunov.info/shipunov/open

La mayoría de los problemas de ejemplo en este libro pueden y deben reproducirse de forma independiente. Estos ejemplos están escritos en fuente de máquina de escribir y comienzan con el símbolo >. Si un ejemplo no encaja en una línea, un signo + indica la continuación de la línea, ¡así que no escriba los signos + (y >) al reproducir el código!

Todos los comandos utilizados en el texto de este libro se pueden descargar como un gran guión R (colección de comandos de texto) de http://ashipunov.info/shipunov/school/biol_240/en/visual_statistics.r.

El libro también contiene suplementos, aquí se presentan tanto como carpetas con cremallera como sin cremallera:

http://ashipunov.info/shipunov/school/biol_240/en/supp

Las funciones personalizadas utilizadas en este libro podrían cargarse usando la URL base

http://ashipunov.info/shipunov/r/

En el texto, todas estas funciones se comentan con un nombre de archivo a fuente, como

Código\(\PageIndex{1}\) (Python):

... # asmisc.r

Por lo tanto, si ve esta etiqueta y desea cargar asmisc.r, ejecute lo siguiente:

Código\(\PageIndex{2}\) (Python):

source("http://ashipunov.info/r/asmisc.r")

(Seguirán más explicaciones.)

Otros archivos como gmoon.r y recode.r deben cargarse de manera similar.

Si desea cargar todas las funciones personalizadas juntas, cargue un archivo shipunov.r desde la misma URL base.

Ahora sobre cómo se estructura este libro. El primer capítulo es casi enteramente teórico. Si no tienes ganas de leer estas discusiones, puedes saltarlas al siguiente capítulo. Pero el primer capítulo contiene información que te ayudará a evitar muchas trampas comunes. En el segundo capítulo, las secciones más importantes son las que comienzan con “Cómo descargar e instalar R”, que explican cómo trabajar con R. Por lo tanto, es crucial dominar el material en estas secciones. Recomendamos leer atentamente y resolver todos los problemas de esta sección. Capítulos posteriores conforman el núcleo del libro, explicando el análisis de datos de datos unidimensionales y bidimensionales.

Capítulo muy grande, casi un libro separado, está dedicado al “aprendizaje automático”, datos multidimensionales.

Cada apéndice es un pequeño manual que se puede utilizar más o menos independientemente del resto del libro. Y al final del libro, hay dos adjuntos, la tarjeta de referencia R de una página (“hoja de referencia”), y también la tarjeta de referencia a funciones personalizadas.

Por supuesto, muchos métodos estadísticos, entre ellos bastante importantes, no se discuten en este libro. Descuidamos casi por completo el modelado estadístico, no discutimos contrastes, no examinamos distribuciones estándar además de la normal, no cubrimos curvas de supervivencia, análisis factorial, geoestadística, no hablamos de cómo hacer análisis multifactorial o de bloques de variación, regresión multivariada y ordinal, diseño de experimentos, y mucho más. El objetivo es explicar los fundamentos del análisis estadístico (con énfasis en problemas biológicos). Habiendo dominado los conceptos básicos, los métodos más avanzados pueden ser captados sin mucha dificultad con la ayuda de la literatura académica, la documentación interna y los recursos en línea.

Este libro fue escrito y publicado por primera vez en ruso. El autor principal (Alexey Shipunov) está sumamente agradecido con todos los que participaron en la redacción, edición y traducción. A continuación se enumeran algunos nombres: Eugene Baldin, Polina Volkova, Anton Korobeinikov, Sofía Nazarova, Sergei Petrov, Vadim Sufijanov, Alexandra Mushegjan. Y muchas gracias a la editora, Yuta Tamberg quien hizo un gran trabajo al mejorar y aclarar el texto.

Tenga en cuenta que el libro está en desarrollo. Si lo obtuvo de otro lugar, no dude en verificar la actualización desde la ubicación principal (busque URL en la segunda página).

Referencias

1. https://xkcd.com/thing-explainer