Saltar al contenido principal

# Unidad 2: Producción de datos

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$

( \newcommand{\kernel}{\mathrm{null}\,}\) $$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\id}{\mathrm{id}}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\kernel}{\mathrm{null}\,}$$

$$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$

$$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$

$$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

$$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$$

$$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$$

$$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vectorC}[1]{\textbf{#1}}$$

$$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$$

$$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$$

$$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$$

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\avec}{\mathbf a}$$ $$\newcommand{\bvec}{\mathbf b}$$ $$\newcommand{\cvec}{\mathbf c}$$ $$\newcommand{\dvec}{\mathbf d}$$ $$\newcommand{\dtil}{\widetilde{\mathbf d}}$$ $$\newcommand{\evec}{\mathbf e}$$ $$\newcommand{\fvec}{\mathbf f}$$ $$\newcommand{\nvec}{\mathbf n}$$ $$\newcommand{\pvec}{\mathbf p}$$ $$\newcommand{\qvec}{\mathbf q}$$ $$\newcommand{\svec}{\mathbf s}$$ $$\newcommand{\tvec}{\mathbf t}$$ $$\newcommand{\uvec}{\mathbf u}$$ $$\newcommand{\vvec}{\mathbf v}$$ $$\newcommand{\wvec}{\mathbf w}$$ $$\newcommand{\xvec}{\mathbf x}$$ $$\newcommand{\yvec}{\mathbf y}$$ $$\newcommand{\zvec}{\mathbf z}$$ $$\newcommand{\rvec}{\mathbf r}$$ $$\newcommand{\mvec}{\mathbf m}$$ $$\newcommand{\zerovec}{\mathbf 0}$$ $$\newcommand{\onevec}{\mathbf 1}$$ $$\newcommand{\real}{\mathbb R}$$ $$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$$ $$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$$ $$\newcommand{\bcal}{\cal B}$$ $$\newcommand{\ccal}{\cal C}$$ $$\newcommand{\scal}{\cal S}$$ $$\newcommand{\wcal}{\cal W}$$ $$\newcommand{\ecal}{\cal E}$$ $$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$$ $$\newcommand{\gray}[1]{\color{gray}{#1}}$$ $$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$$ $$\newcommand{\rank}{\operatorname{rank}}$$ $$\newcommand{\row}{\text{Row}}$$ $$\newcommand{\col}{\text{Col}}$$ $$\renewcommand{\row}{\text{Row}}$$ $$\newcommand{\nul}{\text{Nul}}$$ $$\newcommand{\var}{\text{Var}}$$ $$\newcommand{\corr}{\text{corr}}$$ $$\newcommand{\len}[1]{\left|#1\right|}$$ $$\newcommand{\bbar}{\overline{\bvec}}$$ $$\newcommand{\bhat}{\widehat{\bvec}}$$ $$\newcommand{\bperp}{\bvec^\perp}$$ $$\newcommand{\xhat}{\widehat{\xvec}}$$ $$\newcommand{\vhat}{\widehat{\vvec}}$$ $$\newcommand{\uhat}{\widehat{\uvec}}$$ $$\newcommand{\what}{\widehat{\wvec}}$$ $$\newcommand{\Sighat}{\widehat{\Sigma}}$$ $$\newcommand{\lt}{<}$$ $$\newcommand{\gt}{>}$$ $$\newcommand{\amp}{&}$$ $$\definecolor{fillinmathshade}{gray}{0.9}$$

CO-1: Describir los roles que la bioestadística desempeña en la disciplina de la salud pública.

##### Video

Video: Introducción a la producción de datos (4:35)

## Reseña del Big Picture

##### Objetivos de aprendizaje

LO 1.3: Identificar y diferenciar entre los componentes del Panorama General de la Estadística

Recordemos “The Big Picture”, el proceso de cuatro pasos que abarca la estadística: producción de datos, análisis exploratorio de datos, probabilidad e inferencia.

En la unidad anterior, se consideró el análisis exploratorio de datos, el descubrimiento de patrones en los datos brutos. En esta unidad, retrocedemos y examinamos el primer paso en el proceso: la producción de datos. Esta unidad tiene dos temas principales: muestreo y diseño del estudio.

## Introducción a la producción de datos

En el primer paso de la estadística “Big Picture”, producimos datos. La producción de datos tiene dos etapas.

• Primero tenemos que elegir los individuos de la población que serán incluidos en la muestra.
• Entonces, una vez que hayamos elegido a los individuos, necesitamos recopilar datos de ellos.

La primera etapa se llama muestreo, y la segunda etapa se llama diseño de estudio.

Como hemos visto, el análisis exploratorio de datos busca iluminar patrones en los datos resumiendo las distribuciones de variables cuantitativas o categóricas, o las relaciones entre variables.

En la parte final del curso, inferencia estadística, utilizaremos los resúmenes sobre variables o relaciones que se obtuvieron en el estudio para sacar conclusiones sobre lo que es cierto para toda la población de la que se eligió la muestra.

Para que este proceso “funcione” de manera confiable, es fundamental que la muestra sea verdaderamente representativa de la población más grande. Por ejemplo, si los investigadores quieren determinar si el antidepresivo Zoloft es efectivo para los adolescentes en general, entonces no sería buena idea probarlo solo en una muestra de adolescentes que han sido ingresados en un hospital psiquiátrico, porque su depresión puede ser más severa, y menos tratable, que eso de adolescentes en general.

Así, la primera etapa en la producción de datos, el muestreo, debe realizarse de tal manera que la muestra realmente represente a la población de interés.

Elegir una muestra es solo la primera etapa en la producción de datos, por lo que no basta con asegurarse de que la muestra sea representativa. También debemos recordar que nuestros resúmenes de variables y sus relaciones solo son válidos si estos han sido evaluados adecuadamente.

Por ejemplo, si los investigadores quieren probar la efectividad de Zoloft versus Prozac para tratar a adolescentes, no sería una buena idea simplemente comparar los niveles de depresión para un grupo de adolescentes que están usando Zoloft con los niveles de depresión para un grupo de adolescentes que están usando Prozac. Si descubren que un grupo de pacientes resulta estar menos deprimido, podría ser que los adolescentes con depresión menos grave tienen más probabilidades de que se les recete uno de los medicamentos sobre el otro.

En situaciones como esta, el diseño para producir datos debe ser considerado cuidadosamente. Los estudios deben diseñarse para descubrir lo que queremos saber sobre las variables de interés para los individuos de la muestra.

En particular, si lo que se quiere saber de las variables es si existe una relación causal entre ellas, se debe prestar especial atención al diseño del estudio (ya que, como sabemos, la asociación no implica causalidad).

En esta unidad, nos centraremos en estas dos etapas de producción de datos: obtener una muestra y diseñar un estudio.

A lo largo de esta unidad, establecemos pautas para la producción ideal de datos. Si bien mantendremos estas pautas como estándares por los que luchar, de manera realista rara vez es posible llevar a cabo un estudio que esté completamente libre de fallas. Con frecuencia se debe aplicar el sentido común para decidir con qué imperfecciones podemos vivir y cuáles podrían socavar completamente los resultados de un estudio.

Una muestra que produce datos que no son representativos debido a la subestimación sistemática o sobreestimación de los valores de la variable de interés se denomina sesgada. El sesgo puede ser el resultado de un plan de muestreo deficiente o de un mal diseño para evaluar la variable de interés.

Comenzamos esta unidad enfocándonos en lo que constituye un plan de muestreo bueno, o malo, después de lo cual discutiremos el diseño del estudio.

Unidad 2: Producción de datos is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by LibreTexts.