Saltar al contenido principal
LibreTexts Español

4.3: Independencia

  • Page ID
    149144
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje
    • La mayoría de las pruebas estadísticas asumen que se tiene una muestra de observaciones independientes, lo que significa que el valor de una observación no afecta el valor de otras observaciones. Las observaciones no independientes pueden hacer que tu prueba estadística dé demasiados falsos positivos.

    Variables de medición

    Uno de los supuestos de la mayoría de las pruebas es que las observaciones son independientes entre sí. Esta suposición se viola cuando el valor de una observación tiende a ser demasiado similar a los valores de otras observaciones. Por ejemplo, digamos que querías saber si los gatos calicó tenían un peso medio diferente al de los gatos negros. Obtienes cinco gatos calicó, cinco gatos negros, los pesas y comparas los pesos medios con una prueba t —de dos muestras. Si los cinco gatos percal son todos de una camada, y los cinco gatos negros son todos de una segunda camada, entonces las mediciones no son independientes. Algunos padres gatos tienen descendencia pequeña, mientras que algunos tienen grandes; así que si Josie el gato calicó es pequeña, sus hermanas Valerie y Melody no son muestras independientes de todos los gatos calicó, en cambio también es probable que sean pequeños. Incluso si la hipótesis nula (que percal y gatos negros tienen el mismo peso medio) es cierta, tu probabilidad de obtener un\(P\) valor menor que\(0.05\) podría ser mucho mayor que\(5\%\).

    Una fuente común de no independencia es que las observaciones están muy juntas en el espacio o el tiempo. Por ejemplo, digamos que querías saber si los tigres de un zoológico eran más activos por la mañana o por la noche. Como medida de actividad, le pones un podómetro a Sally la tigre y cuentas el número de pasos que da en un periodo de un minuto. Si tratas el número de pasos que Sally toma entre\(10:00a.m.\) y\(10:01a.m.\) como una observación, y el número de pasos entre\(10:01a.m.\) y\(10:02a.m.\) como una observación separada, estas observaciones no son independientes. Si Sally está durmiendo de\(10:00\) a\(10:01\), probablemente todavía esté durmiendo de\(10:01\) a\(10:02\); si está caminando de un lado a otro entre\(10:00\) y\(10:01\), probablemente todavía esté caminando entre\(10:01\) y\(10:02\). Si toma cinco observaciones entre\(10:00\) y\(10:05\) y las compara con cinco observaciones que toma entre\(3:00\) y\(3:05\) con una\(t\) prueba de dos muestras, es muy probable que obtenga cinco mediciones de baja actividad por la mañana y cinco mediciones de alta actividad en el tarde, o viceversa. Esto aumenta tu probabilidad de un falso positivo; si la hipótesis nula es cierta, la falta de independencia puede darte un\(P\) valor significativo mucho más que\(5\%\) de la época.

    Hay otras formas en las que podrías obtener falta de independencia en tu estudio de tigre. Por ejemplo, podrías poner podómetros en otros cuatro tigres —Bob, Janet, Ralph y Loretta— en el mismo recinto que Sally, medir la actividad de los cinco entre\(10:00\) y\(10:01\), y tratarlo como cinco observaciones separadas. Sin embargo, puede ser que cuando un tigre se levanta y comienza a caminar, es probable que los otros tigres lo sigan y vean lo que está haciendo, mientras que en otras ocasiones es probable que los cinco tigres estén descansando. Eso significaría que la cantidad de actividad de Bob no es independiente de la de Sally; cuando Sally es más activa, es probable que Bob sea más activo.

    La regresión y la correlación suponen que las observaciones son independientes. Si una de las variables de medición es el tiempo, o si las dos variables se miden en momentos diferentes, los datos suelen ser no independientes. Por ejemplo, si quisiera saber si estaba perdiendo peso, podría pesarme todos los días y luego hacer una regresión de peso vs día. No obstante, mi peso en un día es muy similar a mi peso del día siguiente. Aunque la hipótesis nula sea cierta de que no estoy ganando o perdiendo peso, la no independencia hará que la probabilidad de obtener un\(P\) valor sea menor que\(0.05\) mucho mayor que\(5\%\).

    He puesto una discusión más extensa sobre la independencia en la página de regresión/correlación.

    Variables nominales

    Las pruebas de variables nominales (independencia o bondad de ajuste) también asumen que las observaciones individuales son independientes entre sí. Para ilustrar esto, digamos que quiero saber si mi clase de estadística es más aburrida que mi clase de evolución. Pongo una cámara de video observando a los alumnos en una conferencia de cada clase, luego cuento el número de alumnos que bostezan al menos una vez. En estadística,\(28\) los estudiantes bostezan y\(15\) no bostezan; en la evolución,\(6\) bostezan y\(50\) no bostezan. Parece que hay una proporción significativamente (\(P=2.4\times 10^{-8}\)) mayor de bostezos en la clase de estadística, pero eso podría deberse al azar, porque las observaciones dentro de cada clase no son independientes entre sí. El bostezo es contagioso (tan contagioso que probablemente estés bostezando ahora mismo, ¿no?) , lo que significa que si una persona cerca del frente de la habitación en las estadísticas pasa a bostezar, es probable que otras personas que puedan ver al bostezo también bostecen. Entonces, la probabilidad de que Ashley en las estadísticas bostece no es independiente de si Sid bosteza; una vez que Sid bostece, Ashley probablemente también bostezará, y luego Megan bostezará, y luego Dave bostezará.

    Soluciones para la falta de independencia

    A diferencia de la no normalidad y la heterocedasticidad, no es fácil mirar tus datos y ver si los datos no son independientes. Necesitas entender la biología de tus organismos y diseñar cuidadosamente tu experimento para que las observaciones sean independientes. Para tu comparación de los pesos de los gatos calicó vs. los gatos negros, debes saber que los gatos de la misma camada probablemente tengan un peso similar; por lo tanto, podrías asegurarte de probar solo un gato de cada una de las muchas camadas. También podrías muestrear varios gatos de cada camada, pero tratar la “camada” como una segunda variable nominal y analizar los datos usando anova anidado. Para Sally la tigre, podrías saber por investigaciones anteriores que los ataques de actividad o inactividad en tigres duran\(5\) hasta\(10\) minutos, de modo que podrías tratar las observaciones de un minuto hechas con una hora de diferencia como independientes. O quizás sepas por investigaciones anteriores que la actividad de un tigre no tiene ningún efecto sobre otros tigres, por lo que medir la actividad de cinco tigres al mismo tiempo en realidad estaría bien. Para ver realmente si los alumnos bostezan más en mi clase de estadística, debo configurar particiones para que los alumnos no puedan verse ni escucharse bostezando mientras doy clases.

    Para los análisis de regresión y correlación de los datos recopilados a lo largo de un período de tiempo, existen pruebas estadísticas desarrolladas para series de tiempo. No los cubro en este manual; si necesitas analizar datos de series de tiempo, averigua cómo otras personas en tu campo analizan datos similares.


    This page titled 4.3: Independencia is shared under a not declared license and was authored, remixed, and/or curated by John H. McDonald via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.