Saltar al contenido principal
LibreTexts Español

3.3: Precauciones

  • Page ID
    149776
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Sensibilidad a los valores atípicos

    El coeficiente de correlación y los (coeficientes de la) LSRL se construyen a partir de medias y desviaciones estándar y, por lo tanto, el siguiente hecho no es sorprendente

    HECHO 3.3.1. El coeficiente de correlación y los (coeficientes de la) LSRL son muy sensibles a los valores atípicos.

    Lo que quizás sea sorprendente aquí es que los valores atípicos para los datos bivariados son un poco diferentes de los de los datos de 1 variable.

    DEFINICIÓN 3.3.2. Un valor atípico para un conjunto de datos cuantitativo bivariado es aquel que está lejos de la curva que se ha identificado como subyacente a la forma de la gráfica de dispersión de esos datos. En particular, un punto\((x,y)\) puede ser un valor atípico bivariado incluso si ambos no\(x\) son un valor atípico para los datos de variables independientes considerados solos y no\(y\) son un valor atípico para los datos de variables dependientes por sí solos.

    EJEMPLO 3.3.3. Supongamos que agregamos un punto más (90,30) al conjunto de datos en Exam-ple 3.1.4. Ni las\(x\) coordenadas ni las\(y\) coordenadas de este punto son valores atípicos con respecto a sus respectivos conjuntos de datos de coordenadas únicas, pero sin embargo es claramente un valor atípico bivariado, como puede verse en la nueva gráfica de dispersión

    Screen Shot 2020-01-16 a las 11.25.49 PM.png

    De hecho recalculando el coeficiente de correlación y LSRL, encontramos un gran cambio con respecto a lo que encontramos antes, en el Ejemplo 3.1.4: ¡\[r=.704\qquad\text{[which used to be } .935]\]y\[\widehat{y}=.529x+38.458\qquad\text{[which used to be }.754x+26.976]\] todo por un punto adicional!

    Causalidad

    El lector atento habrá notado que iniciamos nuestra discusión de datos bivariados diciendo que esperábamos estudiar cuando una cosa causa otra. Sin embargo, lo que realmente hemos hecho en cambio es encontrar correlación entre variables, lo cual es algo bastante diferente.

    Ahora los filósofos han discutido qué es exactamente la causalidad durante milenios, así que ciertamente es un tema sutil que aquí no vamos a resolver. De hecho, los estadísticos cuidadosos suelen esquivar las complejidades al hablar de relaciones, asociación y, por supuesto, del coeficiente de correlación, teniendo cuidado siempre de no comprometerse con la causalidad — al menos con base únicamente en un análisis de los datos estadísticos.

    Como solo un ejemplo, donde hablamos sobre el significado del cuadrado\(r^2\) del coeficiente de correlación (lo llamamos Hecho 2.3.3), tuvimos cuidado de decir que\(r^2\) mide la variación de la variable dependiente que está asociada con el variación de la variable independiente. Una descripción más imprudente habría sido decir que uno causó el otro — ¡pero no caigas en esa trampa!

    Esto sería una mala idea porque (entre otras razones) el coeficiente de correlación es simétrico en la elección de las variables explicativas y de respuesta (el significado\(r\) es el mismo sin importar cuál se elija para qué papel), mientras que cualquier noción razonable de causalidad es asimétrica. Por ejemplo, mientras que la correlación es exactamente el mismo valor muy grande con cualquiera de las variables siendo\(x\) y que\(y\), la mayoría de la gente diría que fumar causa cáncer y no al revés ¡6!

    Sin embargo, sí necesitamos hacer una precaución sobre esta precaución. Si existe una relación causal entre dos variables que están siendo estudiadas cuidadosamente, entonces habrá correlación. Entonces, para citar al gran científico de datos Edward Tufte,

    La correlación no es causalidad pero seguro es un indicio.

    La primera parte de esta cita (hasta el “pero”) es mucho más famosa y, como primer paso, es un buen eslogan para vivir. Sin embargo, aquellos con un poco más de sofisticación estadística podrían aprender esta versión. Una versión más sofisticada, de nuevo gracias a Tufte, es

    La covariación empíricamente observada es una condición necesaria pero no suficiente para la causalidad.

    Extrapolación

    Hemos dicho que la intuición visual a menudo permite a los humanos esbozar aproximaciones bastante buenas de la LSRL en una gráfica de dispersión, siempre y cuando el coeficiente de correlación nos indique que hay una fuerte asociación lineal. Si el lector diligente lo hizo con la primera gráfica de dispersión en el Ejemplo 3.1.4, probablemente la línea resultante se parecía mucho a la línea que produjo LibreOffice Calc, excepto que los humanos suelen bosquejar su línea hasta los bordes izquierdo y derecho de la caja gráfica. Herramientas automáticas como LibreOffice Calc no hacen eso, por alguna razón.

    [def:extrapolation] Dado un conjunto de datos cuantitativo bivariado y asociado LSRL con ecuación\(\widehat{y}=mx+b\), el proceso de adivinar que el valor de la variable dependiente en esta relación para tener el valor\(mx_0+b\), para\(x_0\) cualquier valor para el variable independiente que no satisface\(x_{min}\le x_0\le x_{max}\) [así, en su lugar, cualquiera\(x_0<x_{min}\) o\(x_0>x_{max}\)], se llama extrapolación.

    La extrapolación se considera una mala, o al menos arriesgada, práctica. La idea es que usamos la evidencia en el conjunto de datos\(\{(x_1,y_1), \dots , (x_n,y_n)\}\) para construir el LSRL, pero, por definición, todos estos datos se encuentran en el intervalo en el\(x\) eje -desde\(x_{min}\) hasta\(x_{max}\). Literalmente no hay evidencia de este conjunto de datos sobre cuál será la relación entre nuestras variables explicativas y de respuesta elegidas\(x\) fuera de este intervalo. Entonces, a falta de razones fuertes para creer que la relación lineal precisa descrita por la LSRL continuará por más\(x\), no debemos asumir que sí, y por lo tanto no debemos usar la ecuación LSRL para adivinar valores por extrapolación.

    El hecho es, sin embargo, que a menudo lo mejor que podemos hacer con la información disponible cuando queremos hacer predicciones en territorio inexplorado en el\(x\) eje -eje es la extrapolación. Entonces, si bien es peligroso, es razonable extrapolar, siempre y cuando tengas claro qué es exactamente lo que estás haciendo.

    EJEMPLO 3.3.5. Utilizando de nuevo la estadística los datos de tareas de los estudiantes y los puntos totales del curso del Ejemplo 3.1.4, supongamos que el instructor del curso quería predecir cuáles serían los puntos totales del curso para un estudiante que había obtenido un\(100\) punto perfecto en su tarea. Al enchufarse a la LSRL, esto habría arrojado una suposición de\(.754\cdot100+26.976=102.376\). Por supuesto, esto hubiera sido imposible, ya que la máxima puntuación total posible del curso fue\(100\). Además, hacer esta conjetura es un ejemplo de extrapolación, ya que el\(x\) valor de\(100\) está más allá del\(x\) valor más grande de\(x_{max}=92\) en el conjunto de datos. Por lo tanto, no debemos confiar en esta suposición —como tiene sentido, ya que es inválida en virtud de ser más grande que\(100\).

    Paradoja de Simpson

    Nuestra última precaución no es tanto una manera de usar el LSRL puede salir mal, sino una advertencia para estar listos para que suceda algo muy contradictorio —tan contradictorio, de hecho, que se llama paradoja.

    Por lo general, parece razonable que si algún objeto se corta en dos piezas, las cuales tienen una cierta propiedad, entonces probablemente todo el objeto también tenga esa misma propiedad. Pero si el objeto en cuestión es una población y el inmueble es tiene correlación positiva, entonces tal vez suceda lo irrazonable.

    DEFINICIÓN 3.3.6. Supongamos que tenemos una población para la cual tenemos un conjunto de datos cuantitativo bivariado. Supongamos además que la población se divide en dos (o más) subpoblaciones para todas las cuales la correlación entre las dos variables es positiva, pero la correlación de las variables para todo el conjunto de datos es negativa. Entonces esta situación se llama La paradoja de Simpson. [También se llama Paradoja de Simpson si el papel de positivo y negativo se invierte en nuestras suposiciones.]

    La mala noticia es que la paradoja de Simpson puede suceder.

    EJEMPLO 3.3.7 Let\(\ P=\{(0,1), (1,0), (9,10), (10,9)\}\) Ser un conjunto de datos bivariado, el cual se divide en las dos subpoblaciones\(\ P_1=\{(0,1), (1,0)\}\) y\(\ P_2=\{(9,10), (10,9)\}\). Entonces los coeficientes de correlación de ambos\(\ P_1\) y\(\ P_2\) son\(r=-1\), pero la correlación de todos\(\ P\) es\(r=.9756\). ¡Esta es la Paradoja de Simpson!

    O, en aplicaciones, podemos tener situaciones como

    EJEMPLO 3.3.8. Supongamos que recolectamos datos sobre dos secciones de un curso de estadística, en particular sobre cuántas horas por trabajo estudian los alumnos individuales para el curso y cómo lo hacen en el curso, medidos por sus puntos totales del curso al final del semestre. Es posible que exista una fuerte correlación positiva entre estas variables para cada sección por sí misma, pero existe una fuerte correlación negativa cuando ponemos a todos los estudiantes en un conjunto de datos. En otras palabras, es posible que el consejo racional, basado en ambas secciones individuales, sea estudiar más y te vaya mejor en el curso, pero que el consejo racional basado en todos los datos de los estudiantes reunidos sea estudiar menos y lo harás mejor.


    This page titled 3.3: Precauciones is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Jonathan A. Poritz via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.