Saltar al contenido principal
LibreTexts Español

15.5: Prueba de significancia estadística

  • Page ID
    84849
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    • La robótica es una disciplina experimental. Esto significa que los algoritmos y sistemas que desarrolle deben ser validados por experimentos de hardware reales. Hacer un experimento para validar tu hipótesis está en el centro del método científico y hacerlo bien es una disciplina por sí sola. La clave es demostrar que tus resultados no son simplemente un resultado de casualidad. En la práctica, esto es imposible de mostrar. En cambio, es posible expresar la probabilidad de que tus resultados no hayan sido obtenidos por casualidad. Esto se conoce como el nivel de significancia estadística. La forma de calcular el nivel de significancia estadística depende del problema que estés estudiando. En esta sección se introducirán tres problemas comunes en robótica:
    1. probar si los datos están efectivamente distribuidos de acuerdo con una distribución específica
    2. probar si se generan dos conjuntos de datos a partir de diferentes distribuciones
    3. probar si los experimentos verdadero-falsos son una secuencia de suerte o no

    15.5.1. Hipótesis nula sobre distribuciones

    La hipótesis nula es un término de la literatura de significación estadística y capta formalmente su afirmación principal. Una prueba estadística puede rechazar la hipótesis nula o no rechazarla. Nunca se puede probar ya que siempre habrá una probabilidad distinta de cero de que todos tus experimentos sean solo una coincidencia afortunada. El nivel de significancia estadística de una Hipótesis Null se conoce como el valor p.

    Una clase de importación de Hipótesis Null están en la distribución de datos. Considere el siguiente ejemplo del Lab 1 (mensaje que pasa en ROS). Se pidió a los estudiantes que estudiaran experimentalmente el tiempo que lleva pasar un mensaje de un proceso a otro:

    • Histograma del tiempo que lleva enviar un mensaje ROS de un proceso a otro basado en 10 ensayos.

    Observamos tres picos en este Histograma. ¿Qué podemos decir sobre los tiempos que pasan los mensajes? Por ejemplo

    • H0: Los tiempos de paso de mensajes siguen una distribución gaussiana.
    • H0: Los tiempos de paso de mensajes siguen una distribución bimodal.
    • H0: Los tiempos de paso de mensajes siguen una distribución log-normal.

    La primera Hipótesis Nulo implica que los mensajes tardan a veces un poco más y a veces un poco más cortos, pero tienen un promedio y una varianza. La segunda hipótesis nula implica que generalmente los mensajes toman un tiempo promedio bajo, pero ocasionalmente se retrasan debido a la influencia de algún otro proceso, por ejemplo las tareas del sistema operativo. Ahora puedes probar cada una de estas hipótesis calculando los parámetros de la distribución a esperar y calcular la probabilidad conjunta de que cada una de tus mediciones se extraigan realmente de esta distribución. Encontrarás, que todas las hipótesis anteriores son casi igualmente probables. En conjunto, ninguna de sus pruebas rechazará su hipótesis. Por lo tanto, necesitará más datos:

    • Histograma de tiempos de paso de mensajes en ROS basado en 1000 ensayos.

    Ahora puede volver a calcular parámetros para cada distribución que sospeche. Por ejemplo, puede calcular la media y varianza de estos datos y trazar la distribución gaussiana resultante. En este ejemplo, la distribución gaussiana tendrá una media ligeramente desplazada a la derecha del pico. También puede ajustar los datos a una distribución logarítmica normal. Ahora puede calcular la probabilidad de que los datos sean realmente extraídos de cualquiera de las dos distribuciones. Verás que la probabilidad conjunta (producto de todas las probabilidades) para todos los puntos de datos es en realidad mucho mayor que la de cualquier distribución gaussiana o cualquier distribución bimodal que seas capaz de encajar.

    Formalmente, esto se puede hacer siguiendo Pearsons χ 2 -Test (léase Prueba de Chi-Cuadrado). Esta prueba calcula un valor que se aproximará a una distribución χ 2 de todas las muestras y la probabilidad de esa muestra con base en la distribución esperada. Al enchufar el valor resultante en la distribución χ 2, se obtiene el nivel de significancia estadística (o valor p).

    El valor del estadístico de prueba se calcula de la siguiente manera:

    \[\chi ^{2}=\sum_{i=1}^{n}\frac{(O_{i}-E_{i})^{2}}{E_{i}}\]

    donde

    • χ 2 = Estadística de prueba acumulativa de Pearson, que se aproxima asintóticamente a una distribución chi-cuadrada.
    • O i = frecuencia observada en el histograma de datos
    • E i = una frecuencia esperada (teórica), afirmada por la hipótesis nula, es decir, la distribución que crees que deberían seguir los datos
    • n = el número de muestras.

    Este ejemplo también ilustra cómo se pueden usar las pruebas estadísticas para determinar si tienes suficientes datos. Si no lo haces, obtendrás valores p muy pobres. En la práctica, depende de usted la probabilidad que determine que es significativa. Los niveles de significancia estándar son 10%, 5% y 1%. Si no estás satisfecho con tus valores p puedes recopilar más datos y verificar, si tu valor p mejora.

    15.5.2. Probando si dos distribuciones son independientes

    Evaluar si los datos de dos experimentos son independientes es probablemente la prueba estadística más común. Por ejemplo, podrías ejecutar 10 experimentos usando el algoritmo 1 y 10 experimentos usando el algoritmo 2. Depende de usted demostrar que las distribuciones resultantes son, de hecho, estadísticamente significativamente diferentes. En otras palabras, hay que demostrar que las diferencias entre el algoritmo de hecho conducen a una mejora sistemática, y que no fue pura suerte que un conjunto de experimentos resultó “mejor” que otro.

    Si tienes buenas razones para creer que tus datos están distribuidos de manera normal, existen una serie de pruebas simples. Por ejemplo, para probar si dos conjuntos de datos están distribuidos con distribuciones gaussianas que tienen la misma media, se puede hacer usando la prueba t de Student. Una generalización de la prueba t de Student a 3 o más grupos es ANOVA. Estas pruebas tienen que hacerse con cuidado ya que la mayoría de las distribuciones en robótica no son distribuidas de manera normal. Los ejemplos en los que comúnmente se asumen distribuciones gaussianas son el ruido del sensor en mediciones de distancia como las obtenidas por infrarrojos u odometría.

    Si los datos no están distribuidos gaussianos, existe una serie de pruebas numéricas para probar la probabilidad de que dos distribuciones sean independientes. Por ejemplo, podrías probar el mensaje pasando el tiempo con y sin ejecutar algunas rutinas de procesamiento de imágenes computacionalmente costosas. Luego puede probar si el cálculo adicional afecta el tiempo de paso del mensaje. Si lo hace, ambas distribuciones necesitan ser significativamente diferentes. ¡El solo uso de la prueba t de Student no funciona ya que las distribuciones no son gaussianas!

    En cambio, probar si dos conjuntos de datos tienen la misma media, debe hacerse numéricamente. Una prueba común es la prueba de Suma Clasificada de MannWilcoxon. Una implementación de esta prueba es parte de la mayoría de los programas de cálculo matemático como Matlab o Mathematica. Un algoritmo para calcular esta estadística de prueba y los valores p correspondientes está disponible en la página de Wikipedia anterior. Una extensión de la prueba de Suma Clasificada de Mann-Wilcoxon para 3 o más grupos es la prueba de análisis de varianza unidireccional de Kruskal-Wallis.

    15.5.3. Significancia estadística de las pruebas de verdadero-falso

    Existe una clase de experimentos que no conducen a distribuciones, sino que dan como resultado simples resultados verdaderos-falsos. Por ejemplo, una pregunta que uno podría hacer es “¿el robot entiende correctamente un comando hablado?”. Esta clase de experimentos es capturada por el ejemplo de té de degustación de Lady. Aquí, una señora afirma que puede identificar el método de elaboración de una taza de té: té preparado agregando primero leche y té preparado agregando posteriormente leche. Desafortunadamente, es fácil hacer trampa ya que la probabilidad de adivinar bien es del 50%. Por lo tanto, probar la hipótesis de que la dama puede diferenciar los dos métodos de elaboración requiere realizar una serie de experimentos para reducir la probabilidad de ganar por conjeturas. Para ello, es necesario calcular el número de permutaciones totales (o, posibles resultados a lo largo de toda la serie de experimentos). Por ejemplo, uno podría presentar a la señora 8 tazas de té, 4 elaboradas de una manera y cuatro las otras. Ahora se pueden enumerar todos los resultados posibles de este experimento, que van desde todas las tazas adivinadas correctamente hasta todas las tazas adivinadas mal. Hay un total de 70 posibles resultados (ver el ejemplo proporcionado aquí). Adivinar todas las copas correctamente tiene ahora una probabilidad de 1/70 o 1.4%. La probabilidad de cometer un solo error (16 posibles resultados en este ejemplo) es de alrededor del 23%.

    15.5.4. Resumen

    La prueba de significancia estadística te permite expresar la probabilidad de que tu experimento no sea solo el resultado del azar. Existen diferentes pruebas para diferentes distribuciones subyacentes. Por lo tanto, su primera tarea es argumentar de manera convincente cuál es la distribución subyacente de sus datos. La prueba formal de cómo se distribuyen sus datos se puede lograr usando la Prueba de Chi-Square. Con el fin de probar si dos conjuntos de datos provienen de dos distribuciones diferentes, entonces se puede lograr usando la prueba t de Student (si la distribución es gaussiana) o usando la prueba de Suma Clasificada de Mann-Wilcoxon si la distribución de probabilidad es no paramétrica.


    This page titled 15.5: Prueba de significancia estadística is shared under a CC BY-NC 4.0 license and was authored, remixed, and/or curated by Nikolaus Correll via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.