Saltar al contenido principal
LibreTexts Español

12.4: Variabilidad y control de calidad de las medidas de resultados

  • Page ID
    124087
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    4.1 Reproducibilidad

    La medida en que diferentes observadores harán los mismos diagnósticos o evaluaciones a un participante y en que los observadores sean consistentes en sus clasificaciones entre participantes puede tener una influencia importante en los resultados de un ensayo. Claramente, es conveniente elegir medidas de resultado para las que exista reproducibilidad sustancial y concordancia entre los observadores, con respecto a la clasificación de los participantes en el juicio.

    Para las medidas objetivas de resultados, las variaciones entre observadores, o por el mismo observador en diferentes momentos, pueden ser pequeñas y poco probable que influyan en los resultados de un estudio. Sin embargo, para las medidas de resultados que requieren cierto grado de evaluación subjetiva, tales variaciones pueden ser sustanciales. El grado probable de tales variaciones influirá en la elección de las medidas de resultado, ya que será preferible seleccionar aquellas medidas que tengan las variaciones inter e intraobservador más pequeñas, pero aún así dar medidas válidas del impacto de la intervención.

    La variación entre los observadores suele ser mucho mayor de lo esperado, por ejemplo, en la lectura de una radiografía de tórax para evaluar si hay evidencia de neumonía. Si un estudio involucra a varios observadores, se deben realizar estudios piloto, con el fin de medir el alcance de la variación y luego buscar estandarizar los métodos de evaluación para minimizar la variación. Con un entrenamiento adecuado, generalmente es posible reducir sustancialmente la variación entre observadores.

    Para algunos resultados, la evaluación independiente por dos observadores debe ser rutinaria, siendo convocada una tercera para resolver desacuerdos. Puede resultar costoso tamizar de esta manera a toda la población de prueba, pero un enfoque común es tener todos los casos sospechosos de la enfermedad de interés examinados por un segundo observador, mezclados con una muestra de aquellos que no se cree que tengan la enfermedad. En ocasiones, es posible que el observador examine dos veces al mismo individuo, pero estos exámenes pueden no ser independientes, a menos que la encuesta sea grande y el observador no recuerde el resultado de la primera evaluación.

    Es importante hacer todo lo posible para reducir la variabilidad en la mayor medida posible. Habiéndolo hecho, sin embargo, también es crítico conocer el alcance de la variabilidad 'irreducible' restante para fines de análisis. El propósito de los ensayos suele ser demostrar el efecto de una intervención o comparar diferencias entre intervenciones. El conocimiento de la variabilidad inherente en los procedimientos diagnósticos es esencial para esta demostración, y la mejor manera de evaluarla es a través de medidas replicadas. Es especialmente importante tener en cuenta las diferencias entre observadores cuando las comunidades son las unidades de aleatorización en un ensayo de campo. Las diferencias entre observadores pueden producir sesgos si se utilizan diferentes observadores en diferentes comunidades. En tales situaciones, es mejor organizar el trabajo de campo para que la carga de trabajo dentro de cada comunidad se divida entre diferentes observadores y las diferencias entre los observadores no se confundan con el efecto de la intervención.

    4.2 Sensibilidad y especificidad

    La elección de una definición apropiada de un “caso” en un ensayo de campo estará influenciada por la sensibilidad y especificidad asociadas a los criterios diagnósticos. La sensibilidad se define como la proporción de casos verdaderos que se clasifican como casos en el estudio. Especificidad es la proporción de no casos que se clasifican como no casos en el estudio. Una baja sensibilidad se asocia con una reducción en la incidencia medida de la enfermedad. Esto disminuye la probabilidad de observar una diferencia significativa entre dos grupos en un ensayo de un tamaño dado. En términos estadísticos, reduce la potencia del estudio (ver Capítulo 5, Sección 2.2). Si la incidencia de la enfermedad tanto en el grupo de intervención como en el grupo de comparación se verá afectada proporcionalmente de la misma manera, como suele ser el caso, no sesga la estimación de la incidencia relativa de la enfermedad en los dos grupos, aunque la magnitud absoluta de la diferencia será menor que la verdadera diferencia. Así, en el contexto de un ensayo vacunal, debido a que se evalúa la eficacia protectora, en términos de diferencias relativas en la incidencia entre grupos, la estimación de la eficacia protectora no será sesgada, pero los límites de confianza en la estimación serán más amplios de lo que serían utilizando una definición de caso más sensible. En teoría, la reducción de potencia asociada con baja sensibilidad puede compensarse aumentando el tamaño del ensayo.

    En general, una baja especificidad de diagnóstico es un problema más grave que una baja sensibilidad en los ensayos de intervención. Una especificidad baja da como resultado que las tasas de incidencia de la enfermedad se estimen más altas de lo que realmente son, ya que algunos participantes sin la enfermedad en estudio se clasifican incorrectamente como casos. Generalmente, los niveles de inflación en las tasas serán similares, en términos absolutos, en los grupos de intervención y comparación, y así la relación de las tasas medidas en los dos grupos será menor que la relación verdadera, aunque la diferencia en las tasas debe ser imparcial. Así, en los ensayos de vacunas, por ejemplo, la estimación de la eficacia de la vacuna estará sesgada hacia cero, aunque la diferencia absoluta en las tasas entre los grupos de intervención y control no estará sesgada (a menos que también haya poca sensibilidad). Aumentar el tamaño del ensayo no compensará el sesgo en la estimación de la eficacia de la vacuna.

    En términos algebraicos, supongamos que las tasas verdaderas de enfermedad son r 1 y r2 en los dos grupos en estudio, la tasa relativa verdadera R es r 1/ r 2, y la verdadera diferencia en las tasas de enfermedad D es r 1 − r 2. Si la sensibilidad es inferior al 100% (pero la especificidad es del 100%), y solo se diagnostica correctamente una proporción k de todos los casos, las tasas de enfermedad medidas en los dos grupos serán kr 1 y kr 2; la tasa relativa medida será kr 1/ (kr 2) = R; y la diferencia medida en las tasas de enfermedad será kr 1 − kr 2 = k (r 1 − r 2) = kD (que será menor que D). Si la especificidad es inferior al 100% (pero la sensibilidad es del 100%), y la tasa de falsos diagnósticos es s, las tasas medidas en los dos grupos serán (r 1 + s) y (r 2 + s); la tasa relativa medida será (r 1 + s) /(r 2 + s) (que será menor que R); y la diferencia medida en las tasas de enfermedad será (r 1 + s) − (r 2 + s) = D.

    Para medir la sensibilidad y especificidad de los procedimientos diagnósticos utilizados en un ensayo, es necesario contar con un 'estándar de oro' para el diagnóstico (es decir, es necesario contar con un procedimiento diagnóstico que determine quién es realmente un caso y quién no). En ocasiones, esto no es posible y, aunque existan procedimientos diagnósticos definitivos, puede ser necesario utilizar procedimientos imperfectos en un ensayo de campo por razones de costo o logística. En esta situación, si se hace una valoración de sensibilidad y especificidad, es posible evaluar las consecuencias para los resultados de un ensayo de campo, y posible incluso corregir sesgos en estimaciones de eficacia debido al uso de una prueba diagnóstica no específica. Desafortunadamente, en muchas situaciones, no existe un 'estándar de oro', por lo que la sensibilidad y especificidad de los métodos diagnósticos utilizados siguen siendo inciertas. Por ejemplo, no existe una definición universalmente acordada de un caso de malaria clínica. La mayoría estaría de acuerdo en que la presencia de parásitos en la sangre es necesaria (a menos que un posible caso haya tomado tratamiento antes de presentarse a la clínica de estudio), y muchos estarían de acuerdo en que la presencia de fiebre asociada a parasitemia aumenta la probabilidad de que la enfermedad sea malaria clínica, pero también es posible que la fiebre se deba a otras causas, en lugar de ser la parasitemia la causa de la fiebre.

    El sesgo inducido por una baja especificidad de diagnóstico es más grave para enfermedades que tienen una baja incidencia. Un buen ejemplo de esto lo brinda la lepra, que es a la vez difícil de diagnosticar (en etapas tempranas) y también de baja incidencia. Considerar un ensayo vacunal en el que la verdadera incidencia de enfermedad en el grupo no vacunado sea de diez por mil durante el periodo del ensayo, y la verdadera eficacia de una nueva vacuna contra la lepra sea del 50%, es decir, la verdadera incidencia de la enfermedad en los vacunados es de cinco por mil durante el periodo del ensayo. Si la sensibilidad de la prueba diagnóstica utilizada para los casos es del 90%, pero la especificidad es del 100%, las incidencias observadas de enfermedad serían de 10 × 0.9 = 9.0 y 5 × 0.9 = 4.5 por mil, respectivamente. Así, la estimación de la eficacia de la vacuna es correcta (50%). Sin embargo, el poder del estudio se reduce. Para lograr el poder que estaría asociado a una prueba 'porfect', el tamaño del ensayo tendría que aumentarse en cerca de 11%.

    Por otro lado, si la especificidad de la prueba diagnóstica es tan alta como 99% y la sensibilidad es del 100%, las incidencias observadas de enfermedad serían diez casos verdaderos + (990 × 0.01 = 9.9) casos falsos = 19.9 por mil en el grupo no vacunado, y cinco casos verdaderos + (995 × 0.01 = 9.95) = 14.95 por mil en el grupo vacunado. Así, incluso con una prueba con 99% de especificidad, la estimación de la eficacia de la vacuna se reduce del valor real de 50% a 25%. Si la especificidad de la prueba fuera del 90%, la estimación esperada de la eficacia de la vacuna sería de solo 4%.

    En los ensayos de vacunas, la sensibilidad y especificidad de la prueba diagnóstica son de consecuencia de diferentes maneras en diferentes momentos del ensayo. Cuando los individuos son examinados para ingresar al ensayo, es importante que la prueba utilizada sea altamente sensible, aunque no sea muy específica, ya que se puede introducir sesgo sustancial si se incluyen en el ensayo los “casos” no diagnosticados y se incluyen en los grupos vacunados o no vacunados. Si la vacuna no tiene efecto sobre la progresión de su enfermedad y se detectan como casos más adelante en el ensayo, se producirá una falsa estimación baja de eficacia. Por lo tanto, los individuos cuyo diagnóstico sea 'dudoso' al ingresar al ensayo deben ser excluidos del ensayo. Por el contrario, una vez que los individuos han sido examinados para ingresar al ensayo y se les está siguiendo para el desarrollo de la enfermedad, se requiere una prueba altamente específica para evitar el sesgo ilustrado en el párrafo anterior.

    En situaciones en las que puede no haber definiciones claras de un caso (por ejemplo, lepra temprana o TB infantil), se pueden realizar estudios de variación intra e interobservador, utilizando diversas definiciones de la enfermedad. La definición que muestre el menor desacuerdo entre observadores y dé la máxima consistencia dentro de cada observador puede ser la adecuada para usar en un ensayo, pero el investigador debe ser consciente del potencial de sesgo si la especificidad del procedimiento diagnóstico es inferior al 100%.

    4.3 Sesgo

    La forma más poderosa de minimizar el sesgo en la evaluación del impacto de una intervención es a través de la realización de un ensayo aleatorizado doble ciego. Si estos dos aspectos se integran en un juicio, no es probable que se observe un efecto de una intervención si no hay un efecto verdadero. Sin embargo, como se señala en la Sección 4.2, si la especificidad del diagnóstico por el resultado de interés es pobre, la estimación de la eficacia de una intervención, medida en términos relativos, puede estar sesgada hacia cero, incluso en una investigación doble ciego adecuadamente aleatorizada.

    Es muy deseable que la persona que realiza diagnósticos en un ensayo sea ignorante de qué intervención han recibido los casos sospechosos. Si el diagnóstico se basa en pruebas de laboratorio o exámenes de rayos X, la ceguera debe ser fácil de preservar. En algunas circunstancias, puede ser posible determinar a partir de los resultados de una prueba de laboratorio qué intervención ha recibido un individuo, ya que la prueba puede estar midiendo algún efecto intermedio entre la intervención y el resultado de interés primordial (por ejemplo, una respuesta de anticuerpos a una vacuna). En tales casos, no se debe dar acceso a los resultados de laboratorio a quienes realicen diagnósticos en campo. Por ejemplo, en estudios controlados con placebo de praziquantel contra esquistosomiasis en comunidades donde la infección es común, quienes habían recibido el fármaco activo serían fácilmente detectados por una rápida reducción en los recuentos de óvulos en muestras de heces u orina después del tratamiento. Si el resultado de interés principal es la morbilidad por la enfermedad, entonces la información del recuento de óvulos debe mantenerse de quienes realizan la evaluación de morbilidad. Por lo general, sería inapropiado utilizar medidas de nivel de anticuerpos para hacer diagnósticos de enfermedad tras la vacunación, si la propia vacunación indujera anticuerpos indistinguibles de los que se están midiendo. De igual manera, las pruebas de tuberculina no deben formar parte de los procedimientos diagnósticos de TB en estudios de la eficacia de la vacunación con BCG, ya que la vacuna altera la respuesta a la prueba.

    Si el diagnóstico de la enfermedad se basa en un examen clínico, puede ser necesario tomar precauciones especiales para preservar la ceguera. Un ejemplo se da en el Capítulo 11, Sección 4, con respecto a un ensayo BCG contra la lepra, en el que todos los participantes tenían la zona superior del brazo, donde se inyectó BCG o placebo, cubierto durante el examen clínico, ya que BCG conduce a una cicatriz permanente. Aunque los participantes sepan qué intervención tuvieron, es importante tratar de mantener este conocimiento de la persona que realiza algún diagnóstico. Así, se podría instruir a los participantes a no discutir la intervención con el examinador, y el examinador estaría igualmente restringido. Tal procedimiento obviamente no es a prueba de fallas, pero se deben hacer grandes esfuerzos para preservar la ceguera, si es posible, especialmente si el diagnóstico se realiza sobre criterios subjetivos.

    Si la aleatorización en un ensayo es por comunidad, más que por individuos, puede ser especialmente difícil mantener a los examinadores ignorantes de la intervención que recibió un individuo. En ocasiones, se pueden encontrar formas de hacerlo, por ejemplo, realizando encuestas para detectar enfermedades al llevar a todos los participantes a una clínica fuera de las comunidades de prueba. Si las comunidades son aleatorizadas para recibir un mejor suministro de agua o no, una medida de resultado de interés podría ser la incidencia de la infección por sarna. Puede ser difícil evitar la posibilidad de que los diagnósticos de sarna se vean influenciados por el conocimiento del observador de si el participante estaba o no en un pueblo con un mejor suministro de agua. En tal caso, puede ser mejor buscar otras medidas de impacto, basadas en criterios objetivos o medidas de laboratorio, o tomar fotografías de las partes del cuerpo relevantes y que éstas sean evaluadas objetivamente y 'ciegas' al grupo de intervención.

    4.4 El efecto Hawthorne

    Los ensayos que requieren visitas domiciliarias activas por parte del personal del estudio durante el periodo de vigilancia para evaluar el efecto de una intervención pueden verse afectados por un efecto indirecto de las visitas domiciliarias sobre el objetivo del estudio, incluso cuando no se pretende. La presencia de un miembro del estudio en el hogar de un sujeto puede tener un efecto positivo en el estado de salud del sujeto, ya que puede, por ejemplo, estimular un mejor comportamiento de salud del sujeto o mejorar las prácticas de higiene en el hogar o una mejor utilización de la atención médica. En estudios con tales efectos, las tasas de enfermedades o de enfermedades graves pueden reducirse en ambos brazos del estudio, un efecto indirecto conocido como el 'efecto Hawthorne '(llamado así por un estudio en la década de 1930 en Estados Unidos en el Hawthorne Works, en el que se documentó que el comportamiento de los trabajadores cambió como consecuencia de que observado). Este efecto reduce el poder del estudio y puede hacerlo inconcluso. No hay una manera fácil de controlarlo, por lo que, si se espera tal efecto Hawthorne en un ensayo de campo, es posible que sea necesario aumentar el tamaño de la muestra para mantener el poder estadístico.

    4.5 Problemas de control de calidad

    La sensibilidad y especificidad de los procedimientos diagnósticos empleados en un ensayo deben ser monitoreados durante la duración del ensayo, ya que pueden cambiar a medida que avanza el estudio. Tales cambios pueden ser para peor o para mejor. Con experiencia, las habilidades diagnósticas pueden mejorar, pero también, a medida que pasa el tiempo, el personal puede aburrirse y tener menos cuidado. Es importante que el personal de campo esté consciente de que su desempeño está siendo monitoreado continuamente. Si esto se hace, entonces cualquiera que se salga 'de los carriles' puede ser dirigido hacia atrás o retirado del estudio, antes de que se haga mucho daño. Dicho monitoreo es importante tanto para el personal de campo como para el personal de laboratorio.

    Los métodos utilizados para monitorear la calidad de los procedimientos diagnósticos pueden incluir el reexamen de una muestra de casos por parte de un supervisor o un investigador más capacitado

    y, para el laboratorio, puede hacerse enviando una muestra de especímenes a un laboratorio de referencia y pasando algunos especímenes por el laboratorio por duplicado, de manera cegada, para determinar si las diferencias entre los resultados en el mismo espécimen están dentro de límites aceptables (ver Capítulo 17, Sección 5).

    Si la enfermedad en estudio es relativamente rara, puede ser difícil medir la sensibilidad basándose en un pequeño número de individuos que se examinan dos veces. Si bien será posible verificar si la especificidad es deficiente (una alta proporción de los clasificados como casos se diagnostican erróneamente), los controles de sensibilidad pueden implicar el examen de miles de individuos dos veces para determinar si se están omitiendo casos. Afortunadamente, en la mayoría de los ensayos, la especificidad es de mayor importancia crítica que la sensibilidad, aunque la importancia relativa puede cambiar a medida que avanza la encuesta, como se discute en la Sección 4.2.


    12.4: Variabilidad y control de calidad de las medidas de resultados is shared under a CC BY-NC license and was authored, remixed, and/or curated by LibreTexts.