Saltar al contenido principal
LibreTexts Español

9.4: Calidad de medición

  • Page ID
    144946
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Objetivos de aprendizaje

    • Definir confiabilidad y describir los tipos de confiabilidad
    • Definir validez y describir los tipos de validez
    • Analizar el rigor de la medición cualitativa utilizando los criterios de confiabilidad y autenticidad

    En la investigación cuantitativa, una vez que hemos logrado definir nuestros términos y especificar las operaciones para medirlos, ¿cómo sabemos que nuestras medidas son buenas? Sin cierta garantía de la calidad de nuestras medidas, no podemos estar seguros de que nuestros hallazgos tengan algún significado o, al menos, que nuestros hallazgos signifiquen lo que pensamos que significan. Cuando los científicos sociales miden conceptos, buscan lograr confiabilidad y validez en sus medidas. Estos dos aspectos de la calidad de medición son el foco de esta sección. Primero consideraremos la confiabilidad y luego veremos la validez. Para ambos aspectos de la calidad de medición, digamos que nuestro interés es medir los conceptos de alcoholismo e ingesta de alcohol. ¿Cuáles son algunos problemas potenciales que podrían surgir al intentar medir este concepto y cómo podríamos trabajar para superar esos problemas?

    Calidad por geralt CC-0

    Confiabilidad

    Primero, digamos que hemos decidido medir el alcoholismo pidiendo a la gente que responda a la siguiente pregunta: ¿Alguna vez has tenido algún problema con el alcohol? Si medimos el alcoholismo de esta manera, parece probable que quien se identifique como alcohólico responda con un sí a la pregunta. Entonces, esta debe ser una buena manera de identificar a nuestro grupo de interés, ¿verdad? Bueno, tal vez. Piensa en cómo tú u otras personas que conoces responderían a esta pregunta. ¿Las respuestas diferirían después de una noche salvaje de lo que habrían sido el día anterior? ¿Podría influir el dolor de cabeza actual de una bebedora poco frecuente por la única copa de vino que tuvo anoche en cómo responde a la pregunta de esta mañana? ¿Cómo respondería esa misma persona a la pregunta antes de consumir el vino? En cada uno de estos casos, si la misma persona respondiera de manera diferente a la misma pregunta en diferentes puntos, es posible que nuestra medida de alcoholismo tenga un problema de confiabilidad. La confiabilidad en la medición se refiere a la consistencia.

    Un problema común de confiabilidad con medidas científicas sociales es la memoria. Si pedimos a los participantes de la investigación que recuerden algún aspecto de su propio comportamiento pasado, debemos tratar de que el proceso de recolección sea lo más simple y directo posible para ellos. Siguiendo con el tema de la ingesta de alcohol, si preguntamos a los encuestados cuánto vino, cerveza y licor han consumido cada día en el transcurso de los últimos 3 meses, ¿qué probabilidades hay de que obtengamos respuestas precisas? A menos que una persona lleve un diario documentando su ingesta, es muy probable que haya algunas imprecisiones en sus respuestas. Si, por otro lado, le preguntamos a una persona cuántas bebidas de cualquier tipo ha consumido en la semana pasada, podríamos obtener un conjunto de respuestas más precisas.

    La confiabilidad puede ser un problema incluso cuando no dependemos de otros para informar con precisión sus comportamientos. Quizás un investigador esté interesado en observar cómo la ingesta de alcohol influye en las interacciones en lugares públicos. Ella puede decidir realizar observaciones en un pub local, señalando cuántas bebidas consumen los clientes y cómo cambia su comportamiento a medida que cambia su ingesta. Pero, ¿y si la investigadora tiene que usar el baño y echa de menos los tres tragos de tequila que la persona al lado de sus bajadas durante el breve periodo que está fuera? La confiabilidad de la medida de consumo de alcohol de esta investigadora, contando el número de bebidas que observa que los clientes consumen, depende de su capacidad para observar realmente cada instancia de clientes que consumen bebidas. Si es poco probable que pueda observar cada una de esas instancias, entonces quizás su mecanismo para medir este concepto no sea confiable.

    Si una medida es confiable, significa que si la medida se da varias veces, los resultados serán consistentes cada vez. Por ejemplo, si tomaste los SAT en múltiples ocasiones antes de venir a la escuela, tus puntuaciones deberían ser relativamente las mismas de una prueba a otra. Esto es lo que se conoce como fiabilidad test-retest. De la misma manera, si una persona está clínicamente deprimida, una escala de depresión debería dar hoy resultados similares (aunque no necesariamente idénticos) que hace dentro de dos días.

    Además, si tu estudio implica observar los comportamientos de las personas, por ejemplo, ver sesiones de madres jugando con bebés, es posible que también necesites evaluar la confiabilidad entre evaluadores. La confiabilidad entre evaluadores es el grado en que diferentes observadores coinciden en lo sucedido. ¿Te perdiste cuando el infante le ofreció un objeto a la madre y la madre lo despidió? ¿La otra persona calificadora se perdió ese evento? ¿Ambos califican de manera similar el compromiso de los padres con el niño? Nuevamente, los puntajes de múltiples observadores deberían ser consistentes, aunque quizás no perfectamente idénticos.

    Finalmente, para las básculas, la confiabilidad de consistencia interna es un concepto importante. Las puntuaciones en cada pregunta de una escala deben correlacionarse entre sí, ya que todas miden partes del mismo concepto. Piensa en una escala de depresión, como el Inventario de Depresión de Beck. Una persona deprimida obtendría una puntuación alta en la mayoría de las medidas, pero habría alguna variación. Si le diéramos esa escala a un grupo de personas, imaginaríamos que debería haber una correlación entre las puntuaciones sobre, por ejemplo, perturbación del estado de ánimo y falta de disfrute. No son el mismo concepto, sino que están relacionados. Entonces, debería haber una relación matemática entre ellos. Una prueba estadística específica conocida como Alfa de Cronbach proporciona una manera de medir qué tan bien se relaciona cada pregunta de una escala con las demás.

    Test-retest, inter-evaluador y consistencia interna son tres subtipos importantes de confiabilidad. Los investigadores utilizan este tipo de confiabilidad para asegurarse de que sus medidas miden consistentemente los conceptos en sus preguntas de investigación.

    Validez

    Si bien la confiabilidad se trata de consistencia, la validez se trata de precisión. ¿Qué imagen te viene a la mente cuando escuchas la palabra alcohólico? ¿Estás seguro de que la imagen que evoyes es similar a la imagen que otros tienen en mente? Si no, entonces podemos estar enfrentando un problema de validez.

    Para que una medida tenga validez, debemos estar seguros de que nuestras medidas llegan con precisión al significado de nuestros conceptos. Piense en la primera medida posible de alcoholismo que consideramos en los párrafos anteriores. Ahí, inicialmente consideramos medir el alcoholismo haciendo a los participantes de la investigación la siguiente pregunta: ¿Alguna vez has tenido algún problema con el alcohol? Nos dimos cuenta de que esta podría no ser la forma más confiable de medir el alcoholismo porque la respuesta de la misma persona podría variar drásticamente dependiendo de cómo se sienta ese día. De igual manera, esta medida de alcoholismo no es particularmente válida. ¿Qué es “un problema” con el alcohol? Para algunos, podría ser haber tenido un solo momento lamentable o vergonzoso que resultó de consumir demasiado. Para otros, el umbral para el “problema” puede ser diferente; tal vez una persona ha tenido numerosos momentos embarazosos de borrachera pero aún así se levanta de la cama para trabajar todos los días, por lo que no se percibe a sí misma como teniendo un problema. Debido a que lo que cada encuestado considera problemático podría variar tan dramáticamente, nuestra medida de alcoholismo no es probable que arroje ningún resultado útil o significativo si nuestro objetivo es comprender objetivamente, digamos, cuántos de nuestros participantes de la investigación son alcohólicos. [1]

    En el último párrafo, el compromiso crítico con nuestra medida para el alcoholismo “¿Tienes algún problema con el alcohol?” se demostró que era defectuoso. Evaluamos su validez facial o si es plausible que la pregunta mida lo que pretende medir. La validez facial es un proceso subjetivo. A veces la validez facial es fácil, ya que una pregunta sobre la altura no tendría nada que ver con el alcoholismo. Otras veces, la validez facial puede ser más difícil de evaluar. Consideremos otro ejemplo.

    Quizás nos interese aprender sobre la dedicación de una persona a una vida sana. La mayoría de nosotros probablemente estaríamos de acuerdo en que hacer ejercicio regular es un signo de vida saludable, por lo que podríamos medir la vida saludable contando el número de veces por semana que una persona visita su gimnasio local. Pero tal vez visitan el gimnasio para usar sus camas bronceadoras o para coquetear con posibles citas o sentarse en la sauna. Estas actividades, aunque potencialmente relajantes, probablemente no sean los mejores indicadores de una vida saludable. Por lo tanto, registrar el número de veces que una persona visita el gimnasio puede no ser la forma más válida de medir su dedicación a una vida saludable.

    Otro problema con esta medida de vida saludable es que es incompleta. La validez del contenido evalúa si la medida incluye todos los significados posibles del concepto. Piense en la sección anterior sobre variables multidimensionales. La vida sana parece un concepto multidimensional que podría necesitar un índice, escala o tipología para medirlo completamente. Nuestra única pregunta sobre la asistencia al gimnasio no cubre todos los aspectos de la vida saludable. Una vez que haya creado uno, o encontrado uno en la literatura existente, debe evaluar la validez del contenido. ¿Hay otros aspectos de la vida saludable que no estén incluidos en tu medida?

    Digamos que has creado (o encontrado) una buena escala, índice o tipología para tu medida de vida saludable. Una medida válida de vida sana sería capaz de predecir, por ejemplo, puntuaciones de una prueba de panel de sangre durante su examen físico anual. Esto se llama validez predictiva, y significa que tu medida predice cosas que debería ser capaz de predecir. En este caso, supongo que si tienes un estilo de vida saludable, un análisis de sangre estándar realizado unos meses después durante un chequeo anual mostraría resultados saludables. Si tuviéramos que administrar la medida de panel sanguíneo al mismo tiempo que usted administra su escala de vida saludable, estaríamos evaluando la validez concurrente. La validez concurrente es lo mismo que la validez predictiva —las puntuaciones en su medida deben ser similares a una medida establecida— excepto que ambas medidas se dan al mismo tiempo.

    Otro concepto estrechamente relacionado es la validez convergente. Al evaluar la validez convergente, se deben buscar medidas existentes del mismo concepto, por ejemplo la Escala de Comportamientos de Estilo de Vida Saludable (HLBS). Si le das a alguien tu escala y el HLBS al mismo tiempo, sus puntuaciones deberían ser bastante similares. La validez convergente toma una medida existente del mismo concepto y compara tu medida con ella. Si sus puntuaciones son similares, entonces probablemente es probable que ambos estén midiendo el mismo concepto. La validez discriminante es un concepto similar, excepto que estarías comparando tu medida con una que no está totalmente relacionada. Los puntajes de un participante en su medida de estilo de vida saludable no deben correlacionarse estadísticamente con una escala que mida el conocimiento del idioma italiano.

    Estos son los subtipos básicos de validez, aunque ciertamente hay otros sobre los que puedes leer más. Una manera de pensar en la validez es pensarla como lo harías con un retrato. Algunos retratos de personas se parecen a la persona real a la que están destinados a representar. Pero otras representaciones de las imágenes de las personas, como las caricaturas y los dibujos en barra, no son tan precisas. Si bien un retrato puede no ser una representación exacta de cómo se ve una persona, lo importante es la medida en que se aproxima al aspecto de la persona que se pretende representar. Lo mismo ocurre con la validez en las medidas. Ninguna medida es exacta, pero algunas medidas son más precisas que otras.

    Si aún está confundido acerca de la validez y confiabilidad, la Figura 9.2 muestra cómo es una validez y confiabilidad. En el primer objetivo, el objetivo de nuestro tirador está por todas partes. No es confiable (consistente) ni válido (exacto). El segundo objetivo (arriba a la derecha) muestra un disparo poco confiable o inconsistente, pero uno que está centrado alrededor del objetivo (preciso). El tercer objetivo (abajo a la izquierda) demuestra consistencia... pero está confiablemente fuera del objetivo, o no es válido. El cuarto y último objetivo (abajo a la derecha) representa un resultado confiable y válido. La persona es capaz de dar en el blanco de manera precisa y consistente. Esto es lo que debes apuntar en tu investigación.

    [2]

    Confianza y autenticidad

    En la investigación cualitativa, los estándares de calidad de medición difieren de la investigación cuantitativa por una razón importante. La medición en la investigación cuantitativa se realiza de manera objetiva o imparcial. Es decir, el investigador no tiene mucho que ver con ello. El investigador elige una medida, la aplica y lee los resultados. El grado en que los resultados son precisos y consistentes es un problema con la medida, no con el investigador.

    No se puede decir lo mismo de la investigación cualitativa. Los investigadores cualitativos están profundamente involucrados en el proceso de análisis de datos. No existe una herramienta de medición externa, como una escala cuantitativa. Más bien, la propia investigadora es el instrumento de medición. Los investigadores construyen conexiones entre diferentes ideas que los participantes discuten y redactan un análisis que refleje con precisión la profundidad y complejidad de lo que los participantes han dicho. Esta es una tarea desafiante para un investigador. Consiste en reconocer sus propios sesgos, ya sea por experiencia personal o conocimiento previo sobre el tema, y permitir que el significado que compartieron los participantes emerja a medida que se leen los datos. No se trata necesariamente de ser objetivo, ya que siempre hay cierta subjetividad en el análisis cualitativo, sino más sobre el rigor con el que el investigador individual se involucra en el análisis de datos.

    Confianza de Terry Johnston CC-BY-2.0

    Por ello, los investigadores hablan de rigor en términos más personales. La confiabilidad se refiere al “valor de verdad, aplicabilidad, consistencia y neutralidad” de los resultados de un estudio de investigación (Rodwell, 1998, p. 96). [3] La autenticidad se refiere al grado en que los investigadores capturan las múltiples perspectivas y valores de los participantes en su estudio y fomentan el cambio entre los participantes y los sistemas durante su análisis. Tanto la confiabilidad como la autenticidad contienen criterios que ayudan a un investigador a medir el rigor con el que se realizó el estudio.

    Lo más relevante para la discusión de validez y confiabilidad son los criterios de confiabilidad de credibilidad, confiabilidad y confirmabilidad. La credibilidad se refiere al grado en que los resultados son precisos y vistos como importantes y creíbles por los participantes. Los investigadores cualitativos suelen consultar con los participantes antes de finalizar y publicar sus resultados para asegurarse de que los participantes estén de acuerdo con ellos. También podrán buscar la asistencia de otro investigador cualitativo para revisar o auditar su trabajo. Como cabría esperar, es difícil ver tu propia investigación sin sesgos, por lo que otro par de ojos suele ser útil. A diferencia de la investigación cuantitativa, el objetivo final no es encontrar la Verdad (con una T mayúscula) usando una medida predeterminada, sino crear una interpretación creíble de los datos.

    La credibilidad se ve como similar a la validez, ya que habla principalmente de la precisión del producto de investigación. El criterio de confiabilidad, por otro lado, es similar a la confiabilidad. Como acabamos de revisar, la confiabilidad es la consistencia de una medida. Si das la misma medida cada vez, deberías obtener resultados similares. Sin embargo, las preguntas de investigación cualitativa, las hipótesis y las preguntas de la entrevista pueden cambiar durante el proceso de investigación. ¿Cómo se puede lograr confiabilidad bajo tales condiciones?

    Debido a que la emergencia está integrada en los procedimientos del análisis cualitativo de datos, no es necesario que todos obtengan exactamente las mismas preguntas cada vez. En efecto, debido a que la investigación cualitativa entiende la importancia del contexto, sería imposible controlar todas las cosas que harían igual una medida cualitativa cuando se la das a cada persona. La ubicación, el tiempo o incluso el clima pueden influir en los participantes para que respondan de manera diferente. Los investigadores que evalúan la confiabilidad se aseguran de que se sigan los procedimientos cualitativos adecuados y que cualquier cambio que surja durante el proceso de investigación sea contabilizado, justificado y descrito en el informe final. Los investigadores deben documentar los cambios en su metodología y la justificación de los mismos en una revista o registro. Además, los investigadores pueden volver a utilizar a otro investigador cualitativo para examinar sus registros y resultados para garantizar la confiabilidad.

    Por último, los criterios de confirmabilidad se refieren al grado en que los resultados reportados están vinculados a los datos obtenidos de los participantes. Si bien es posible que otro investigador pueda ver los mismos datos y llegar a un análisis diferente, la confirmabilidad asegura que los resultados de un investigador estén realmente fundamentados en lo que dijeron los participantes. Otro investigador debería poder leer los resultados de tu estudio y rastrear cada punto hecho de nuevo a algo específico que uno o más participantes compartieron. Este proceso se denomina auditoría.

    Los criterios de confiabilidad se crearon como reacción a las críticas a la investigación cualitativa como no científica (Guba, 1990). [4] Demuestran que la investigación cualitativa es igual de rigurosa como la investigación cuantitativa. Los estudiosos posteriores conceptualizaron la dimensión de la autenticidad sin hacer referencia a los estándares de la investigación cuantitativa en absoluto. En cambio, querían entender el rigor de la investigación cualitativa en sus propios términos. ¿Qué viene de reconocer la importancia de las palabras y significados que las personas utilizan para expresar sus experiencias?

    Si bien existen múltiples criterios de autenticidad, el que es más importante para que los investigadores de pregrado en trabajo social entiendan es la equidad. La equidad se refiere al grado en que “diferentes construcciones, perspectivas y posiciones no sólo pueden emerger, sino que también se consideran seriamente por mérito y valor” (Rodwell, 1998, p. 107). Los investigadores cualitativos, dependiendo de su diseño, pueden involucrar a los participantes en el proceso de análisis de datos, tratar de igualar las dinámicas de poder entre los participantes y ayudar a negociar consensos sobre la interpretación final de los datos. Como se puede ver en la plática de dinámica de poder y construcción de consenso, la autenticidad atiende a los elementos de justicia social de la investigación en trabajo social.

    Después de la equidad, los criterios de autenticidad se vuelven más radicales, enfocándose en transformar individuos y sistemas examinados en el estudio. Para nuestros propósitos, es importante que sepas que la investigación y medición cualitativa se realizan con el mismo grado de rigor que la investigación cuantitativa. Los estándares pueden ser diferentes, pero hablan de las metas de resultados precisos y consistentes que reflejan las opiniones de los participantes en el estudio.

    Principales conclusiones

    • La confiabilidad es una cuestión de consistencia.
    • La validez es una cuestión de precisión.
    • Hay muchos tipos de validez y confiabilidad.
    • Los criterios que utilizan los investigadores cualitativos para evaluar el rigor son la confiabilidad y la autenticidad.
    • La investigación cuantitativa no es inherentemente más rigurosa que la investigación cualitativa. Ambos son igualmente rigurosos, aunque los estándares para evaluar el rigor difieren entre los dos.

    Glosario

    • Autenticidad: el grado en que los investigadores capturan las múltiples perspectivas y valores de los participantes en su estudio y fomentan el cambio entre los participantes y los sistemas durante su análisis
    • Validez concurrente- si una medida es capaz de predecir resultados a partir de una medida establecida dada al mismo tiempo
    • Confirmabilidad- el grado en que los resultados reportados están vinculados a los datos obtenidos de los participantes
    • Validez del contenido- si la medida incluye todos los significados posibles del concepto
    • Validez convergente- si una medida es conceptualmente similar a una medida existente del mismo concepto
    • Credibilidad- el grado en que los resultados son precisos y vistos como importantes y creíbles por los participantes
    • Fiabilidad- asegura que se siguieron los procedimientos cualitativos adecuados y que cualquier cambio que surja durante el proceso de investigación sea contabilizado, justificado y descrito en el informe final
    • Validez discriminante- si una medida no está relacionada con medidas con las que no debe correlacionarse estadísticamente
    • Vigencia facial- si es plausible que la medida mida lo que pretende
    • Equidad- el grado en que “diferentes construcciones, perspectivas y posiciones no solo pueden emerger, sino que también se consideran seriamente por mérito y valor” (Rodwell, 1998, p. 107)
    • Confiabilidad de consistencia interna: grado en el que las puntuaciones de cada pregunta de una escala se correlacionan entre sí
    • Confiabilidad entre evaluadores: el grado en que diferentes observadores coinciden en lo sucedido
    • Validez predictiva- si una medida predice cosas debería ser capaz de predecir en el futuro
    • Confiabilidad- la consistencia de una medida.
    • Fiabilidad prueba-retest- si se da una medida varias veces, los resultados serán consistentes cada vez
    • Confiabilidad- el “valor de verdad, aplicabilidad, consistencia y neutralidad” de los resultados de un estudio de investigación (Rodwell, 1998, p. 96)
    • Validez: precisión de una medida

    1. Por supuesto, si nuestro interés está en cuántos investigadores perciben que tienen un problema, entonces nuestra medida puede estar bien.
    2. La Figura 9.2 se adaptó de “Confiabilidad y validez” de Nevit Dilmen (2012) Compartido bajo una licencia CC-BY 3.0 Recuperado de: https://commons.wikimedia.org/wiki/File:Reliability_and_validity.svg Cambié la palabra unvalid a inválida para reflejar el lenguaje más utilizado.
    3. Rodwell, M. K. (1998). Investigación constructivista en trabajo social. Nueva York, NY: Garland Publishing.
    4. Guba, E. G. (1990). El diálogo de paradigma. Newbury Park, CA: Publicaciones Sage.

    This page titled 9.4: Calidad de medición is shared under a CC BY-NC-SA license and was authored, remixed, and/or curated by Matthew DeCarlo (Open Social Work Education) .