4.3: Confiabilidad y Validez de la Medición

Última actualización
Guardar como PDF

Page ID: 144647

Rajiv S. Jhangiani, I-Chant A. Chiang, Carrie Cuttler, & Dana C. Leighton
Kwantlen Polytechnic U., Washington State U., & Texas A&M U.—Texarkana

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Objetivos de aprendizaje

Definir la confiabilidad, incluyendo los diferentes tipos y cómo se evalúan.
Definir validez, incluyendo los diferentes tipos y cómo se evalúan.
Describir los tipos de evidencia que serían relevantes para evaluar la confiabilidad y validez de una medida en particular.

Nuevamente, la medición implica asignar puntajes a individuos para que representen alguna característica de los individuos. Pero, ¿cómo saben los investigadores que las puntuaciones representan realmente la característica, especialmente cuando se trata de un constructo como la inteligencia, la autoestima, la depresión o la capacidad de memoria de trabajo? La respuesta es que realizan investigaciones utilizando la medida para confirmar que las puntuaciones tienen sentido en función de su comprensión del constructo que se mide. Este es un punto sumamente importante. Los psicólogos no asumen simplemente que sus medidas funcionan. En cambio, recopilan datos para demostrar que funcionan. Si su investigación no demuestra que una medida funciona, dejan de usarla.

Como ejemplo informal, imagina que llevas un mes haciendo dieta. Tu ropa parece quedar más holgada, y varios amigos te han preguntado si has perdido peso. Si en este punto tu báscula de baño indicara que habías perdido 10 libras, esto tendría sentido y seguirías usando la báscula. Pero si indicara que habías ganado 10 libras, acertadamente concluirías que estaba roto y o bien lo arreglarías o te desharías de él. Al evaluar un método de medición, los psicólogos consideran dos dimensiones generales: confiabilidad y validez.

Confiabilidad

La confiabilidad se refiere a la consistencia de una medida. Los psicólogos consideran tres tipos de consistencia: a lo largo del tiempo (confiabilidad test-retest), entre ítems (consistencia interna) y entre diferentes investigadores (confiabilidad inter-evaluadores).

Fiabilidad de prueba-nueva prueba

Cuando los investigadores miden un constructo que asumen que es consistente a lo largo del tiempo, entonces los puntajes que obtienen también deben ser consistentes a lo largo del tiempo. La fiabilidad test-retest es la medida en que este es realmente el caso. Por ejemplo, generalmente se piensa que la inteligencia es consistente a lo largo del tiempo. Una persona que hoy es altamente inteligente será muy inteligente la próxima semana. Esto significa que cualquier buena medida de inteligencia debería producir aproximadamente los mismos puntajes para este individuo la próxima semana que hoy. Claramente, una medida que produce puntuaciones altamente inconsistentes a lo largo del tiempo no puede ser una muy buena medida de un constructo que se supone que es consistente.

Evaluar la confiabilidad test-retest requiere usar la medida en un grupo de personas a la vez, usarla nuevamente en el mismo grupo de personas en un momento posterior, y luego observar la correlación test-retest entre los dos conjuntos de puntajes. Esto se hace típicamente graficando los datos en una gráfica de dispersión y calculando el coeficiente de correlación. La figura\(\PageIndex{1}\) muestra la correlación entre dos conjuntos de puntuaciones de varios estudiantes universitarios en la Escala de Autoestima de Rosenberg, administrados dos veces, con una semana de diferencia. El coeficiente de correlación para estos datos es +.95. En general, se considera una correlación test-retest de +.80 o superior para indicar una buena confiabilidad.

Figura\(\PageIndex{1}\): Correlación prueba-retest entre dos series de puntuaciones de varios estudiantes universitarios en la escala de autoestima de Rosenberg, dados dos veces a la semana de diferencia

Nuevamente, las altas correlaciones test-retest tienen sentido cuando se asume que el constructo que se mide es consistente a lo largo del tiempo, lo que es el caso de la inteligencia, la autoestima y las dimensiones de personalidad de los Cinco Grandes. Pero no se supone que otros constructos sean estables a lo largo del tiempo. La naturaleza misma del estado de ánimo, por ejemplo, es que cambia. Por lo que una medida del estado de ánimo que produjo una baja correlación test-retest durante un periodo de un mes no sería motivo de preocupación.

Consistencia interna

Otro tipo de confiabilidad es la consistencia interna, que es la consistencia de las respuestas de las personas a través de los ítems en una medida de múltiples elementos. En general, se supone que todos los ítems de tales medidas reflejan el mismo constructo subyacente, por lo que las puntuaciones de las personas en esos ítems deben correlacionarse entre sí. En la Escala de Autoestima de Rosenberg, las personas que están de acuerdo en que son una persona de valor deben tender a estar de acuerdo en que tienen una serie de buenas cualidades. Si las respuestas de las personas a los diferentes ítems no se correlacionan entre sí, entonces ya no tendría sentido afirmar que todos están midiendo el mismo constructo subyacente. Esto es tan cierto para las medidas conductuales y fisiológicas como para las medidas de autoinforme. Por ejemplo, la gente podría hacer una serie de apuestas en un juego simulado de ruleta como medida de su nivel de búsqueda de riesgo. Esta medida sería internamente consistente en la medida en que las apuestas de los participantes individuales fueran consistentemente altas o bajas en todas las pruebas.

Al igual que la confiabilidad test-retest, la consistencia interna solo se puede evaluar recopilando y analizando datos. Un enfoque es observar una correlación de mitad dividida. Esto implica dividir los artículos en dos conjuntos, como la primera y la segunda mitad de los artículos o los elementos pares e impares. Después se calcula una puntuación para cada conjunto de ítems, y se examina la relación entre los dos conjuntos de puntajes. Por ejemplo, la Figura\(\PageIndex{2}\) muestra la correlación de mitad dividida entre las puntuaciones de varios estudiantes universitarios en los ítems pares y sus puntuaciones en los ítems impares de la Escala de Autoestima de Rosenberg. El coeficiente de correlación para estos datos es +.88. Una correlación de mitad dividida de +.80 o mayor generalmente se considera una buena consistencia interna.

Figura\(\PageIndex{2}\): Correlación de mitad dividida entre las puntuaciones de varios estudiantes universitarios en los ítems pares y sus puntuaciones en los ítems impares de la Escala de Autoestima de Rosenberg

Quizás la medida más común de consistencia interna utilizada por los investigadores en psicología es una estadística llamada α de Cronbach (la letra griega alfa). Conceptualmente, α es la media de todas las posibles correlaciones de mitad dividida para un conjunto de ítems. Por ejemplo, hay 252 formas de dividir un conjunto de 10 elementos en dos conjuntos de cinco. La α de Cronbach sería la media de las 252 correlaciones de mitad dividida. Tenga en cuenta que no es así como realmente se calcula α, sino que es una forma correcta de interpretar el significado de esta estadística. Nuevamente, generalmente se toma un valor de +.80 o mayor para indicar una buena consistencia interna.

Confiabilidad Interrater

Muchas medidas conductuales implican un juicio significativo por parte de un observador o un calificador. La confiabilidad entre evaluadores es la medida en que diferentes observadores son consistentes en sus juicios. Por ejemplo, si estabas interesado en medir las habilidades sociales de los estudiantes universitarios, podrías hacer grabaciones de video de ellos ya que interactuaban con otro estudiante con el que se encuentran por primera vez. Entonces podrías hacer que dos o más observadores vean los videos y califiquen el nivel de habilidades sociales de cada estudiante. En la medida en que cada participante tenga, de hecho, algún nivel de habilidades sociales que pueda ser detectado por un observador atento, las calificaciones de los diferentes observadores deben estar altamente correlacionadas entre sí. La confiabilidad entre evaluadores también se habría medido en el estudio de muñecas Bobo de Bandura. En este caso, las calificaciones de los observadores de cuántos actos de agresión cometió un niño en particular mientras jugaba con la muñeca Bobo deberían haber sido altamente correlacionadas positivamente. La confiabilidad interevaluadora a menudo se evalúa usando α de Cronbach cuando los juicios son cuantitativos o un estadístico análogo llamado κ de Cohen (la letra griega kappa) cuando son categóricos.

Validez

Validez es la medida en que los puntajes de una medida representan la variable a la que están destinados. Pero, ¿cómo hacen los investigadores este juicio? Ya hemos considerado un factor que tienen en cuenta: la confiabilidad. Cuando una medida tiene buena confiabilidad test-retest y consistencia interna, los investigadores deberían estar más seguros de que las puntuaciones representan lo que se supone que deben hacer. Tiene que haber más, sin embargo, porque una medida puede ser extremadamente confiable pero no tener validez alguna. Como ejemplo absurdo, imagina a alguien que cree que la longitud del dedo índice de las personas refleja su autoestima y por lo tanto trata de medir la autoestima sosteniendo una regla hasta los dedos índices de las personas. Si bien esta medida tendría una fiabilidad test-retest extremadamente buena, no tendría absolutamente ninguna validez. El hecho de que el dedo índice de una persona sea un centímetro más largo que el de otra no indicaría nada sobre cuál tenía una autoestima más alta.

Las discusiones de validez suelen dividirlo en varios “tipos” distintos. Pero una buena manera de interpretar este tipo es que son otro tipo de evidencia —además de la confiabilidad— que deben tenerse en cuenta a la hora de juzgar la validez de una medida. Aquí consideramos tres tipos básicos: validez facial, validez de contenido y validez de criterio.

Validez facial

La validez facial es la medida en que un método de medición aparece “en su cara” para medir el constructo de interés. La mayoría de las personas esperarían que un cuestionario de autoestima incluyera elementos sobre si se ven a sí mismos como una persona de valor y si piensan que tienen buenas cualidades. Por lo que un cuestionario que incluyera este tipo de ítems tendría buena validez facial. El método de medición de la autoestima hasta el dedo, por otro lado, parece no tener nada que ver con la autoestima y por lo tanto tiene poca validez facial. Aunque la validez facial se puede evaluar cuantitativamente—por ejemplo, al tener una gran muestra de personas califica una medida en términos de si parece medir lo que se pretende—, generalmente se evalúa de manera informal.

La validez facial es en el mejor de los casos un tipo de evidencia muy débil de que un método de medición está midiendo lo que se supone que debe hacer. Una razón es que se basa en las intuiciones de las personas sobre el comportamiento humano, que a menudo son erróneas. También ocurre que muchas medidas establecidas en psicología funcionan bastante bien a pesar de carecer de validez facial. El Inventario Multifásico de Personalidad de Minnesota-2 (MMPI-2) mide muchas características y trastornos de la personalidad al hacer que las personas decidan si cada una de las más de 567 declaraciones diferentes les aplica, donde muchas de las afirmaciones no tienen ninguna relación obvia con el constructo que miden. Por ejemplo, los artículos “Disfruto de las historias de detectives o de misterio” y “La visión de sangre no me asusta ni me enferma” miden ambos la supresión de la agresión. En este caso, no son las respuestas literales de los participantes a estas preguntas las que interesan, sino si el patrón de las respuestas de los participantes a una serie de preguntas coincide con el de individuos que tienden a reprimir su agresión.

Validez del Contenido

La validez del contenido es la medida en que una medida “cubre” el constructo de interés. Por ejemplo, si un investigador define conceptualmente la ansiedad en las pruebas como que involucra tanto la activación del sistema nervioso simpático (que conduce a sentimientos nerviosos) como los pensamientos negativos, entonces su medida de ansiedad ante las pruebas debe incluir elementos tanto sobre los sentimientos nerviosos como los pensamientos negativos. O considere que las actitudes suelen definirse como involucrar pensamientos, sentimientos y acciones hacia algo. Por esta definición conceptual, una persona tiene una actitud positiva hacia el ejercicio en la medida en que piensa pensamientos positivos sobre el ejercicio, se siente bien al hacer ejercicio y, en realidad, hace ejercicio. Entonces, para tener una buena validez de contenido, una medida de las actitudes de las personas hacia el ejercicio tendría que reflejar estos tres aspectos. Al igual que la validez facial, la validez del contenido no suele evaluarse cuantitativamente. En cambio, se evalúa comprobando cuidadosamente el método de medición frente a la definición conceptual del constructo.

Validez del Criterio

La validez del criterio es la medida en que las puntuaciones de las personas en una medida se correlacionan con otras variables (conocidas como criterios) con las que se esperaría que se correlacionaran. Por ejemplo, los puntajes de las personas en una nueva medida de ansiedad ante las pruebas deben correlacionarse negativamente con su desempeño en un examen escolar importante. Si se encontrara que los puntajes de las personas estaban de hecho correlacionados negativamente con el desempeño de sus exámenes, entonces esto sería una prueba de que estos puntajes realmente representan la ansiedad de las personas ante las pruebas. Pero si se encontrara que las personas obtuvieron resultados igualmente buenos en el examen independientemente de sus puntajes de ansiedad en las pruebas, entonces esto pondría en duda la validez de la medida.

Un criterio puede ser cualquier variable que uno tenga razones para pensar debe correlacionarse con el constructo que se mide, y generalmente habrá muchos de ellos. Por ejemplo, uno esperaría que los puntajes de ansiedad en las pruebas se correlacionaran negativamente con el rendimiento del examen y las calificaciones del curso y se correlacionaran positivamente con la ansiedad general y con la presión O imagina que un investigador desarrolla una nueva medida de toma de riesgos físicos. Los puntajes de las personas en esta medida deben correlacionarse con su participación en actividades “extremas” como el snowboard y la escalada en roca, la cantidad de multas por exceso de velocidad que han recibido e incluso la cantidad de huesos rotos que han tenido a lo largo de los años. Cuando el criterio se mide al mismo tiempo que el constructo, la validez del criterio se denomina validez concurrente; sin embargo, cuando el criterio se mide en algún momento en el futuro (después de que se haya medido el constructo), se le denomina validez predictiva (porque los puntajes en la medida han “pronosticado” un resultado futuro).

Los criterios también pueden incluir otras medidas del mismo constructo. Por ejemplo, se esperaría que las nuevas medidas de ansiedad en las pruebas o la toma de riesgos físicos se correlacionen positivamente con las medidas establecidas existentes de los mismos constructos. Esto se conoce como validez convergente.

Evaluar la validez convergente requiere la recolección de datos utilizando la medida. Los investigadores John Cacioppo y Richard Petty hicieron esto cuando crearon su autoinforme Need for Cognition Scale para medir cuánto valora la gente y se involucra en el pensamiento (Cacioppo & Petty, 1982) ^[1]. En una serie de estudios, mostraron que los puntajes de las personas se correlacionaron positivamente con sus puntuaciones en una prueba estandarizada de rendimiento académico, y que sus puntajes se correlacionaron negativamente con sus puntuaciones en una medida de dogmatismo (lo que representa una tendencia hacia la obediencia). En los años transcurridos desde su creación, la Escala de Necesidad de Cognición se ha utilizado en literalmente cientos de estudios y se ha demostrado que está correlacionada con una amplia variedad de otras variables, incluyendo la efectividad de un anuncio, el interés por la política y las decisiones del jurado (Petty, Briñol, Loersch, & McCaslin, 2009) ^[2].

Validez discriminante

La validez discriminante, por otro lado, es la medida en que las puntuaciones en una medida no se correlacionan con medidas de variables que son conceptualmente distintas. Por ejemplo, la autoestima es una actitud general hacia el yo que es bastante estable en el tiempo. No es lo mismo que el estado de ánimo, que es lo bueno o malo que uno se está sintiendo en estos momentos. Por lo que los puntajes de las personas sobre una nueva medida de autoestima no deberían estar muy correlacionados con sus estados de ánimo. Si la nueva medida de autoestima estuviera altamente correlacionada con una medida del estado de ánimo, se podría argumentar que la nueva medida no es realmente medir la autoestima, sino que está midiendo el estado de ánimo.

Cuando crearon la Escala de Necesidad de Cognición, Cacioppo y Petty también proporcionaron evidencia de validez discriminante al mostrar que los puntajes de las personas no estaban correlacionados con ciertas otras variables. Por ejemplo, encontraron solo una correlación débil entre la necesidad de cognición de las personas y una medida de su estilo cognitivo, la medida en que tienden a pensar analíticamente dividiendo las ideas en partes más pequeñas o holísticamente en términos de “el panorama general”. Tampoco encontraron correlación entre la necesidad de cognición de las personas y las medidas de su ansiedad ante las pruebas y su tendencia a responder de formas socialmente deseables. Todas estas bajas correlaciones proporcionan evidencia de que la medida refleja un constructo conceptualmente distinto.

Referencias

Cacioppo, J. T., & Petty, R. E. (1982). La necesidad de la cognición. Revista de Personalidad y Psicología Social, 42, 116—131.
Petty, R. E, Briñol, P., Loersch, C., & McCaslin, M. J. (2009). La necesidad de la cognición. En M. R. Leary & R. H. Hoyle (Eds.), Manual de diferencias individuales en el comportamiento social (pp. 318—329). Nueva York, NY: Guilford Press.