2.3: Evaluar la confiabilidad de una medición

Última actualización
Guardar como PDF

Page ID: 151377

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

En este punto hemos pensado un poco sobre cómo operacionalizar un constructo teórico y así crear una medida psicológica; y hemos visto que aplicando medidas psicológicas terminamos con variables, que pueden venir en muchos tipos diferentes. En este punto, deberíamos comenzar a discutir la pregunta obvia: ¿es buena la medición? Esto lo haremos en términos de dos ideas relacionadas: confiabilidad y validez. En pocas palabras, la fiabilidad de una medida te dice con qué precisión estás midiendo algo, mientras que la validez de una medida te indica qué tan precisa es la medida. En esta sección hablaré de confiabilidad; hablaremos de validez en el siguiente capítulo.

La confiabilidad es en realidad un concepto muy simple: se refiere a la repetibilidad o consistencia de su medición. La medición de mi peso por medio de una “báscula de baño” es muy confiable: si paso una y otra vez la báscula me seguirá dando la misma respuesta. Medir mi inteligencia por medio de “preguntarle a mi mamá” es muy poco confiable: algunos días me dice que soy un poco gruesa, y otros días me dice que soy un completo imbécil. Observe que este concepto de confiabilidad es diferente a la cuestión de si las mediciones son correctas (la exactitud de una medición se relaciona con su validez). Si sostengo un saco de papas al subir y bajar de la báscula del baño, la medición seguirá siendo confiable: siempre me dará la misma respuesta. Sin embargo, esta respuesta altamente confiable no coincide en absoluto con mi verdadero peso, por lo tanto, está mal. En términos técnicos, esta es una medición confiable pero inválida. De igual manera, si bien la estimación de mi mamá de mi inteligencia es un poco poco poco confiable, podría tener razón. Tal vez simplemente no soy demasiado brillante, y así que si bien su estimación de mi inteligencia fluctúa bastante salvajemente de día a día, básicamente es correcto. Entonces esa sería una medida poco confiable pero válida. Por supuesto, hasta cierto punto, fíjate que si las estimaciones de mi mamá son demasiado poco confiables, va a ser muy difícil averiguar cuál de sus muchas afirmaciones sobre mi inteligencia es en realidad la correcta. Hasta cierto punto, entonces, una medida muy poco confiable tiende a terminar siendo inválida para fines prácticos; tanto es así que mucha gente diría que la confiabilidad es necesaria (pero no suficiente) para asegurar la validez.

Bien, ahora que tenemos clara la distinción entre confiabilidad y validez, pensemos en las diferentes formas en que podríamos medir la confiabilidad:

Fiabilidad de prueba-retest. Esto se relaciona con la consistencia a lo largo del tiempo: si repetimos la medición en una fecha posterior, ¿obtenemos una la misma respuesta?
Confiabilidad entre evaluadores. Esto se relaciona con la consistencia entre las personas: si alguien más repite la medición (por ejemplo, alguien más califica mi inteligencia) ¿producirá la misma respuesta?
Confiabilidad de formas paralelas. Esto se relaciona con la consistencia a través de medidas teóricamente equivalentes: si utilizo un juego diferente de básculas de baño para medir mi peso, ¿da la misma respuesta?
Confiabilidad de consistencia interna. Si una medición se construye a partir de muchas partes diferentes que realizan funciones similares (por ejemplo, un resultado del cuestionario de personalidad se suma a través de varias preguntas), las partes individuales tienden a dar respuestas similares.

No todas las mediciones necesitan poseer todas las formas de confiabilidad. Por ejemplo, la evaluación educativa puede considerarse como una forma de medición. Una de las asignaturas que imparto, la Ciencia Cognitiva Computacional, tiene una estructura de evaluación que tiene un componente de investigación y un componente de examen (más otras cosas). El componente de examen está destinado a medir algo diferente al componente de investigación, por lo que la evaluación en su conjunto tiene baja consistencia interna. Sin embargo, dentro del examen hay varias preguntas que pretenden (aproximadamente) medir las mismas cosas, y esas tienden a producir resultados similares; por lo que el examen por sí solo tiene una consistencia interna bastante alta. Que es como debe ser. ¡Solo debes exigir confiabilidad en aquellas situaciones en las que quieras que te midan lo mismo!

Cuadro 2.2: La terminología utilizada para distinguir entre diferentes roles que una variable puede desempeñar al analizar un conjunto de datos. Tenga en cuenta que este libro tenderá a evitar la terminología clásica en favor de los nombres más nuevos.

rol de la variable	nombre clásico	nombre moderno
“a explicar”	variable dependiente (DV)	resultado
“para hacer la explicación”	variable independiente (IV)	predictor