6.2: Medición

Última actualización
Guardar como PDF

Page ID: 152349

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Objetivos de aprendizaje

Describir la confiabilidad en términos de puntuaciones reales y error
Defina el error estándar de medición y explique por qué es valioso
Distinguir entre confiabilidad y validez
Indicar cómo la confiabilidad determina el límite superior a la validez

La recolección de datos implica la medición. La medición de algunas características como la altura y el peso son relativamente sencillas. La medición de atributos psicológicos como la autoestima puede ser compleja. Una buena escala de medición debe ser confiable y válida. Estos conceptos serán discutidos a su vez.

Confiabilidad

La noción de confiabilidad gira en torno a si obtendrías al menos aproximadamente el mismo resultado si mides algo dos veces con el mismo instrumento de medición. Una forma común de definir la confiabilidad es la correlación entre formas paralelas de una prueba. Dejando que “prueba” representa una forma paralela de la prueba, el símbolo\(r_{test,test}\) se utiliza para denotar la confiabilidad de la prueba.

Puntuaciones verdaderas y error

Supongamos que desea medir el tiempo medio de respuesta de una persona al inicio de un estímulo. Por simplicidad, supongamos que no hay aprendizaje por encima de las pruebas que, por supuesto, no es realmente cierto. A la persona se le dan\(1,000\) juicios en la tarea y se obtiene el tiempo de respuesta en cada juicio.

El tiempo medio de respuesta a lo largo de los\(1,000\) ensayos puede considerarse como la puntuación “verdadera” de la persona, o al menos una muy buena aproximación de la misma. Teóricamente, la puntuación verdadera es la media que se abordaría a medida que el número de ensayos aumenta indefinidamente.

Se puede pensar que un tiempo de respuesta individual está compuesto por dos partes: la puntuación verdadera y el error de medición. Así, si la puntuación verdadera de la persona fuera\(345\) y su respuesta en uno de los ensayos lo fuera\(358\), entonces el error de medición sería\(13\). De igual manera, si el tiempo de respuesta fuera\(340\), el error de medición sería\(-5\).

Ahora consideremos el ejemplo más realista de una clase de alumnos tomando un examen\(100\) -point verdadero/falso. Supongamos que cada alumno conoce la respuesta a algunas de las preguntas y no tiene idea de las otras preguntas. En aras de la simplicidad, estamos asumiendo que no hay conocimiento parcial de ninguna de las respuestas y para una pregunta dada un alumno o sabe la respuesta o adivina. Por último, supongamos que la prueba es puntuada de tal manera que un alumno recibe un punto por una respuesta correcta y pierde un punto por una respuesta incorrecta. En este ejemplo, la puntuación real de un estudiante es el número de preguntas a las que conoce la respuesta y su puntaje de error es su puntuación en las preguntas que adivinaron. Por ejemplo, supongamos que un estudiante sabía\(90\) de las respuestas y adivinó correctamente el\(7\) restante\(10\) (y por lo tanto incorrectamente encendido\(3\)). Su verdadera puntuación sería\(90\) ya que esa es la cantidad de respuestas que conocieron. Su puntaje de error sería\(7 - 3 = 4\) y por lo tanto su puntaje real de prueba lo sería\(90 + 4\).

Cada puntaje de prueba puede considerarse como la suma de dos componentes independientes, el puntaje verdadero y el puntaje de error. Esto se puede escribir como:

\[y_{test}=y_{true}+y_{error}\]

La siguiente expresión se deriva directamente de la Ley de Suma de Varianza:

\[\sigma _{Test}^{2}=\sigma _{True}^{2}+\sigma _{Error}^{2}\]

Confiabilidad en términos de puntuaciones verdaderas y error

Se puede demostrar que la confiabilidad de una prueba,\(r_{test,test}\), es la relación de varianza de puntaje verdadero a varianza de puntaje de prueba. Esto se puede escribir como:

\[r_{test,test}=\frac{\sigma _{True}^{2}}{\sigma _{Test}^{2}}=\frac{\sigma _{True}^{2}}{\sigma _{True}^{2}+\sigma _{Error}^{2}}\]

PDF de derivación

Es importante entender las implicaciones del papel que juega la varianza de las puntuaciones verdaderas en la definición de confiabilidad: Si se diera una prueba en dos poblaciones para las que la varianza de las puntuaciones verdaderas difirió, la confiabilidad de la prueba sería mayor en la población con el puntaje verdadero más alto varianza. Por lo tanto, la confiabilidad no es una propiedad de una prueba per se sino la confiabilidad de una prueba en una población determinada.

Evaluar el error de medición

La confiabilidad de una prueba no muestra directamente qué tan cerca están los puntajes de las pruebas a los verdaderos puntajes. Es decir, no revela cuánto variaría el puntaje de la prueba de una persona entre formas paralelas de prueba. Por definición, la media sobre un gran número de pruebas paralelas sería la verdadera puntuación. La desviación estándar de los puntajes de las pruebas de una persona indicaría cuánto varían los puntajes de las pruebas de la puntuación real. Esta desviación estándar se llama el error estándar de medición. En la práctica, no es práctico dar una prueba una y otra vez a la misma persona y/o asumir que no hay efectos de práctica. En cambio, se utiliza la siguiente fórmula para estimar el error estándar de medición.

\[S_{measurement}=S_{test}\sqrt{1-r_{test,test}}\]

donde\(S_{measurement}\) está el error estándar de medición,\(S_{test}\) es la desviación estándar de los puntajes de las pruebas, y\(r_{test,test}\) es la confiabilidad de la prueba. Tomando los extremos, si la confiabilidad es\(0\) entonces el error estándar de medición es igual a la desviación estándar de la prueba; si la confiabilidad es perfecta (\(1.0\)) entonces el error estándar de medición es\(0\).

Aumento de la fiabilidad

Es importante hacer que las medidas sean lo más confiables posible en la práctica. Supongamos que un investigador está estudiando la relación entre la capacidad espacial y un conjunto de otras variables. Cuanto mayor sea la confiabilidad de la prueba de capacidad espacial, mayores serán las correlaciones. De igual manera, si un experimentador busca determinar si un regimiento de ejercicio en particular disminuye la presión arterial, cuanto mayor sea la confiabilidad de la medida de la presión arterial, más sensible será el experimento. Más precisamente, cuanto mayor sea la confiabilidad, mayor será la potencia del experimento. El poder está cubierto en detalle aquí. Por último, si se está utilizando una prueba para seleccionar estudiantes para ingreso a la universidad o empleados para trabajos, cuanto mayor sea la confiabilidad de la prueba más fuerte será la relación con el criterio.

Dos formas básicas de aumentar la confiabilidad son

para mejorar la calidad de los artículos y
para aumentar el número de ítems.

Los artículos que o bien son demasiado fáciles para que casi todo el mundo los corrija o demasiado difíciles para que casi nadie los corrija no son buenos artículos: proporcionan muy poca información. En la mayoría de los contextos, los elementos que aproximadamente la mitad de las personas consiguen corregir son los mejores (otras cosas son iguales).

Los artículos que no se correlacionan con otros artículos generalmente se pueden mejorar. A veces el artículo es confuso o ambiguo.

Aumentar el número de ítems aumenta la confiabilidad de la manera mostrada por la siguiente fórmula:

\[r_{new,new}=\frac{kr_{test,test}}{1+(k-1)r_{test,test}}\]

donde\(k\) es el factor por el cual se incrementa la longitud de la prueba,\(r_{new,new}\) es la confiabilidad de la nueva prueba más larga, y\(r_{test,test}\) es la confiabilidad actual. Por ejemplo, si una prueba con\(50\) ítems tiene una confiabilidad de\(0.70\) entonces la confiabilidad de una prueba que es\(1.5\) veces más larga (\(75\)ítems) se calcularía de la siguiente manera:

\[r_{new,new}=\frac{(1.5)(0.70)}{1+(1.5-1)(0.70)}\]

que es igual\(0.78\). De esta manera aumentar el número de ítems de\(50\) a\(75\) aumentaría la confiabilidad de\(0.70\) a\(0.78\).

Es importante señalar que esta fórmula supone que los nuevos artículos tienen las mismas características que los artículos antiguos. Obviamente agregar artículos pobres no aumentaría la confiabilidad como se esperaba e incluso podría disminuir la confiabilidad.

Más información sobre confiabilidad de la fuente de conocimiento de William Trochim

Validez

La validez de una prueba se refiere a si la prueba mide lo que se supone que debe medir. Los tres tipos de validez más comunes son la validez facial, la validez empírica y la validez de constructo. Consideramos estos tipos de validez a continuación.

Validez facial: La validez facial de una prueba se refiere a si la prueba parece medir lo que se supone que debe medir. Es decir, ¿la prueba “en su cara” parece medir lo que se supone que está midiendo. Una prueba de historia asiática consistente en una serie de preguntas sobre la historia asiática tendría una alta validez facial. Si la prueba incluyera principalmente preguntas sobre la historia estadounidense entonces tendría poca o ninguna validez facial como prueba de la historia asiática.
Validez predictiva: La validez predictiva (a veces llamada validez empírica) se refiere a la capacidad de una prueba para predecir el comportamiento relevante. Por ejemplo, la principal forma en que se validan las pruebas SAT es por su capacidad para predecir las calificaciones universitarias. Así, en la medida en que estas pruebas tienen éxito en la predicción de calificaciones universitarias, se dice que poseen validez predictiva.
Validez de constructo: La validez de constructo es más difícil de definir. En general, una prueba tiene validez de constructo si su patrón de correlaciones con otras medidas está en línea con el constructo que pretende medir. La validez de constructo se puede establecer mostrando que una prueba tiene validez convergente y divergente. Una prueba tiene validez convergente si se correlaciona con otras pruebas que también son medidas del constructo en cuestión. La validez divergente se establece mostrando que la prueba no se correlaciona altamente con pruebas de otros constructos. Por supuesto, algunos constructos pueden superponerse por lo que el establecimiento de validez convergente y divergente puede ser complejo.

Por poner un ejemplo, supongamos que se desea establecer la validez de constructo de una nueva prueba de habilidad espacial. La validez convergente y divergente podría establecerse mostrando que la prueba se correlaciona relativamente alto con otras medidas de capacidad espacial pero menos altamente con pruebas de habilidad verbal o inteligencia social.

Confiabilidad y validez predictiva

La confiabilidad de una prueba limita el tamaño de la correlación entre la prueba y otras medidas. En general, la correlación de una prueba con otra medida será menor que la confiabilidad de la prueba. Después de todo, ¿cómo podría una prueba correlacionarse con otra cosa tan alta como se correlaciona con una forma paralela de sí misma? Teóricamente es posible que una prueba correlacione tan alta como la raíz cuadrada de la confiabilidad con otra medida. Por ejemplo, si una prueba tiene una confiabilidad de\(0.81\) entonces podría correlacionarse tan alta como\(0.90\) con otra medida. Esto podría suceder si la otra medida fuera una prueba perfectamente confiable del mismo constructo que la prueba en cuestión. En la práctica, esto es muy poco probable.

Una correlación por encima del límite superior establecido por las fiabilidades puede actuar como una bandera roja. Por ejemplo, Vul, Harris, Winkielman y Paschler (\(2009\)) encontraron que en muchos estudios las correlaciones entre diversos patrones de activación de fMRI y medidas de personalidad eran mayores de lo que sus fiabilidades permitirían. Un examen cuidadoso de estos estudios reveló serias fallas en la forma en que se analizaron los datos.

Vul, E., Harris, C., Winkielman, P., & Paschler, H. (2009) Correlaciones desconcertantemente altas en estudios de fMRI de emoción, personalidad y cognición social. Perspectivas sobre la Ciencia Psicológica, 4, 274-290.