3.1: ¿Qué es la equivalencia de medición del desarrollo?

Última actualización
Guardar como PDF

Page ID: 141576

Ellen A. Skinner, Thomas A. Kindermann, Robert W. Roeser, Cathleen L Smith, Andrew Mashburn & Joel Steele
Portland State University via Portland State University Library

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Como desarrollistas, cualquiera que sea nuestro fenómeno objetivo, nos interesa comparar a personas de diferentes edades (transversales) o seguir a personas a través de diferentes edades (longitudinales). Entonces, nuestro objetivo con la equivalencia de medición del desarrollo es medir válidamente ese fenómeno objetivo en diferentes períodos/edades de desarrollo. Suena simple: Como se muestra en la Figura 20.1, solo queremos medir un constructo de una manera que sea a la vez: (1) válido a cada edad y (2) comparable entre edades. Parece que la solución más sencilla para maximizar la comparabilidad es simplemente usar la misma medida a diferentes edades. Pero el problema es que cuando usas exactamente la misma medida, en realidad puedes estar midiendo diferentes constructos a diferentes edades.

[Inserte la figura 2 aquí]

¿Cómo es eso posible?

Pensemos en un ejemplo. En estudios transversales tempranos del funcionamiento intelectual, los investigadores utilizaron pruebas estandarizadas de inteligencias, algo así como los exámenes SAT o GRE con los que la mayoría de los estudiantes están familiarizados. Los investigadores dieron exactamente las mismas pruebas a personas de 20 a 80 años. Entonces se esperaría que las pruebas, ya que eran exactamente las mismas, para medir justo lo que es que los elementos en la prueba fueron diseñados para capturar, es decir, el funcionamiento intelectual. Pero incluso la reflexión de algunos momentos sugiere que es probable que los jóvenes de 20 y 80 años experimenten tales pruebas de manera diferente. Por ejemplo, consideremos los efectos recientes de la práctica. ¿Cuándo adivinaríamos es la última vez que el típico joven de 20 años se ha hecho una prueba como nuestra prueba de inteligencia, es decir, una que usa una forma tipo Scantron donde se burbujean las respuestas? La respuesta podría ir desde “ayer” (si están en la universidad) hasta “hace unos años” (mientras estaban en la secundaria). Pero en cualquier caso, el formato de la prueba parece familiar. Ahora, pensemos en un típico niño de 80 años. La última vez que tomaron tal prueba probablemente sería “nunca”. Aunque obtuvieran un doctorado, el último examen se habría realizado hace 50 años.

Entonces, el desempeño de los participantes en nuestra prueba de inteligencia también depende de cosas como la familiaridad y otros factores de desempeño, que resultan ser muy diferentes entre los grupos de edad. Por ejemplo, el desempeño incluye una variedad de “habilidades para tomar exámenes”: las personas mayores tienden a ser más cautelosas, por lo que si no saben la respuesta, es menos probable que adivinen que las personas más jóvenes, y así se pierden las elecciones correctas al azar; las personas mayores se preocupan más por su desempeño y, por lo tanto, tienden a ser más preocupado, lo que puede perjudicar el rendimiento. Una gran diferencia con la edad es simplemente la velocidad, la velocidad de procesamiento. Por lo que cualquier evaluación que esté cronometrada pone en desventaja a las personas mayores.

Tomados en conjunto, esto nos hace repensar la conexión entre nuestro constructo objetivo (es decir, el funcionamiento intelectual) y la medida que estamos utilizando para mapearla (es decir, las respuestas de los participantes a las preguntas de opción múltiple en nuestra prueba de inteligencia). El rendimiento en esa prueba aprovecha bien la inteligencia, pero resulta que también aprovecha la familiaridad, precaución, ansiedad y velocidad, todos los cuales son factores que pesan diferencialmente en personas de diferentes edades. Y una investigación de intervención muy inteligente de Paul Baltes y su equipo demostró cuánto (Baltes & Lindenberger, 1988). Demostraron que (al menos para los jóvenes), es posible eliminar sistemáticamente esos factores de rendimiento, si los investigadores permiten que las personas mayores se familiaricen con cómo se ven y funcionan las pruebas, les dan práctica usando los Scantrons, agregan instrucciones que los animen a adivinar los artículos incluso si son no estoy seguro, ayudar a reducir la preocupación al subestimar la importancia de lo que miden las pruebas, y permitirles tomar las pruebas bajo condiciones de “potencia” (intimed). Y si los investigadores hacen esto... he aquí. Esas personas mayores se vuelven más inteligentes y más inteligentes y más inteligentes. Su desempeño mejora notablemente. Entonces exactamente la misma prueba mide diferentes constructos (o combinaciones de constructos) dependiendo de la edad de los participantes.

¿Esto también es un problema para los investigadores que no son del desarrollo?

Sí, igual que la equivalencia de muestreo, la equivalencia de medición está en todas partes. Es un tema para cualquier investigador que quiera hacer comparaciones entre grupos. Es muy común pensar en la equivalencia transcultural de las medidas, o equivalencia de género, o equivalencia racial y étnica. El tema de la equivalencia está en el centro de las discusiones sobre pruebas (y especialmente pruebas con consecuencias—como las que deciden si los estudiantes entrarán y saldrán de servicios especiales o cursos de colocación avanzada o universidad o escuela de posgrado) que son “sesgados” —contra personas que no formaban parte del grupo en el que se crean la mayoría de las pruebas (es decir, el grupo dominante, típicamente grupos de habla inglesa de clase media blanca). La definición de “prueba sesgada” es aquella que no mide lo mismo entre grupos, y casi siempre, esto significa pruebas que privilegian inadvertidamente al grupo dominante.