4.4: Estrategias prácticas para la medición psicológica

Última actualización
Guardar como PDF

Page ID: 144644

Rajiv S. Jhangiani, I-Chant A. Chiang, Carrie Cuttler, & Dana C. Leighton
Kwantlen Polytechnic U., Washington State U., & Texas A&M U.—Texarkana

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Objetivos de aprendizaje

Especificar los cuatro pasos amplios en el proceso de medición.
Explica cómo decidirías si usar una medida existente o crear la tuya propia.
Describir múltiples estrategias para identificar y localizar medidas existentes de constructos psicológicos.
Describir varios principios generales para la creación de nuevas medidas y para la implementación de medidas existentes y nuevas.
Crear un plan simple para evaluar la confiabilidad y validez de una medida existente o nueva.

En lo que va de este capítulo, hemos considerado varias ideas básicas sobre la naturaleza de los constructos psicológicos y su medición. Pero ahora imagina que estás en la posición de tener que medir realmente un constructo psicológico para un proyecto de investigación. ¿Cómo se debe proceder? En términos generales, hay cuatro pasos en el proceso de medición: (a) definir conceptualmente el constructo, (b) definir operativamente el constructo, (c) implementar la medida, y (d) evaluar la medida. En esta sección, veremos cada uno de estos pasos a su vez.

Definir conceptualmente el constructo

Tener una definición conceptual clara y completa de un constructo es un requisito previo para una buena medición. Por un lado, te permite tomar decisiones acertadas sobre exactamente cómo medir el constructo. Si solo tuvieras una vaga idea de que querías medir la “memoria” de las personas, por ejemplo, no tendrías forma de elegir si deberías hacer que recuerden una lista de palabras de vocabulario, un conjunto de fotografías, una habilidad recién aprendida, una experiencia de hace mucho tiempo, o hacer que recuerden realizar una tarea en un momento posterior tiempo. Debido a que los psicólogos ahora conceptualizan la memoria como un conjunto de sistemas semi-independientes, tendrías que ser más precisos sobre lo que quieres decir con “memoria”. Si te interesa la memoria episódica a largo plazo (memoria para experiencias anteriores), entonces tendría sentido que los participantes recuerden una lista de palabras que aprendieron la semana pasada, pero que traten de recordar para ejecutar una tarea en el futuro no lo haría. En general, no hay sustituto para leer la literatura de investigación sobre un constructo y prestar mucha atención a cómo lo han definido otros.

Definir operacionalmente el constructo

Una vez que tienes una definición conceptual del constructo te interesa estudiar es el momento de definir operacionalmente el constructo. Recordar una definición operativa es una definición de la variable en términos de cómo se va a medir precisamente. Dado que la mayoría de las variables son conceptos relativamente abstractos que no se pueden observar directamente (por ejemplo, estrés), y la observación está en el corazón del método científico, las definiciones conceptuales deben transformarse en algo que pueda observarse y medirse directamente. La mayoría de las variables pueden definirse operacionalmente de muchas maneras diferentes. Por ejemplo, el estrés puede definirse operacionalmente como los puntajes de las personas en una escala de estrés como la Escala de Estrés Percibido (Cohen, Kamarck, & Mermelstein, 1983) ^[1], las concentraciones de cortisol en su saliva o el número de eventos estresantes de la vida que han experimentado recientemente. Como se describe a continuación, definir operacionalmente su (s) variable (s) de interés puede implicar el uso de una medida existente o la creación de su propia medida.

Uso de una medida existente

Por lo general, es una buena idea utilizar una medida existente que haya sido utilizada con éxito en investigaciones previas. Entre las ventajas están que (a) ahorras el tiempo y la molestia de crear la tuya propia, (b) ya hay alguna evidencia de que la medida es válida (si se ha utilizado con éxito), y (c) tus resultados se pueden comparar más fácilmente y combinar con resultados anteriores. De hecho, si ya existe una medida confiable y válida de un constructo, otros investigadores podrían esperar que lo uses a menos que tengas una razón buena y claramente establecida para no hacerlo.

Si elige usar una medida existente, es posible que aún tenga que elegir entre varias alternativas. Podrías elegir el más común, el que tenga la mejor evidencia de confiabilidad y validez, el que mejor mida un aspecto particular de un constructo que te interese (por ejemplo, una medida fisiológica del estrés si estás más interesado en su fisiología subyacente), o incluso la que ser más fácil de usar. Por ejemplo, el Inventario de Personalidad de Diez Elementos (TIPI) es un cuestionario de autoreporte que mide todas las dimensiones de personalidad de los Cinco Grandes con solo 10 ítems (Gosling, Rentfrow, & Swann, 2003) ^[2]. No es tan confiable ni válido como medidas más largas e integrales, pero un investigador podría optar por usarlo cuando el tiempo de prueba esté severamente limitado.

Cuando una medida existente se creó principalmente para su uso en investigación científica, generalmente se describe en detalle en un artículo de investigación publicado y es de uso gratuito en su propia investigación, con una cita adecuada. Podrías encontrar que posteriormente los investigadores que utilizan la misma medida la describen solo brevemente pero proporcionan una referencia al artículo original, en cuyo caso tendrías que obtener los detalles del artículo original. La Asociación Americana de Psicología también publica el Directorio de Medidas Experimentales Inéditas y PsycTests, que son extensos catalogos/colecciones de medidas que se han utilizado en investigaciones previas. Muchas medidas existentes, especialmente aquellas que tienen aplicaciones en psicología clínica, son patentadas. Esto significa que un editor posee los derechos sobre ellos y que tendrías que comprarlos. Estos incluyen muchas pruebas de inteligencia estándar, el Inventario de Depresión de Beck y el Inventario Multifásico de Personalidad de Minnesota (MMPI). Los detalles sobre muchas de estas medidas y cómo obtenerlas se pueden encontrar en otros libros de referencia, incluyendo Pruebas en Impresión y el Anuario de Medidas Mentales. Hay muchas posibilidades de que puedas encontrar estos libros de referencia en tu biblioteca universitaria.

Creando Tu Propia Medida

En lugar de usar una medida existente, es posible que desee crear la suya propia. Quizás no existe una medida existente del constructo que le interesa o los existentes son demasiado difíciles o requieren mucho tiempo de usar. O tal vez quiera usar una nueva medida específicamente para ver si funciona de la misma manera que las medidas existentes, es decir, para evaluar la validez convergente. En esta sección, consideramos algunas cuestiones generales en la creación de nuevas medidas que se aplican por igual a las medidas de autoinforme, conductuales y fisiológicas. En el Capítulo 7 se presentan lineamientos más detallados para la creación de medidas de autoinforme.

Primero, tenga en cuenta que la mayoría de las medidas nuevas en psicología son realmente variaciones de las medidas existentes, por lo que aún debe buscar ideas en la literatura de investigación. Quizás puedas modificar un cuestionario existente, crear una versión en papel y lápiz de una medida que normalmente está computarizada (o viceversa), o adaptar una medida que tradicionalmente se ha utilizado para otro propósito. Por ejemplo, la famosa tarea Stroop (Stroop, 1935) ^[3] —en la que la gente rápidamente nombra los colores en los que se imprimen diversas palabras de color— ha sido adaptada para el estudio de la ansiedad social. Las personas con mucha ansiedad social son más lentas en los nombres de colores cuando las palabras tienen connotaciones sociales negativas como “estúpido” (Amir, Freshman, & Foa, 2002) ^[4].

Cuando creas una nueva medida, debes esforzarte por la simplicidad. Recuerda que tus participantes no están tan interesados en tu investigación como tú y que variarán ampliamente en su capacidad para entender y llevar a cabo cualquier tarea que les des. Debes crear un conjunto de instrucciones claras usando un lenguaje sencillo que puedas presentar por escrito o leer en voz alta (o ambos). También es una buena idea incluir uno o más ítems de práctica para que los participantes puedan familiarizarse con la tarea, y construir una oportunidad para que ellos hagan preguntas antes de continuar. También es mejor mantener la medida breve para evitar aburrir o frustrar a tus participantes hasta el punto de que sus respuestas comiencen a volverse menos confiables y válidas.

La necesidad de brevedad, sin embargo, debe sopesarse con el hecho de que casi siempre es mejor que una medida incluya varios artículos en lugar de un solo artículo. Hay dos razones para ello. Una es una cuestión de validez de contenido. A menudo se requieren múltiples elementos para cubrir un constructo adecuadamente. El otro es cuestión de confiabilidad. Las respuestas de las personas a elementos individuales pueden verse influenciadas por todo tipo de factores irrelevantes: malinterpretar el elemento en particular, una distracción momentánea o un simple error, como verificar la opción de respuesta incorrecta. Pero cuando se suman o promedian varias respuestas, los efectos de estos factores irrelevantes tienden a anularse entre sí para producir puntuaciones más confiables. Recuerde, sin embargo, que múltiples ítems deben estructurarse de manera que les permita combinarse en una única puntuación general sumando o promediando. Para medir la “responsabilidad financiera”, un estudiante podría preguntar a las personas sobre sus ingresos anuales, obtener su puntaje crediticio y hacer que califiquen lo “ahorrativos” que son, pero no hay una manera obvia de combinar estas respuestas en una puntuación general. Para crear una verdadera medida de múltiples elementos, el estudiante podría pedirle a la gente que califique el grado en que 10 declaraciones sobre responsabilidad financiera los describen en la misma escala de cinco puntos.

Por último, la mejor manera de asegurarse de que su medida tiene instrucciones claras, incluye la práctica suficiente, y es una longitud adecuada es probar a varias personas. Obsérvalos mientras completan la tarea, cronometrarlos y pedirles después que comenten lo fácil o difícil que fue, si las instrucciones eran claras, y cualquier otra cosa que pueda estar preguntando. Obviamente, es mejor descubrir problemas con una medida antes de comenzar cualquier recolección de datos a gran escala.

Implementación de la Medida

Querrás implementar cualquier medida de manera que maximice su confiabilidad y validez. En la mayoría de los casos, lo mejor es poner a prueba a todos en condiciones similares que, idealmente, estén tranquilos y libres de distracciones. Los participantes suelen ser probados en grupos porque es eficiente, pero ten en cuenta que puede crear distracciones que reduzcan la confiabilidad y validez de la medida. Como siempre, es bueno utilizar investigaciones previas como guía. Si otros han probado exitosamente a personas en grupos usando una medida en particular, entonces deberías considerar hacerlo también.

Tenga en cuenta también que las personas pueden reaccionar de diversas maneras a ser medidas que reducen la confiabilidad y validez de los puntajes. Aunque algunos participantes molestos podrían responder intencionalmente de formas destinadas a interrumpir un estudio, es más probable que la reactividad de los participantes tome la forma opuesta. Los participantes agradables podrían responder de la manera que creen que se espera que lo hagan. Algunos participantes podrían dedicarse a responder, hacer o decir cosas socialmente deseables porque piensan que es lo socialmente apropiado. Por ejemplo, las personas con baja autoestima coinciden en que sienten que son una persona de valor no porque realmente se sientan así sino porque creen que esta es la respuesta socialmente apropiada y no quieren quedar mal a los ojos del investigador. Adicionalmente, los estudios de investigación pueden tener características de demanda incorporadas: señales sutiles que revelan cómo el investigador espera que se comporten los participantes. Por ejemplo, una participante cuya actitud hacia el ejercicio se mide inmediatamente después de que se le pida que lea un pasaje sobre los peligros de las enfermedades cardíacas podría concluir razonablemente que el pasaje estaba destinado a mejorar su actitud. En consecuencia, podría responder de manera más favorable porque cree que se espera que lo haga el investigador. Finalmente, tus propias expectativas pueden sesgar los comportamientos de los participantes de manera no intencional.

Hay varias precauciones que puede tomar para minimizar este tipo de reactividad. Una es hacer que el procedimiento sea lo más claro y breve posible para que los participantes no se vean tentados a desahogar sus frustraciones sobre tus resultados. Otra es garantizar el anonimato de los participantes y dejarles claro que lo estás haciendo. Si los estás probando en grupos, asegúrate de que estén sentados lo suficientemente separados como para que no puedan ver las respuestas del otro. Dales a todos el mismo tipo de implemento de escritura para que no puedan ser identificados por, por ejemplo, el bolígrafo con purpurina rosa que usaron. Incluso puedes permitirles sellar cuestionarios completados en sobres individuales o ponerlos en un buzón donde inmediatamente se mezclan con los cuestionarios de otros. Aunque el consentimiento informado requiere decirle a los participantes lo que van a hacer, no requiere revelar tu hipótesis u otra información que pueda sugerir a los participantes cómo esperas que respondan. Un cuestionario diseñado para medir la responsabilidad financiera no necesita titularse “¿Eres financieramente responsable?” Podría titularse “Cuestionario de Dinero” o no tener ningún título en absoluto. Por último, los efectos de tus expectativas pueden minimizarse disponiendo que la medida sea administrada por un ayudante que sea “ciego” o inconsciente de su intención o de cualquier hipótesis que se esté probando. Independientemente de si esto es posible, debe estandarizar todas las interacciones entre investigadores y participantes, por ejemplo, leyendo siempre el mismo conjunto de instrucciones palabra por palabra.

Evaluando la Medida

Una vez que haya utilizado su medida en una muestra de personas y tenga un conjunto de puntajes, está en condiciones de evaluarla más a fondo en términos de confiabilidad y validez. Incluso si la medida ha sido ampliamente utilizada por otros investigadores y ya ha demostrado evidencia de confiabilidad y validez, no debe asumir que funcionó como se esperaba para su muestra en particular y bajo sus condiciones particulares de prueba. Independientemente, ahora tiene evidencia adicional relacionada con la confiabilidad y validez de la medida, y tendría sentido agregar esa evidencia a la literatura de investigación.

En la mayoría de los diseños de investigación, no es posible evaluar la confiabilidad test-retest porque los participantes son probados en una sola vez. Para una nueva medida, puede diseñar un estudio específicamente para evaluar su confiabilidad test-retest probando el mismo conjunto de participantes en dos momentos separados. En otros casos, un estudio diseñado para responder a una pregunta diferente aún permite evaluar la confiabilidad test-retest. Por ejemplo, un instructor de psicología podría medir la actitud de sus alumnos hacia el pensamiento crítico usando la misma medida al principio y al final del semestre para ver si hay algún cambio. Incluso si no hay cambios, aún podría mirar la correlación entre los puntajes de los estudiantes en los dos tiempos para evaluar la confiabilidad test-retest de la medida. También se acostumbra evaluar la consistencia interna para cualquier medida de múltiples ítems, generalmente observando una correlación de mitad dividida o α de Cronbach.

La validez del criterio se puede evaluar de diversas maneras. Por ejemplo, si tu estudio incluyó más de una medida del mismo constructo o medidas de constructos conceptualmente distintos, entonces deberías mirar las correlaciones entre estas medidas para asegurarte de que se ajustan a tus expectativas. Obsérvese también que una manipulación experimental exitosa también proporciona evidencia de validez de criterio. Recordemos que MacDonald y Martineau manipularon los estados de ánimo de los participantes haciéndoles pensar pensamientos positivos o negativos, y después de la manipulación, su medida del estado de ánimo mostró una clara diferencia entre los dos grupos. Esto proporcionó simultáneamente evidencia de que su manipulación del estado de ánimo funcionó y que su medida del estado de ánimo era válida.

Pero, ¿y si sus datos recién recopilados arrojan dudas sobre la confiabilidad o validez de su medida? La respuesta corta es que hay que preguntar por qué. Podría ser que haya algo mal con tu medida o cómo la administraste. Podría ser que haya algo mal en tu definición conceptual. Podría ser que tu manipulación experimental fracasara. Por ejemplo, si una medida del estado de ánimo no mostró diferencia entre las personas a las que instruyó que pensaran pensamientos positivos versus negativos, tal vez sea porque los participantes en realidad no pensaron los pensamientos que se suponía que debían o que los pensamientos en realidad no afectaron sus estados de ánimo. En definitiva, es “volver al tablero de dibujo” revisar la medida, revisar la definición conceptual, o intentar una nueva manipulación.

Referencias

Cohen, S., Kamarck, T., & Mermelstein, R. (1983). Una medida global del estrés percibido. Revista de Salud y Comportamiento Social, 24, 386-396.
Gosling, S. D., Rentfrow, P. J., & Swann, W. B., Jr. (2003). Una medida muy breve de los dominios de personalidad de los Cinco Grandes. Revista de Investigación en Personalidad, 37, 504—528.
Stroop, J. R. (1935). Estudios de interferencia en reacciones verbales seriales. Revista de Psicología Experimental, 18, 643—662.
Amir, N., Freshman, M., & Foa, E. (2002). Interferencia Stroop mejorada por amenaza en fobia social. Revista de Trastornos de Ansiedad, 16, 1—9.