7.2: Validez

Última actualización
Guardar como PDF

Page ID: 144369

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

La validez, a menudo llamada validez de constructo, se refiere a la medida en que una medida representa adecuadamente el constructo subyacente que se supone que debe medir. Por ejemplo, ¿una medida de compasión realmente mide la compasión y no mide un constructo diferente como la empatía? La validez se puede evaluar utilizando enfoques teóricos o empíricos, y idealmente debería medirse utilizando ambos enfoques. La evaluación teórica de la validez se centra en qué tan bien se traduce o representa la idea de un constructo teórico en una medida operativa. Este tipo de validez se denomina validez traslacional (o validez representacional), y consta de dos subtipos: validez facial y de contenido. La validez traslacional se evalúa típicamente utilizando un panel de jueces expertos, quienes califican cada ítem (indicador) sobre qué tan bien se ajustan a la definición conceptual de ese constructo, y una técnica cualitativa llamada Q-Sort.

La evaluación empírica de la validez examina qué tan bien se relaciona una medida dada con uno o más criterios externos, a partir de observaciones empíricas. Este tipo de validez se denomina validez relacionada con criterios, la cual incluye cuatro subtipos: convergente, discriminante, concurrente y predictiva. Mientras que la validez de traducción examina si una medida es un buen reflejo de su constructo subyacente, la validez relacionada con criterios examina si una medida dada se comporta como debería, dada la teoría de ese constructo. Esta evaluación se basa en el análisis cuantitativo de los datos observados mediante técnicas estadísticas como el análisis correlacional, el análisis factorial, etc. La distinción entre evaluación teórica y empírica de validez se ilustra en la Figura 7.2. Sin embargo, ambos enfoques son necesarios para asegurar adecuadamente la validez de las medidas en la investigación en ciencias sociales.

Obsérvese que los diferentes tipos de validez aquí discutidos se refieren a la validez de los procedimientos de medición, la cual es distinta de la validez de los procedimientos de prueba de hipótesis, como la validez interna (causalidad), la validez externa (generalizabilidad) o la conclusión estadística validez. Estos últimos tipos de validez se discuten en un capítulo posterior.

Vigencia facial. La validez facial se refiere a si un indicador parece ser una medida razonable de su constructo subyacente “en su cara”. Por ejemplo, la frecuencia de la asistencia de uno a los servicios religiosos parece tener sentido como una indicación de la religiosidad de una persona sin mucha explicación. De ahí que este indicador tenga validez facial. No obstante, si tuviéramos que sugerir cuántos libros se sacaron de una biblioteca de oficina como medida de la moral de los empleados, entonces tal medida probablemente carecería de validez facial porque no parece tener mucho sentido. Curiosamente, algunas de las medidas populares utilizadas en la investigación organizacional parecen carecer de validez facial. Por ejemplo, la capacidad de absorción de una organización (cuánto conocimiento nuevo puede asimilar para mejorar los procesos organizacionales) a menudo se ha medido como intensidad de investigación y desarrollo (es decir, ¡gastos de I+D divididos por ingresos brutos)! Si su investigación incluye constructos que son altamente abstractos o constructos que son difíciles de separar conceptualmente entre sí (por ejemplo, compasión y empatía), puede valer la pena considerar usar un panel de expertos para evaluar la validez facial de sus medidas de constructo.

Figura 7.2. Dos enfoques de evaluación de validez

Validez del contenido. La validez del contenido es una evaluación de qué tan bien un conjunto de ítems de escala coincide con el dominio de contenido relevante del constructo que está tratando de medir. Por ejemplo, si quieres medir el constructo “satisfacción con el servicio de restaurante”, y defines el dominio de contenido del servicio de restaurante como incluyendo la calidad de la comida, cortesía de los empleados de espera, duración de la espera y el ambiente general del restaurante (es decir, si es ruidoso, ahumado, etc.), entonces para una adecuada validez de contenido, este constructo debe medirse utilizando indicadores que examinen hasta qué punto un cliente del restaurante está satisfecho con la calidad de la comida, la cortesía de los asistentes, la duración de la espera y el ambiente del restaurante. Por supuesto, este enfoque requiere una descripción detallada de todo el dominio de contenido de un constructo, lo que puede resultar difícil para construcciones complejas como la autoestima o la inteligencia. De ahí que no siempre sea posible evaluar adecuadamente la validez del contenido. Al igual que con la validez facial, se puede emplear un panel de expertos de jueces para examinar la validez del contenido de los constructos.

La validez convergente se refiere a la cercanía con la que una medida se relaciona (o converge sobre) el constructo que se pretende medir, y la validez discriminante se refiere al grado en que una medida no mide (o discrimina de) otros constructos que no es se supone que debe medir. Por lo general, la validez convergente y la validez discriminante se evalúan conjuntamente para un conjunto de constructos relacionados. Por ejemplo, si esperas que el conocimiento de una organización esté relacionado con su desempeño, ¿cómo puedes asegurar que tu medida de conocimiento organizacional es efectivamente medir el conocimiento organizacional (para la validez convergente) y no el desempeño organizacional (para la validez discriminante)? La validez convergente se puede establecer comparando los valores observados de un indicador de un constructo con el de otros indicadores del mismo constructo y demostrando similitud (o alta correlación) entre los valores de estos indicadores. La validez discriminante se establece demostrando que los indicadores de un constructo son diferentes de (es decir, tienen baja correlación con) otros constructos. En el ejemplo anterior, si tenemos una medida de conocimiento organizacional de tres ítems y tres ítems más para el desempeño organizacional, con base en datos de muestra observados, podemos calcular correlaciones bivariadas entre cada par de ítems de conocimiento y desempeño. Si esta matriz de correlación muestra correlaciones altas dentro de los ítems de los constructos de conocimiento organizacional y desempeño organizacional, pero bajas correlaciones entre ítems de estos constructos, entonces hemos demostrado simultáneamente validez convergente y discriminante (ver Tabla 7.1).

Cuadro 7.1. Análisis correlacional bivariado para validez convergente y discriminante

Un método estadístico alternativo y más común utilizado para demostrar validez convergente y discriminante es el análisis factorial exploratorio. Se trata de una técnica de reducción de datos que agrega un conjunto dado de ítems a un conjunto más pequeño de factores basados en la estructura de correlación bivariada discutida anteriormente utilizando una técnica estadística llamada análisis de componentes principales. Estos factores deberían corresponder idealmente a los constructos teóricos subyacentes que estamos tratando de medir. La norma general para la extracción de factores es que cada factor extraído debe tener un valor propio mayor a 1.0. Los factores extraídos se pueden rotar usando técnicas de rotación ortogonal u oblicua, dependiendo de si se espera que los constructos subyacentes estén relativamente no correlacionados o correlacionados, para generar pesos de factores que pueden usarse para agregar los elementos individuales de cada constructo en un compuesto medir. Para una validez convergente adecuada, se espera que los ítems pertenecientes a un constructo común presenten cargas factoriales de 0.60 o superiores en un solo factor (llamadas cargas del mismo factor), mientras que para la validez discriminante, estos ítems deben tener cargas factoriales de 0.30 o menos en todos los demás factores (cross-factor cargas), como se muestra en el ejemplo de matriz de factor girado en la Tabla 7.2. Una técnica más sofisticada para evaluar la validez convergente y discriminante es el enfoque multi-rasgo multimétodo (MTMM). Esta técnica requiere medir cada constructo (rasgo) utilizando dos o más métodos diferentes (por ejemplo, encuesta y observación personal, o quizás encuesta a dos grupos de encuestados diferentes como maestros y padres de familia para evaluar la calidad académica). Se trata de un enfoque oneroso y relativamente menos popular, y por lo tanto no se discute aquí.

La validez relacionada con criterios también puede evaluarse en función de si una medida dada se relaciona bien con un criterio actual o futuro, que se denominan respectivamente validez concurrente y predictiva. La validez predictiva es el grado en que una medida predice con éxito un resultado futuro que teóricamente se espera predecir. Por ejemplo, ¿pueden los puntajes de los exámenes estandarizados (por ejemplo, los puntajes de las pruebas de aptitud escolar) predecir correctamente el éxito académico en la universidad (por ejemplo, medido por el promedio de calificaciones universitarias) Evaluar dicha validez requiere la creación de una “red nomológica” que muestre cómo los constructos se relacionan teóricamente entre sí. La validez concurrente examina qué tan bien se relaciona una medida con otro criterio concreto que se presume que ocurre simultáneamente. Por ejemplo, ¿los puntajes de los estudiantes en una clase de cálculo se correlacionan bien con sus puntuaciones en una clase de álgebra lineal? Estos puntajes deben estar relacionados de manera concurrente porque ambos son pruebas de matemáticas. A diferencia de la validez convergente y discriminante, la validez concurrente y predictiva es frecuentemente ignorada en la investigación empírica en ciencias sociales.

Cuadro 7.2. Análisis factorial exploratorio para validez convergente y discriminante