11.4: Selección de Técnicas de Evaluación Adecuadas I- Evaluaciones de Alta Calidad

Última actualización
Guardar como PDF

Page ID: 132164

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Para que una evaluación sea de alta calidad se necesita tener buena validez y confiabilidad así como ausencia de sesgo.

Validez

Validez es la evaluación de la “adecuación e idoneidad de las interpretaciones y usos de los resultados de la evaluación” para un determinado grupo de individuos (Linn & Miller, 2005, p. 68). Por ejemplo, ¿es apropiado concluir que los resultados de una prueba de matemáticas sobre fracciones dadas a inmigrantes recientes representan con precisión su comprensión de las fracciones? ¿Es apropiado que la maestra concluya, con base en sus observaciones, que una estudiante de jardín de infantes, Jazmín, tiene Trastorno por Déficit de Atención porque no sigue las instrucciones orales de la maestra? Obviamente en cada situación son posibles otras interpretaciones de que los estudiantes inmigrantes tienen malas habilidades en inglés en lugar de habilidades matemáticas, o que Jasmine puede tener problemas de audición.

Es importante entender que la validez se refiere a la interpretación y usos que se hacen de los resultados de un procedimiento de evaluación y no del procedimiento de evaluación en sí. Por ejemplo, hacer juicios sobre los resultados de la misma prueba sobre fracciones puede ser válido si todos los estudiantes entienden bien el inglés. Una maestra concluyendo a partir de sus observaciones que el alumno de jardín de infantes tiene Trastorno por Déficit de Atención (ADD) puede ser apropiado si el alumno ha sido examinado para detectar trastornos auditivos y otros (aunque la clasificación de un trastorno como el ADD no puede ser hecha por un maestro). La validez implica hacer un juicio global del grado en que se justifican las interpretaciones y usos de los resultados de la evaluación. La validez es una cuestión de grado (por ejemplo, validez alta, moderada o baja) en lugar de todo o ninguno (por ejemplo, totalmente válido vs inválido) (Linn & Miller, 2005).

Al evaluar la validez se consideran tres fuentes de evidencia: contenido, constructo y predictivo. La evidencia de validez de contenido se asocia con la pregunta: ¿Qué tan bien incluye la evaluación el contenido o las tareas que se supone que debe hacer? Por ejemplo, supongamos que su instructor de psicología educativa concibe una prueba de mitad de período y le dice que esto incluye los capítulos uno al siete del libro de texto. Obviamente, todos los ítems en prueba deben basarse en el contenido de la psicología educativa, no en tus clases de métodos o fundamentos culturales. Además, los elementos de la prueba deben cubrir el contenido de los siete capítulos y no sólo los capítulos tres a siete, a menos que el instructor le diga que estos capítulos tienen prioridad.

Los maestros deben tener claros sus propósitos y prioridades para la instrucción antes de que puedan comenzar a recopilar evidencia relacionada con la validez del contenido. La validación de contenido determina el grado en que las tareas de evaluación son relevantes y representativas de las tareas juzgadas por el profesor (o desarrollador de pruebas) para representar sus metas y objetivos (Linn & Miller, 2005). Es importante que los profesores piensen en la validación de contenido al diseñar tareas de evaluación y una forma de ayudar a hacerlo es idear una Tabla de Especificaciones. Un ejemplo, basado en los estándares estatales de Pensilvania para la geografía de grado 3, está en. En la columna de la izquierda se encuentra el contenido instructivo para una prueba de 20 ítems que el profesor ha decidido construir con dos tipos de objetivos instructivos: identificación y usos o localizaciones. La segunda y tercera columnas identifican el número de ítems para cada área de contenido y cada objetivo instruccional. Observe que el profesor ha decidido que se dediquen seis ítems a la subárea de representaciones geográficas- más que a cualquier otra subárea. La elaboración de una tabla de especificaciones ayuda a los profesores a determinar si algunas áreas de contenido o conceptos están sobremuestreados (es decir, hay demasiados elementos) y algunos conceptos están submuestreados (es decir, hay muy pocos elementos).

Tabla\(\PageIndex{1}\): Ejemplo de Tabla de Especificaciones: grado 3 alfabetización básica de geografía

Contenido	Objetivo instruccional Identifica usos o locaciones		Número total de artículos	Porcentaje de artículos
Identificar herramientas de geografía y sus usos Representaciones geográficas: por ejemplo, mapas, globo terráqueo, diagramas y fotografías Información espacial: croquis y mapas temáticos Mapas mentales	3 1 1	3 1 1	6 2 2	30% 10% 10%
Identificar y localizar lugares y regiones Características físicas (por ejemplo, lagos, continentes) Características humanas (países, estados, ciudades) Regiones con características geográficas unificadoras, por ejemplo, cuencas fluviales	1 3 1	2 2 1	3 5 2	15% 25% 10%
Número de artículos	10	10	20
Porcentaje de artículos	50%	50%		100%

La evidencia de validez de constructo es más compleja que la evidencia de validez de contenido A menudo nos interesa hacer juicios más amplios sobre el desempeño de los estudiantes que habilidades específicas como hacer fracciones. El foco puede estar en construcciones como el razonamiento matemático o la comprensión lectora. Un constructo es una característica de una persona que suponemos que existe para ayudar a explicar el comportamiento. Por ejemplo, utilizamos el concepto de ansiedad ante las pruebas para explicar por qué algunos individuos al realizar una prueba tienen dificultad para concentrarse, tienen reacciones fisiológicas como sudoración y se desempeñan mal en las pruebas pero no en las tareas de clase. Del mismo modo, el razonamiento matemático y la comprensión lectora son constructos ya que los usamos para ayudar a explicar el desempeño en una evaluación La validación de constructos es el proceso de determinar hasta qué punto el desempeño en una evaluación puede interpretarse en términos de los constructos previstos y no está influenciado por factores irrelevantes para el constructo. Por ejemplo, los juicios sobre el desempeño de inmigrantes recientes en una prueba de razonamiento matemático administrada en inglés tendrán baja validez de constructo si los resultados están influenciados por habilidades del idioma inglés que son irrelevantes para la resolución de problemas matemáticos. Del mismo modo, la validez de constructo de los exámenes de fin de semestre probablemente sea pobre para aquellos estudiantes que están muy ansiosos al tomar exámenes mayores pero no durante los períodos regulares de clase o al realizar tareas. Los profesores pueden ayudar a aumentar la validez del constructo tratando de reducir los factores que influyen en el rendimiento pero que son irrelevantes para el constructo que se evalúa. Estos factores incluyen ansiedad, habilidades del idioma inglés y velocidad de lectura (Linn & Miller 2005).

Una tercera forma de evidencia de validez se llama validez relacionada con criterios. Los colegios selectivos en Estados Unidos utilizan el ACT o SAT entre otros criterios para elegir quién será admitido porque estas pruebas estandarizadas ayudan a predecir las calificaciones de primer año, es decir, tienen una alta validez relacionada con los criterios. Algunas escuelas K-12 dan a los estudiantes exámenes de matemáticas o lectura en el semestre de otoño con el fin de predecir cuáles probablemente les vaya bien en las pruebas estatales anuales administradas en el semestre de primavera y qué estudiantes es poco probable que aprueben las pruebas y necesitarán asistencia adicional. Si las pruebas administradas en otoño no predicen el desempeño de los estudiantes con precisión, entonces se puede brindar asistencia adicional a los estudiantes equivocados ilustrando la importancia de la validez relacionada con los criterios.

Search

Text Color

Text Size

Margin Size

Font Type