Saltar al contenido principal
LibreTexts Español

1.5: Tipos de Evaluación de Alfabetización- Principios, Procedimientos y Aplicaciones

  • Page ID
    100063
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    5. Tipos de Evaluación de Alfabetización: Principios, Procedimientos y Aplicaciones

    Kristen A. Munger

    Abstracto

    Este capítulo se centra en ideas clave para comprender la evaluación de la alfabetización para ayudar con las decisiones educativas. Se incluye una visión general de las diferentes evaluaciones de alfabetización, junto con los procedimientos comunes de evaluación utilizados en las escuelas y las aplicaciones de las prácticas de evaluación para apoyar la enseñanza efectiva. Los lectores del capítulo obtendrán una comprensión de los diferentes tipos de evaluaciones, cómo se utilizan las técnicas de evaluación en las escuelas y cómo los resultados de la evaluación pueden informar la enseñanza.

    Objetivos de aprendizaje

    Después de leer este capítulo, los lectores podrán

    1. explicar cómo las pruebas se ajustan a la categoría más amplia de evaluación;
    2. describir las diferentes evaluaciones de alfabetización y cómo se utilizan comúnmente en las escuelas;
    3. discutir por qué los hallazgos de la evaluación se juzgan en función de su validez para responder preguntas educativas y tomar decisiones;
    4. explicar la importancia de la confiabilidad y validez de los puntajes de las pruebas y por qué las propiedades psicométricas son importantes para interpretar ciertos tipos de resultados de evaluación;
    5. criticar las evaluaciones de alfabetización en términos de cómo pueden ser utilizadas o mal utilizadas.

    Introducción

    Cuando se plantea el tema de la evaluación educativa, la mayoría de los educadores piensan inmediatamente en pruebas de alto riesgo utilizadas para medir el progreso de los estudiantes en el cumplimiento de un conjunto de estándares educativos. Tiene sentido que gran parte del diálogo sobre la evaluación educativa se centra en las pruebas de alto riesgo porque es este tipo de evaluación la más polémica en el sistema educativo estadounidense, particularmente porque la gran mayoría de los estados han adoptado el Common Core State Estándares para las artes del lenguaje inglés y la alfabetización en historia/estudios sociales, ciencias y materias técnicas (CCSS; National Governors Association Center for Best Practices & Council of Chief State School Officers [NGA & CCSSO], 2010), junto con pruebas de alto riesgo destinadas a evaluar competencia de los estudiantes para conocerlos. Pero las pruebas de alto riesgo son en realidad solo una fracción de los procedimientos de evaluación utilizados en las escuelas, y muchas otras evaluaciones son tan importantes para influir en las decisiones de instrucción. Este capítulo analiza un amplio alcance de las evaluaciones de alfabetización que se utilizan comúnmente en las aulas de kindergarten a duodécimo grado, junto con formas de usar los resultados para tomar decisiones educativas.

    Evaluación de Alfabetización

    Para entender la evaluación de la alfabetización, primero debemos pensar en el término “alfabetización”, que se discute a lo largo de los capítulos de este libro de texto. Tradicionalmente se ha considerado que la alfabetización tiene que ver con la capacidad de leer y escribir. Más recientemente, la alfabetización ha evolucionado para abarcar habilidades multidimensionales como escuchar, hablar, ver y actuar (NGA y CCSSO, 2010), junto con factores culturales y sociales (Snow, 2002) que pueden facilitar o restringir el desarrollo de la alfabetización. Esta definición multidimensional de alfabetización requiere que los educadores y formuladores de políticas conceptualicen la alfabetización de formas complejas. Las controversias surgen cuando la riqueza de la alfabetización se simplifica excesivamente por evaluaciones que no son multidimensionales ni auténticas, como el uso excesivo de preguntas de opción múltiple. Los educadores pueden encontrar frustrante la falta de autenticidad de estas evaluaciones cuando los resultados no parecen representar lo que sus alumnos saben y pueden hacer. Por otro lado, los métodos de evaluación más auténticos, como observar a los estudiantes que están deliberando sobre el significado de los textos durante las discusiones grupales, no miden con precisión las habilidades de alfabetización, lo que puede limitar los tipos de decisiones que se pueden tomar.

    A pesar de que la evaluación de la alfabetización utilizando elementos de opción múltiple versus procedimientos más auténticos parece ser opuestos, sí tienen una característica importante en común: ambos pueden dar respuestas a preguntas educativas. Si un enfoque es más valioso que el otro, o si ambos son necesarios, depende completamente del tipo de preguntas que se hagan. Entonces, si alguien te pregunta si una prueba de opción múltiple es una buena prueba o si observar la lectura de un estudiante es un mejor procedimiento de evaluación, tu respuesta dependerá de muchos factores diferentes, como el propósito de la evaluación, junto con la calidad de la herramienta de evaluación, las habilidades de la persona que la está usando, y las decisiones educativas que se deben tomar. Este capítulo te ayudará a aprender más sobre cómo tomar decisiones sobre el uso de evaluaciones de alfabetización y cómo usarlas para mejorar la enseñanza y el aprendizaje.

    Taxonomía de las evaluaciones de alfabetización

    Para comprender los propósitos de los diferentes tipos de evaluación de alfabetización, es útil categorizarlos en función de sus propósitos. Cabe señalar que hay mucha más investigación sobre la evaluación de la lectura en comparación con la evaluación de otras habilidades de alfabetización, haciendo ejemplos en el capítulo algo ponderados hacia las evaluaciones de lectura. También se han incluido ejemplos de evaluaciones no limitadas a la lectura, en su caso, como recordatorio de que la alfabetización incluye leer, escribir, escuchar, hablar, ver y actuar, de acuerdo con la definición de alfabetización proporcionada en el capítulo 1 de este libro de texto.

    Evaluaciones formales

    Una forma de categorizar las evaluaciones de alfabetización es si son formales o informales. Las evaluaciones formales de alfabetización suelen implicar el uso de algún tipo de procedimientos estandarizados que requieren administrar y puntuar la evaluación de la misma manera para todos los estudiantes. Un ejemplo de evaluaciones formales son las pruebas estatales, que evalúan la competencia en uno o más dominios de alfabetización, como la lectura, la escritura y la escucha. Durante la administración de las pruebas estatales, todos los estudiantes reciben la misma prueba en sus niveles de grado dados, los maestros leen las mismas instrucciones de la misma manera a todos los alumnos, se les da la misma cantidad de tiempo para completar la prueba (a menos que el alumno haya recibido adaptaciones de prueba por una discapacidad), y las pruebas se califican y reportan utilizando los mismos procedimientos. La estandarización permite controlar los factores que pueden influir involuntariamente en los puntajes de los estudiantes, como cómo se dan las instrucciones, cómo responden los maestros a las preguntas de los estudiantes y cómo los maestros califican las respuestas de los estudiantes. Ciertos puntajes de exámenes estatales también suelen clasificarse como criterios referenciados porque miden cómo los estudiantes logran en referencia a “un conjunto fijo de criterios predeterminados o estándares de aprendizaje” (edglossary.org, 2014). Cada estado especifica estándares que los estudiantes deben cumplir en cada nivel de grado, y los puntajes de las pruebas estatales reflejan lo bien que los estudiantes lograron en relación con estos estándares. Por ejemplo, en una escala de 1 a 4, si un estudiante obtuvo una puntuación de “2”, este puntaje normalmente reflejaría que el estudiante aún no está cumpliendo con los estándares para su grado, y él o ella puede ser elegible para recibir ayuda adicional para cumplirlos.

    Otro ejemplo de una puntuación referenciada por criterios es la puntuación obtenida en una prueba de permiso para conducir un automóvil. Se utiliza una puntuación de corte predeterminada para decidir quién está listo para ponerse al volante de un automóvil, y es posible que todos los examinados cumplan con el criterio (por ejemplo, 80% de artículos correctos o superiores). Las puntuaciones de las pruebas referenciadas por criterios se contrastan con las puntuaciones de las pruebas referenciadas normativamente (es decir, referenciadas por normas), como una puntuación SAT. El comportamiento de un alumno depende de cómo puntúen otros alumnos que tomen la prueba, por lo que no hay puntaje de criterio para cumplir o superar. Para obtener una puntuación alta, todo lo que un estudiante tiene que hacer es hacerlo mejor que la mayoría de los demás. Las puntuaciones referenciadas a las normas suelen asociarse con pruebas diagnósticas, las cuales se describirán con mayor detalle en la sección de este capítulo bajo el epígrafe “Evaluaciones diagnósticas de alfabetización”.

    Evaluaciones informales

    Las evaluaciones informales de alfabetización son más flexibles que las evaluaciones formales porque se pueden ajustar de acuerdo con el estudiante evaluado o un contexto de evaluación particular. Los maestros toman decisiones con respecto a quién se utilizan las evaluaciones informales, cómo se realizan las evaluaciones y cómo interpretar los hallazgos. Las evaluaciones informales de alfabetización pueden incorporar fácilmente todas las áreas de alfabetización, como hablar, escuchar, ver y realizar, en lugar de enfocarse más exclusivamente en la lectura y la escritura. Por ejemplo, un maestro que observa y registra los comportamientos de un grupo de estudiantes que ven y discuten un video probablemente esté participando en una evaluación informal de los comportamientos de lectura, escritura, expresión oral, escucha y/o interpretación del estudiante.

    Los maestros realizan una multitud de evaluaciones informales cada vez que interactúan con sus alumnos. Pedir a los estudiantes que escriban algo que aprendieron durante una clase de artes del lenguaje inglés (ELA) o algo sobre lo que están confundidos es una forma de evaluación informal. Observar a los estudiantes que participan en discusiones grupales de aprendizaje cooperativo, tomar notas mientras planean un proyecto e incluso observar las expresiones en los rostros de los estudiantes durante una actividad grupal son todo tipo de evaluación informal. Asimismo, observar el nivel de compromiso de los estudiantes durante las tareas de alfabetización es una evaluación informal cuando los procedimientos son flexibles e individualizados. Las autoevaluaciones informales basadas en el aula y los inventarios de los estudiantes utilizados para determinar las actitudes de los estudiantes sobre la lectura también pueden ser útiles para planificar y ajustar la instrucción (Afflerbach & Cho, 2011).

    Los métodos para evaluar la alfabetización que se encuentran en algún lugar entre lo informal y lo formal incluyen los inventarios de lectura, como el Qualitative Reading Inventory- 5 (QRI-5; Leslie & Caldwell, 2010). Los inventarios de lectura requieren que los estudiantes lean listas de palabras, pasajes y respondan preguntas, y aunque hay instrucciones específicas sobre cómo administrarlos y puntuarlos, ofrecen flexibilidad para observar cómo los estudiantes participan en las tareas de alfabetización. Los inventarios de lectura se utilizan a menudo para registrar observaciones de comportamientos de lectura en lugar de simplemente medir el logro de lectura.

    Evaluaciones Formativas

    Otra forma útil de categorizar las evaluaciones de alfabetización es si son formativas o sumativas. Las evaluaciones formativas se utilizan para “formar” un plan para mejorar el aprendizaje. Un ejemplo de evaluación formativa de alfabetización podría involucrar a una maestra de aula que verifique cuántas letras y sonidos conocen sus alumnos mientras planea lecciones de decodificación. A los estudiantes que solo conocen unos pocos sonidos de letras se les podría dar textos que no incluyan letras y palabras que no puedan decodificar para evitar que adivinen las palabras. A los estudiantes que conocen la mayor parte de sus sonidos de letras se les podría dar textos que contengan más letras y combinaciones de letras que puedan practicar sondeando (por ejemplo, las palabras en sus textos podrían incluir todas las vocales cortas y algunos dígrafos que hayan aprendido, como sh, th, ck). En este ejemplo, el uso de una evaluación formativa de tipografía y sonido ayudó al maestro a seleccionar qué enseñar en lugar de simplemente evaluar lo que sabe el alumno. La evaluación formativa tiene como objetivo proporcionar a los docentes información para mejorar el aprendizaje de los estudiantes, con base en lo que los estudiantes necesitan.

    Evaluaciones sumativas

    Las evaluaciones sumativas se utilizan para “resumir” si los estudiantes han alcanzado un nivel específico de competencia u objetivo de aprendizaje. Las pruebas estatales caen dentro de la categoría de evaluaciones sumativas porque generalmente se dan para ver qué estudiantes han alcanzado un nivel crítico de competencia, según lo definido por los estándares adoptados por un estado en particular. Las pruebas unitarias también son sumativas cuando resumen cómo lo hicieron los estudiantes al alcanzar objetivos particulares de alfabetización mediante el uso de sus conocimientos relacionados con la lectura, escritura, escucha, expresión oral, visualización y interpretación. Una prueba de ortografía puede ser tanto formativa como sumativa. Es formativo cuando el profesor está usando la información para planificar lecciones como qué volver a enseñar, y es sumativo si se usa para determinar si los estudiantes mostraron dominio de una regla de ortografía como “dejar caer la 'e' y agregar '-ing'”. Entonces, el objetivo de la evaluación formativa es principalmente enseñar en forma, mientras que el objetivo de la evaluación sumativa es sumar el grado en que los estudiantes superan cierto nivel de competencia en un punto final de instrucción, como al final de una unidad instruccional o al final de una ciclo escolar.

    Proyecciones de alfabetización

    Otra forma de categorizar las evaluaciones es si se utilizan con fines de tamizaje o diagnóstico. Los exámenes de alfabetización comparten características con los exámenes médicos, como los controles de audición y visión en el consultorio de la enfermera o cuando se revisa la presión arterial de un paciente al comienzo de una visita al consultorio del médico. Los exámenes suelen ser rápidos y se dan a todos los miembros de una población (por ejemplo, todos los estudiantes, todos los pacientes) para identificar problemas potenciales que pueden no ser reconocidos durante las interacciones diarias. Consulte el Cuadro 1 para ver ejemplos de cribadores universales de alfabetización de uso común, junto con enlaces a información sobre su uso.

    Cuadro 1. Ejemplos de cribadores universales de alfabetización de uso común
    Cribadores universales de alfabetización Enlaces a información adicional
    AIMSWeb www.aimsweb.com/
    Indicadores dinámicos de habilidades básicas de alfabetización temprana: Siguiente https://dibels.uoregon.edu/
    Lectura STAR http://www.renaissance.com/assess
    Cribado de Alfabetización Fonológica (PALS) https://pals.virginia.edu/

    Entre los cribadores de alfabetización más populares utilizados en las escuelas se encuentran los indicadores dinámicos de B asic Early Literacy Skills—Next Edition (DIBELS Next; Good & Kaminski, 2011) y AIMSWeb (Pearson, 2012). Estos evaluadores incluyen conjuntos de ítems administrados a todos los niños en ciertos niveles de grado (razón por la cual a menudo se les llama cribadores de alfabetización “universales”) para hacer verificaciones rápidas de su desarrollo de alfabetización e identificar problemas potenciales que pueden no ser visibles utilizando medios menos formales. Las proyecciones de alfabetización requieren que los niños pequeños completen tareas de un minuto como nombrar los sonidos que escuchan en palabras habladas (por ejemplo, “gato” tiene los sonidos /c/ /a/ /t/), nombrar los sonidos de las letras que ven (por ejemplo, la letra “p” dice /p/), y comenzando en primer grado, leer palabras en breves pasajes. Los exámenes universales de alfabetización como DIBELS Next y AIMSweb a menudo se caracterizan como evaluaciones de “fluidez” porque miden tanto la precisión como la eficiencia en la realización de tareas. Para estas evaluaciones, se registra el número correcto de sonidos, letras o palabras y se compara con un punto de corte establecido por la investigación (es decir, un punto de referencia) para decidir qué estudiantes no tienen probabilidades de tener éxito en el desarrollo de habilidades de alfabetización sin ayuda adicional. Si un estudiante puntúa por debajo del punto de referencia, indica que la tarea fue demasiado difícil, y la detección de esta dificultad puede indicar una necesidad de intervención para prevenir futuros problemas académicos. La intervención generalmente implica formas más intensivas de enseñanza, como instrucción adicional impartida a pequeños grupos de estudiantes.

    Para obtener más información sobre proyecciones disponibles comercialmente como DIBELS Next y AIMSWeb, o para aprender cómo crear sus propias proyecciones personalizadas, visite http://interventioncentral.org. Este sitio permite a los maestros crear sus propias sondas de detección individualizadas para evaluar una variedad de habilidades básicas de alfabetización, como identificar letras y sonidos, segmentar sonidos en palabras habladas, hacer sonar palabras sin sentido, leer palabras reales en texto conectado y rellenar espacios en blanco en pasajes de lectura ( llamados procedimientos de “laberinto”). Los maestros pueden seleccionar las letras, palabras y pasajes que se incluirán en estas evaluaciones individualizadas. También se pueden crear sondas para evaluar las habilidades de matemáticas y escritura de los estudiantes; sin embargo, cualquier sonda de detección personalizada debe usarse con precaución, ya que no comparten las mismas propiedades de medición que los exámenes bien investigados como DIBELS Next y AIMSWeb.

    Evaluaciones de alfabetización diagnóstica

    Los propósitos de los exámenes universales de alfabetización pueden contrastarse con los de las evaluaciones diagnósticas de alfabetización. A diferencia de los alfabetizadores, las pruebas diagnósticas generalmente no se administran a todos los estudiantes sino que están reservadas para estudiantes cuyas necesidades de aprendizaje siguen siendo insatisfechas, a pesar de que reciben una intervención intensiva. Las evaluaciones diagnósticas de alfabetización suelen implicar el uso de pruebas estandarizadas administradas individualmente a los estudiantes por especialistas educativos altamente capacitados, como profesores de lectura, educadores especiales, patólogos del habla y del lenguaje y psicólogos escolares. Las evaluaciones diagnósticas de alfabetización incluyen subpruebas que se centran en componentes específicos de la alfabetización, como el reconocimiento de palabras, la decodificación, la comprensión lectora y el lenguaje hablado y escrito. Los resultados de las evaluaciones diagnósticas pueden usarse formativamente para ayudar a planificar intervenciones más específicas para estudiantes que no parecen estar respondiendo adecuadamente, o los resultados se pueden combinar con los de otras evaluaciones para determinar si los estudiantes pueden tener una discapacidad educativa que requiera educación especial servicios.

    Un ejemplo de una prueba de alfabetización diagnóstica ampliamente utilizada es el Wechsler Individual Achievement Test-Tercera Edición (WIAT-III; Wechsler, 2009). El WIAT-III se utiliza típicamente para evaluar el rendimiento de los estudiantes que experimentan dificultades académicas que no han respondido a intervenciones basadas en la investigación. El WIAT-III incluye elementos de lectura, matemáticas y lenguaje administrados de acuerdo con la edad del estudiante y su nivel de habilidad actual. El número de ítems que el alumno obtiene correcto (la puntuación en bruto) se convierte a una puntuación estándar, que luego se interpreta de acuerdo a donde la puntuación del estudiante cae en una curva de campana (ver Figura 1) entre otros estudiantes de la misma edad y nivel de grado que tomaron la misma prueba (por ejemplo, la muestra normativa o “norma”).

    http://upload.wikimedia.org/Wikipedia/commons/thumb/3/39/IQ_distribution.svg/1280px-IQ_distribution.svg.png
    Figura 1. Curva de campana que muestra el porcentaje de estudiantes que caen por encima y por debajo del puntaje promedio de 100 en una prueba de logro diagnóstico.

    La mayoría de los estudiantes obtendrán puntajes en la mitad de la distribución, pero algunos estudiantes lograrán puntuaciones extremas, ya sea más altas o menores que la mayoría de los demás estudiantes. Es por eso que las “colas” a ambos lados de la curva de campana se inclinan hacia abajo desde la joroba grande en el medio, esto ilustra la frecuencia decreciente de puntuaciones que son especialmente bajas o altas. En otras palabras, cuanto más extrema sea la puntuación, menos probabilidades hay de que logren los alumnos. Cuando los estudiantes logran en cualquiera de los extremos, puede indicar la necesidad de una instrucción más especializada relacionada con las necesidades individuales del estudiante (por ejemplo, intervención o servicios superdotados).

    Las pruebas de logro diagnóstico son frecuentemente referidas como “norm-referenciadas” (edglossary.org, 2013) porque sus puntuaciones se comparan con las puntuaciones de los estudiantes de una muestra de norma. Una muestra normal es un grupo de individuos a los que se les administraron los mismos ítems de prueba de la misma manera (es decir, usando procedimientos estandarizados) mientras se desarrollaba la prueba. Los alumnos que toman la prueba tienen su desempeño comparado con el de los alumnos de la muestra de norma para hacer sentido de la puntuación. Por ejemplo, si a un estudiante se le daba una evaluación diagnóstica y la puntuación se encontraba dentro del mismo rango que la mayoría de los estudiantes en la muestra de norma, entonces su puntaje se consideraría “promedio”. Si la puntuación del alumno cayera mucho más alta o menor que la de otros estudiantes en la muestra de norma, entonces la puntuación no se consideraría promedio o típica porque la mayoría de los demás estudiantes no obtuvieron calificaciones en ninguno de estos extremos.

    Comparar los puntajes de los estudiantes con una muestra de norma ayuda a identificar fortalezas y necesidades. Por otra parte, solo saber dónde caen los puntajes de los estudiantes en una curva de campana no hace nada para explicar por qué anotaron de esa manera. Una puntuación extremadamente baja puede indicar un problema de aprendizaje, o bien, puede indicar una falta de motivación por parte del estudiante mientras realiza la prueba. Quizás una puntuación baja podría incluso deberse a un error de puntuación cometido por el probador. Aunque una puntuación de una evaluación diagnóstica puede ser bastante precisa, entender por qué un estudiante obtuvo una puntuación en un nivel determinado requiere información adicional. ¿Las observaciones durante las pruebas mostraron que el estudiante estaba distraído, poco cooperativo o estaba entrecerrando los ojos en los artículos? A menudo es una combinación de información de evaluación que ayuda a identificar por qué un estudiante puede haber puntuado de cierta manera y es por eso que los evaluadores a menudo usan sus observaciones durante las pruebas para interpretar el significado de las puntuaciones.

    Las pruebas de logro grupal como The Iowa Test of Basic Skills (ITBS; Hoover Dunbar, & Frisbie, 2003) que incluyen subpruebas de alfabetización tienen propiedades que las hacen funcionar un poco como un tamizaje y algo como una prueba diagnóstica. Al igual que los evaluadores, se administran a todos los estudiantes en un nivel de grado particular, pero a diferencia de la mayoría de los evaluadores, tardan más en completarse y se administran a aulas enteras en lugar de tener al menos algunas secciones administradas individualmente. Al igual que las pruebas diagnósticas, tienden a producir puntajes que están referenciados por normas. El desempeño de los estudiantes se compara con un grupo normal para ver cómo se comparan entre sus compañeros, pero a diferencia de las pruebas de diagnóstico, el probador no es capaz de discernir qué tan bien las puntuaciones representan las habilidades de los estudiantes porque los evaluadores no pueden observar todos los comportamientos de prueba de los estudiantes que pueden afectar la interpretación de puntuaciones (p. ej., niveles de compromiso, motivación).

    Para muchas pruebas de alfabetización diagnóstica, las revisiones están disponibles a través de fuentes como el Anuario de Medidas Mentales (MMY). Las versiones del MMY están disponibles en copia impresa en muchas bibliotecas, así como en línea de forma gratuita para los estudiantes de colegios y universidades cuyas bibliotecas pagan una tarifa por el acceso. Las revisiones suelen ser completadas por expertos en diversos campos, incluidos expertos en alfabetización y medición. Las revisiones también incluyen descripciones completas de la prueba o procedimiento de evaluación, quién lo publica, cuánto tiempo lleva administrar y puntuar, una revisión de las propiedades psicométricas y una crítica de la prueba en referencia a las decisiones que la gente planea tomar con base en hallazgos. Es importante que los maestros y otros educadores que utilizan las pruebas comprendan los beneficios y problemas asociados con la selección de una prueba sobre otra, y recursos como el MMY ofrecen revisiones que son rápidas de localizar, relativamente fáciles de comprender (cuando uno tiene algún conocimiento previo en la evaluación), y son escritos por personas que no se benefician de la publicación y venta de la evaluación.

    Estimaciones de punto único

    Las evaluaciones de alfabetización que se completan una sola vez proporcionan una estimación puntual de las habilidades de un estudiante. Un ejemplo de una estimación de un solo punto es la puntuación de identificación de palabras de un estudiante a partir de una prueba de logro diagnóstico. Si el puntaje del estudiante está muy por debajo de lo que se espera para su edad o nivel de grado, entonces el puntaje señala la necesidad de determinar qué es lo que está en la raíz del bajo rendimiento. Alternativamente, un solo puntaje bajo no necesariamente indica una falta de capacidad para aprender, ya que con un cambio en la instrucción, el estudiante podría comenzar a progresar mucho más rápido y eventualmente ponerse al día con sus compañeros típicos basados en la edad. Para evaluar la tasa de aprendizaje de un estudiante, se necesitan evaluaciones de monitoreo de progreso.

    Evaluaciones de alfabetización de monitoreo de progreso

    Para monitorear el progreso de un estudiante en alfabetización, se necesitan evaluaciones que realmente midan el crecimiento. En lugar de simplemente tomar una instantánea de los logros del estudiante en un solo punto en el tiempo, las evaluaciones de monitoreo del progreso proporcionan una línea de base (es decir, el punto de partida) del logro de un estudiante, junto con una reevaluación periódica a medida que avanza hacia los resultados de aprendizaje. Dichos resultados podrían incluir lograr una puntuación de referencia de lectura correcta de 52 palabras por minuto en pasajes de fluidez de lectura oral o un objetivo de aprender a “preguntar y responder detalles clave en un texto” (ccss.ela-literacy.rl.1.2) cuando se le solicite, con 85% de precisión. El primer resultado de leer correctamente 52 palabras por minuto probablemente se mediría usando evaluaciones de monitoreo de progreso, como DIBELS Next y AIMSWeb. Estos cribadores no solo están diseñados para medir hasta qué punto los estudiantes están en riesgo de futuros problemas relacionados con la alfabetización al inicio del ciclo escolar sino también para monitorear los cambios en el progreso a lo largo del tiempo, a veces tan frecuentemente como cada una o dos semanas, dependiendo de los factores individuales del estudiante. El segundo resultado de poder “preguntar y responder detalles clave en un texto” podría ser monitoreado a lo largo del tiempo utilizando evaluaciones como pruebas estatales o respuestas en un inventario de lectura cualitativa. El poder trabajar con detalles clave en un texto también podría evaluarse de manera informal observando a los estudiantes que participan en actividades en el aula donde se practica esta tarea.

    A diferencia de las evaluaciones que se completan solo una vez, las evaluaciones de monitoreo de progreso como DIBELS Next y AIMSweb presentan múltiples versiones equivalentes de las mismas tareas, como tener 20 pasajes de fluidez de lectura oral que se pueden usar para reevaluaciones. El uso de pasajes diferentes pero equivalentes evita aumentos artificiales en las puntuaciones que resultarían de que los estudiantes relean el mismo pasaje. Las evaluaciones de seguimiento del progreso se pueden contrastar con las evaluaciones diagnósticas, que no están diseñadas para ser administradas con frecuencia. Administrar las mismas subpruebas repetidamente no sería una forma efectiva de monitorear el progreso. Algunas pruebas diagnósticas tienen dos versiones equivalentes de subpruebas para monitorear el progreso con poca frecuencia, tal vez anualmente, pero simplemente no están diseñadas para reevaluaciones frecuentes. Esta limitación de las evaluaciones diagnósticas es una de las razones por las que los cribadores como DIBELS Next y AIMSWeb son tan útiles para determinar cómo responden los estudiantes a la intervención y por qué las pruebas diagnósticas a menudo se reservan para tomar otras decisiones educativas, como si un estudiante puede tener una discapacidad educativa.

    Las evaluaciones de monitoreo del progreso han transformado la forma en que las escuelas determinan cómo un estudiante está respondiendo a la intervención. Por ejemplo, consideremos el ejemplo hipotético de los resultados de la evaluación de seguimiento del progreso de Jaime en segundo grado, que se muestran en la Figura 2. Jaime recibió pasajes de fluidez de lectura oral de un evaluador universal de alfabetización, y luego se monitoreó su progreso para determinar su respuesta a una intervención de alfabetización en grupos pequeños iniciada a mediados de octubre. Los puntos de datos muestran el número de palabras que Jaime leyó correctamente en cada uno de los pasajes de lectura de un minuto. Observe como al inicio del ciclo escolar, sus puntajes basales fueron extremadamente bajos, y al compararlos con el punto de referencia de inicio de año de segundo grado (Dynamic Measurement Group, 2010) de 52 1 palabras por minuto (Good & Kaminski, 2011), señalaron que estaba “en riesgo” de no llegar a puntos de referencia posteriores sin recibir una intervención intensiva. Con base en los puntajes iniciales de Jaime, los miembros del equipo de intervención decidieron que debía recibir una intervención de alfabetización basada en la investigación para ayudarlo a leer palabras más fácilmente para que su fluidez en la lectura oral aumentara al menos una palabra por semana. Este objetivo de aprendizaje está representado por la “pendiente objetivo” que se ve en la Figura 2. Durante la fase de intervención, los puntos de datos de monitoreo de progreso muestran que Jaime comenzó a realizar mejoras hacia esta meta, y la línea etiquetada como “pendiente durante la intervención” muestra que estaba ganando a un ritmo ligeramente más rápido que su meta de una palabra por semana.

    Ch 5 figura 2
    Figura 2. Gráfica de seguimiento de progreso de respuesta a una intervención de lectura.

    Al observar los datos basales de Jaime, observe cómo los puntos de datos forman una meseta. Si su progreso continuara a este mismo ritmo, al final del ciclo escolar, estaría aún más atrás de sus compañeros y estaría en mayor riesgo de futuros problemas de lectura. Al interpretar la gráfica de la Figura 2, queda claro que se necesitaba una intervención intensiva de lectura. Observe después de que comenzó la intervención cómo el crecimiento de Jaime comenzó a subir abruptamente. Si bien parecía estar respondiendo positivamente a la intervención, en realidad, al final del segundo grado, los estudiantes cuya capacidad lectora progresa adecuadamente deberían estar leyendo aproximadamente 90 palabras correctamente por minuto (Good & Kaminski, 2011). Con base en esta información, no es probable que Jaime alcance el nivel de lectura correcta de 90 palabras al final del segundo grado y probablemente solo alcanzará el punto de referencia esperado para un estudiante al inicio de segundo grado. Estos datos de evaluación sugieren que la intervención de Jaime debe intensificarse para lo que resta de segundo grado para acelerar aún más su avance. También es probable que Jaime necesite continuar recibiendo intervención en tercer grado, y el monitoreo del progreso puede determinar, junto con otra información de evaluación, cuándo mejora su fluidez en la lectura oral hasta el punto en que la intervención puede cambiarse, reducirse o incluso interrumpirse. Quizás te preguntes cómo determinaría el equipo de intervención si Jaime está progresando a un ritmo adecuado cuando está en tercer grado. Los miembros del equipo continuarían monitoreando el progreso de Jaime y verificando para asegurarse de que su línea de crecimiento muestre que cumplirá con el punto de referencia al final del tercer grado (es decir, leyendo correctamente aproximadamente 100 palabras por minuto; Good & Kaminski, 2011). Si su pendiente muestra una falta de progreso adecuado, sus maestros pueden reconsiderar la necesidad de intervención para asegurar que Jaime no se quede atrás de nuevo.

    Algunas escuelas monitorean el progreso de sus alumnos mediante evaluaciones adaptadas a la computadora, las cuales involucran a los estudiantes que responden a los elementos de prueba entregados en una computadora. Las evaluaciones adaptadas por computadora están diseñadas para entregar ítems de prueba específicos a los estudiantes, y luego adaptar el número y la dificultad de los ítems administrados de acuerdo a cómo responden los estudiantes (Mitchell, Truckenmiller, & Petscher, 2015). Las evaluaciones adaptadas a computadora están aumentando en popularidad en las escuelas, en parte, porque no requieren mucho tiempo o esfuerzo para administrar y puntuar, pero sí requieren que las escuelas cuenten con una infraestructura tecnológica adecuada. El razonamiento detrás del uso de estas evaluaciones es similar a otros cribadores de alfabetización y evaluaciones de monitoreo de progreso, para proporcionar instrucción e intervención efectivas para satisfacer las necesidades de todos los estudiantes (Mitchell et al., 2014).

    Si bien se ha demostrado que muchos puntajes de evaluación de detección de alfabetización y monitoreo de progreso están bien correlacionados con una variedad de medidas de comprensión lectora (ver, por ejemplo, Goffreda y DiPerna, 2010) y sirven como indicadores razonablemente buenos de los cuales los estudiantes están en riesgo de dificultades de lectura, problema persistente con estas evaluaciones es que brindan poca orientación a los maestros sobre qué tipo de instrucción y/o intervención de alfabetización necesita realmente un estudiante. Un estudiante que puntúa bajo al inicio y hace un progreso inadecuado en las tareas de fluidez de lectura oral puede necesitar una intervención diseñada para aumentar la fluidez lectora, pero también existe la posibilidad de que el estudiante carezca de la capacidad de decodificar palabras y realmente necesite una intervención de decodificación (Murray, Munger, & Clonan, 2012 ). O podría ser que el alumno desconozca el significado de muchas palabras de vocabulario y necesite construir conocimientos de fondo para leer con fluidez (Adams, 2010-2011), lo que requeriría el uso de diferentes procedimientos de evaluación diseñados específicamente para evaluar y monitorear el progreso relacionado con estas habilidades. Aún más fastidioso es cuando los puntajes bajos de fluidez en la lectura oral son causados por múltiples factores entremezclados que deben identificarse antes de que comience la intervención. Cuando el problema es más complejo, se necesitan evaluaciones más especializadas para desenredar los factores que contribuyen a ello.

    Una nota final relacionada con los procedimientos de monitoreo del progreso es la aparición de estudios que sugieren que puede haber mejores formas de medir el progreso de los estudiantes en instrumentos como DIBELS Next en comparación con el uso de pendiente (Good, Powell-Smith, & Dewey, 2015), que se representó en el ejemplo usando Jaime' s datos. En una reciente presentación de conferencia, Good (2015) argumentó que la pendiente del progreso de un estudiante puede ser demasiado inconsistente para monitorear y ajustar la instrucción, y sugirió una alternativa nueva (y algo matemáticamente compleja) usando un índice llamado percentil de crecimiento estudiantil. Un percentil de crecimiento estudiantil compara la tasa a la que el rendimiento de un estudiante está mejorando en referencia a cómo otros estudiantes con la misma puntuación basal están mejorando. Por ejemplo, un estudiante que lee 10 palabras correctas por minuto en una medida de fluidez de lectura oral cuyo crecimiento está en el percentil 5 está mejorando mucho más lentamente en comparación con los otros niños que también comenzaron a leer solo 10 palabras correctamente por minuto. En este caso, un percentil de crecimiento de cinco significa que el alumno está progresando solo así como o mejor que el cinco por ciento de los compañeros que comenzaron con la misma puntuación, y también significa que la instrucción actual no está satisfaciendo las necesidades del estudiante. La investigación preliminar muestra cierta promesa en el uso de percentiles de crecimiento para medir el progreso como alternativa a la pendiente, y los maestros deben estar atentos a más investigaciones relacionadas con la mejora de las formas de monitorear el progreso de los estudiantes.

    Vincular la evaluación con la intervención

    ¿Cómo pueden los profesores averiguar los detalles de lo que un estudiante necesita en términos de intervención? Probablemente usarían una variedad de técnicas de evaluación informales y formales para determinar las fortalezas y necesidades del estudiante. La situación podría requerir el uso de evaluaciones diagnósticas, un inventario de lectura o escritura, el uso de observaciones para determinar si el estudiante está involucrado durante la instrucción, y/o el uso de evaluaciones para comprender mejor la resolución de problemas y otras habilidades de pensamiento del estudiante. Puede ser una combinación de técnicas de evaluación que se necesitan para hacer coincidir las intervenciones basadas en la investigación con las necesidades del estudiante.

    Es posible que esté comenzando a reconocer cierta superposición entre diferentes tipos de evaluaciones en todas las categorías. Por ejemplo, las pruebas estatales suelen ser tanto formales como sumativas. Los cribadores de alfabetización y las evaluaciones de monitoreo del progreso suelen ser formales y formativos. Y algunas evaluaciones, como las evaluaciones de cartera, tienen muchas cualidades superpuestas en las distintas categorías de evaluación (por ejemplo, las carteras pueden usarse formativamente para guiar la enseñanza y usarse sumativamente para determinar si los estudiantes alcanzaron un resultado académico).

    Al traer a colación las evaluaciones de cartera, esto nos lleva de vuelta a los puntos planteados al inicio de este capítulo relacionados con la autenticidad de las evaluaciones de alfabetización. Entonces, ¿por qué existen las pruebas de opción múltiple si opciones como la evaluación de cartera, que son mucho más auténticas, son una opción? Las pruebas de elección múltiple de alta calidad tienden a tener propiedades psicométricas más fuertes (discutidas en la siguiente sección) que las evaluaciones de desempeño como las carteras, lo que hace que las pruebas de elección múltiple sean deseables cuando el tiempo de evaluación es limitado y las puntuaciones deben tener propiedades de medición fuertes Los ítems de prueba de opción múltiple suelen ser fáciles de puntuar y no requieren mucha inferencia para interpretarlos (es decir, son “objetivos”), que son algunas de las razones por las que se usan popularmente. Las evaluaciones de cartera a menudo tardan más en hacerse, pero también reflejan el uso de muchas habilidades importantes de alfabetización que los elementos de opción múltiple simplemente no pueden evaluar. Con base en esta discusión, puede preguntarse si las evaluaciones de cartera son superiores a las pruebas de opción múltiple, o si lo contrario es cierto. Como siempre, una respuesta sobre un formato preferido depende del propósito de la evaluación y de qué tipo de decisiones se tomarán con base en los hallazgos.

    Principios psicométricos de la evaluación de alfabetización

    Un capítulo sobre la evaluación de la alfabetización no estaría completo sin alguna discusión sobre las propiedades psicométricas de las puntuaciones de evaluación, como la confiabilidad y validez (Trochim, 2006). Evaluación confiable significa que la información recopilada es consistente y confiable, que se obtendrían los mismos resultados o similares si el estudiante fuera evaluado en un día diferente, por una persona diferente, o usando una versión similar de la misma evaluación (Trochim, 2006). Para pensar en la confiabilidad en la práctica, imagine que estaba observando los comportamientos de lectura de un estudiante y determinó que el estudiante estaba luchando por prestar atención a los signos de puntuación utilizados en un libro de cuentos. Calificas el dominio del estudiante como uno en una escala de uno a cuatro, lo que significa que lee como si no se notaran signos de puntuación. Su compañero observó al alumno leyendo el mismo libro al mismo tiempo que usted estaba observando, y calificó el dominio del alumno como un “tres”, lo que significa que el estudiante estaba prestando atención a la mayor parte de la puntuación en la historia, pero no a todos. La diferencia entre su calificación y la calificación de su colega indica una falta de confiabilidad entre los evaluadores que usan esa escala. Si estas mismas inconsistencias en las calificaciones surgieran a través de otros ítems de la escala de comportamiento de lectura o con otros alumnos, se concluiría que la escala tiene problemas. Estos problemas podrían incluir que la escala está mal construida, o que simplemente puede haber problemas de confiabilidad entre evaluadores relacionados con la falta de capacitación o experiencia con las personas que hacen las calificaciones.

    La confiabilidad de los instrumentos formales de evaluación, como pruebas, inventarios o encuestas, generalmente se investiga a través de investigaciones que se publican en artículos de revistas académicas o manuales de pruebas. Este tipo de investigación implica administrar el instrumento a una muestra de individuos, y los hallazgos se reportan con base en cómo puntuaron esos individuos. Estos hallazgos proporcionan “estimaciones” de la confiabilidad de la prueba, ya que los índices de confiabilidad variarán en cierto grado, dependiendo de la muestra utilizada en la investigación. Cuanto más estables sean las estimaciones de confiabilidad en múltiples muestras diversas, más maestros podrán contar con que las puntuaciones o calificaciones sean confiables para sus alumnos. Cuando se desconoce la confiabilidad, entonces las decisiones tomadas con base en la información de evaluación pueden no ser confiables. La necesidad de una fuerte confiabilidad versus la necesidad de autenticidad (es decir, qué tan bien la evaluación coincide con las situaciones de alfabetización de la vida real) es una rivalidad que subyace a muchos debates de prueba.

    Además de que las evaluaciones deben ser confiables, la información recopilada de las evaluaciones también debe ser válida para la toma de decisiones. Una prueba tiene evidencia de validez cuando la investigación muestra que mide lo que se supone que debe medir (Trochim, 2006). Por ejemplo, cuando una prueba que se supone identifica a estudiantes en riesgo de problemas de escritura identifica a estudiantes con problemas de escritura reales, entonces esto es evidencia de la validez de la prueba. Un puntaje de prueba de ortografía semanal puede carecer de evidencia de validez para la habilidad ortográfica aplicada porque algunos estudiantes pueden simplemente ser buenos memorizadores y no ser capaces de deletrear las mismas palabras con precisión o usar las palabras en su escritura. Cuando la información de evaluación no es confiable, entonces no puede ser válida, por lo que la confiabilidad es una piedra angular para la evaluación de evaluaciones.

    En ocasiones, una prueba que parece probar lo que se supone que debe probar tendrá problemas de validez que no son aparentes. Por ejemplo, si los estudiantes son evaluados en problemas de aplicaciones matemáticas para ver quién puede necesitar intervención matemática, podría surgir un problema si es posible que los niños no puedan leer las palabras en los problemas. En este caso, los estudiantes pueden obtener muchos elementos incorrectos, haciendo que el examen de matemáticas se parezca más a un examen de lectura para estos estudiantes. Es la investigación sobre validez y observaciones realizadas por educadores astutos las que ayudan a descubrir este tipo de problemas y a prevenir la entrega de una intervención matemática cuando lo que realmente se puede necesitar es una intervención de lectura.

    El problema de validez descrito anteriormente es una de las razones por las que algunos estudiantes pueden recibir adaptaciones (por ejemplo, leer una prueba a los estudiantes) porque las adaptaciones en realidad pueden aumentar la validez de un puntaje de prueba para ciertos estudiantes. Si a los estudiantes con discapacidades de lectura se les leyera la prueba de matemáticas anterior, entonces sus puntajes resultantes probablemente serían un indicador más verdadero de la habilidad matemática porque la acomodación descartó sus dificultades de lectura. Esta misma lógica se aplica a los estudiantes del idioma inglés (ELL) que pueden entender el inglés hablado mucho mejor de lo que pueden leerlo. Si se administra un examen de preparatoria evaluando conocimientos de biología y los alumnos de ELL no pueden aprobarlo, ¿es porque no conocen biología o es porque no saben leer inglés? Si el objetivo es evaluar sus conocimientos de biología, entonces los puntajes de las pruebas pueden no ser válidos.

    Otro ejemplo de un problema de validez ocurre si un estudiante con discapacidad visual fue evaluado mediante una tarea de lectura con impresión en fuente de 12 puntos. Si el alumno puntuaba mal, ¿lo referirías para intervención de lectura? Ojalá, no. El estudiante podría necesitar realmente una intervención de lectura, pero hay un problema de validez con los resultados de la evaluación, por lo que en realidad, necesitarías más información antes de tomar cualquier decisión. Considera que cuando reevalúas la lectura del estudiante usando letra grande, la puntuación del estudiante aumenta dramáticamente. Entonces sabes que fue un problema de tamaño de impresión y no un problema de lectura lo que impactó la puntuación inicial del alumno. Por otro lado, si el alumno aún obtuvo una puntuación baja incluso con la impresión apropiadamente ampliada, se concluiría que el alumno puede tener una discapacidad visual y un problema de lectura, en cuyo caso se necesitaría brindar intervención de lectura, junto con el acomodo de material de letra grande.

    Algunas controversias en la evaluación de la alfabetización

    Si bien hay poca controversia en torno a las evaluaciones de alfabetización que son informales y forman parte de las prácticas normales del aula, las evaluaciones formales activan una gran controversia en las escuelas, en las comunidades de investigación, en los foros de discusión de Internet y en libros de texto como este. Al considerar el alcance de la evaluación educativa, una cosa está clara: muchos distritos escolares dan demasiadas pruebas a demasiados estudiantes y desperdician demasiadas horas de instrucción recopilando datos que pueden o no demostrar tener algún valor (Nelson, 2013). El problema de las pruebas excesivas es especialmente problemático cuando se dedica tanto tiempo y esfuerzo a recopilar datos que ni siquiera terminan siendo utilizados. Que una escuela esté abrumada con las pruebas no es universal. Los distritos escolares tienen mucha influencia sobre el uso de las evaluaciones, pero con demasiada frecuencia cuando se adoptan nuevas evaluaciones, se agregan a una colección de evaluaciones previamente adoptadas, y el distrito se vuelve inseguro sobre qué evaluaciones aún se necesitan y cuáles deben eliminarse. También se agregan evaluaciones con base en cambios de políticas a nivel federal y estatal. Por ejemplo, la aprobación de la Ley No Child Left Behind de 2001 (NCLB, 2002) amplió las pruebas estatales para que ocurrieran en todos los grados tres a ocho, en comparación con mandatos anteriores que eran mucho menos estrictos.

    Algunas pruebas son obligatorias para que las escuelas reciban financiamiento, como las pruebas estatales; sin embargo, el uso de otras evaluaciones depende en gran medida de los distritos escolares. Es importante que los educadores y líderes escolares inventarien periódicamente los procedimientos que se utilizan, discutan en qué medida se necesitan y tomen decisiones que brinden respuestas sin sobrepasar las pruebas a los estudiantes. Es decir, la validez de las evaluaciones no sólo se limita a cómo se utilizan con los estudiantes individuales sino que deben ser evaluadas a un nivel de sistema mayor en el que también se consideran beneficios para todo el alumnado. Cuando las evaluaciones proporcionan datos que son útiles para tomar decisiones de instrucción pero que también quitan semanas de tiempo de instrucción, los educadores y los líderes escolares deben trabajar hacia soluciones que maximicen el valor de las evaluaciones mientras minimizan los posibles efectos negativos. No gustarle los hallazgos de las pruebas es un problema diferente al de que los hallazgos de las pruebas no son Por ejemplo, si una prueba diseñada para identificar a los estudiantes detrás en la lectura se usa para cambiar la instrucción, entonces puede ser bastante valiosa, aunque sea desagradable descubrir que muchos estudiantes están teniendo dificultades.

    Como sociedad, tendemos a querer indicadores de rendición de cuentas de los estudiantes, como que se ha cumplido un estándar mínimo para que los estudiantes obtengan un diploma de secundaria. A menudo, obtener un diploma requiere que los estudiantes aprueben exámenes de salida de alto riesgo; sin embargo, este uso aparentemente sencillo de los puntajes de los exámenes puede conducir fácilmente a la injusticia social, particularmente para estudiantes de orígenes culturales y lingüísticos diversos. Debido a que las pruebas de alto riesgo pueden ser inadecuadas para proporcionar información completa sobre lo que muchos estudiantes saben y pueden hacer, la Asociación Internacional de Lectura (IRA, 2014) publicó una declaración de posición que incluía la siguiente recomendación:

    Las decisiones de graduación de la escuela secundaria deben basarse en una imagen más completa del desempeño de alfabetización de un estudiante, obtenida de una variedad de evaluaciones sistemáticas, incluyendo observaciones informales, evaluaciones formativas del trabajo escolar y consideración de alfabetizaciones extraescolares, así como resultados sobre medidas formales estandarizadas. (pág. 2)

    El IRA recomienda que “el juicio profesional docente, los resultados de las evaluaciones formativas y los aportes de estudiantes y familias, así como los resultados de las evaluaciones estandarizadas de alfabetización” (p. 5) sirvan como adiciones adecuadas en la toma de decisiones de graduación. No hay una respuesta fácil sobre cómo usar las evaluaciones para comunicar con precisión qué tan bien están preparados los estudiantes para la universidad, las carreras y la vida, y probablemente estemos a muchos movimientos de reforma lejos de diseñar un plan adecuado. Sin embargo, mientras más educadores, familias y formuladores de políticas conozcan sobre las evaluaciones, incluidos los beneficios inherentes y los problemas que acompañan a su uso, más avances se pueden lograr en las técnicas de refinación para tomar decisiones informadas diseñadas para mejorar el futuro de los estudiantes. Las evaluaciones de alfabetización solo pueden usarse para mejorar los resultados de los estudiantes si los educadores tienen un conocimiento profundo de la instrucción, evaluación e intervención basadas en la investigación y pueden usar ese conocimiento en sus aulas. Por esta razón, la información de este capítulo debe combinarse con otros capítulos de este libro y otros textos que describan el uso de estrategias efectivas de alfabetización, incluyendo estudiantes que están en riesgo de desarrollar problemas de lectura o que son estudiantes del idioma inglés.

    Resumen

    Aunque la evaluación de la alfabetización a menudo se asocia con pruebas estandarizadas de alto riesgo, en realidad, las evaluaciones de alfabetización abarcan una variedad de procedimientos para ayudar a los maestros a tomar decisiones de instrucción. Este capítulo destacó cómo los maestros pueden usar las evaluaciones de alfabetización para mejorar la instrucción, pero en realidad, los resultados de las evaluaciones se utilizan con frecuencia para comunicarse sobre la alfabetización con una variedad de individuos, incluidos equipos de educadores, especialistas y familiares y/o miembros de la comunidad. Conocer los diferentes tipos de evaluaciones y sus propósitos te permitirá ser una valiosa adición a estas importantes conversaciones.

    Las evaluaciones de alfabetización pueden ser informales o formales, formativas o sumativas, tamizajes o pruebas diagnósticas. Pueden proporcionar datos en puntos únicos en el tiempo o para monitorear el progreso a lo largo del tiempo. Independientemente de su propósito previsto, es importante que la información de evaluación sea confiable. También es importante que los maestros que utilizan evaluaciones comprendan los beneficios asociados y las dificultades de los diferentes procedimientos. Una valoración que sea ideal para su uso en una circunstancia puede ser inapropiada en otra. Por esta razón, los maestros que tengan antecedentes en evaluación estarán mejor equipados para seleccionar evaluaciones adecuadas que tengan el potencial de beneficiar a sus alumnos, y también podrán criticar el uso de evaluaciones de manera que puedan mejorar las prácticas de evaluación que sean más amplias en todo el sistema. Las evaluaciones de alfabetización son una parte importante de la toma de decisiones educativas y, por lo tanto, es esencial que los maestros adquieran una comprensión profunda de sus usos y usos indebidos, adquieran experiencia interpretando la información obtenida a través de la evaluación y participen activamente en movimientos de reforma diseñados no solo para eliminar las pruebas pero utilizar las evaluaciones de manera reflexiva y significativa.

    Preguntas y Actividades

    1. Usando algunos de los términos aprendidos de este capítulo, discuta algunas evaluaciones de alfabetización de alto riesgo de uso común, como las pruebas obligatorias del estado u otras pruebas utilizadas en las escuelas.
    2. Explicar formas en que algunas formas de evaluación de la alfabetización son más polémicas que otras y cómo las evaluaciones más polémicas están impactando a maestros, estudiantes y al sistema educativo.
    3. ¿Cuáles son las diferencias entre las evaluaciones formativas y sumativas? Enumere algunos ejemplos de cada uno y cómo usa actualmente, o planea usar estas evaluaciones en su enseñanza.
    4. Una colega suya decide que le gustaría usar una prueba diagnóstica de alfabetización para evaluar a todos los estudiantes de su secundaria para ver quién tiene problemas de lectura, ortografía y/o escritura. El examen deberá ser administrado de forma individual y tomará aproximadamente 45 minutos por alumno. A pesar de que sólo hay una forma de evaluación, a su compañero le gustaría administrar la prueba tres veces al año. Después de escuchar atentamente las ideas de tu colega, ¿qué otras ideas tienes que podrían ayudar a alcanzar el objetivo de tu colega además del uso de una prueba diagnóstica de alfabetización?

    Referencias

    Adams, M. J. (2010-2011, Invierno). Avanzar en el lenguaje y la alfabetización de nuestros alumnos: El reto de los textos complejos. Educador Americano, 34, 3-11, 53. Recuperado a partir de http://www.aft.org/sites/default/files/periodicals/Adams.pdf

    Afflerbach, P., & Cho, B. Y. (2011). La evaluación de la lectura en el aula. En M. J. Kamil, P. D. Pearson, E. B. Moje, & P. P. Afflerbach (Eds.), Manual de investigación en lectura (Vol. 4, pp. 487-514). Nueva York, NY: Routledge.

    Grupo de Medición Dinámica (2010, 1 de diciembre). DIBELS Siguiente metas de referencia y puntajes compuestos. Recuperado a partir de https://dibels.uoregon.edu/docs/DIBELSNextFormerBenchmarkGoals.pdf

    Edglossary (2013, 29 de agosto). Prueba referenciada a la norma [en línea]. Recuperado a partir de http://edglossary.org/norm-referenced-test/

    Edglossary (2014, 30 de abril). Prueba referenciada a criterios [en línea]. Recuperado a partir de http://edglossary.org/criterion-referenced-test/

    Goffreda, C. T., & DiPerna, J. C. (2010). Revisión empírica de la evidencia psicométrica para los Indicadores Dinámicos de Habilidades Básicas de Alfabetización Temprana. Revisión de Psicología Escolar, 39, 463-483. Disponible en www.nasponline.org/publications/periodicals/spr/volume-39/volume-39-issue-3/an-empirical-review-of-psychometric-evidence-for-the-dynamic-indicators-of-basic-early-literacy skills

    Bueno, R. H. (2015, 19 de mayo). Mejorar la eficiencia y efectividad de la instrucción con monitoreo de progreso y evaluación formativa en el modelo impulsado por resultados. Presentación invitada en la Conferencia Internacional sobre Aspectos Cognitivos y Neurocognitivos del Aprendizaje: Habilidades y Discapacidades, Haifa, Israel. Recuperado a partir de https://dibels.org/papers/Roland_Good_Haifa_Israel_2015_Handout.pdf

    Bueno, R. H., & Kaminski, R. A. (Eds.). (2011). DIBELS Siguiente manual de evaluación. Eugene, OG: Dynamic Measurement Group, Inc. recuperado de www.d11.org/edss/assessment/dibels%20nextamplify%20resources/dibelsnext_assessmentmanual.pdf

    Bueno, R. H., Powell-Smith, K. A., & Dewey, E. (2015, febrero). Haciendo r eliable y s tabla p rogress decisiones: Pendiente o caminos de p rogress? Cartel presentado en la Conferencia Anual de Investigación de la Costa del Pacífico, Coronado, CA.

    Hoover, H. D., Dunbar, S. B., & Frisbie, D. A. (2003). Las pruebas de Iowa: Guía de investigación y desarrollo. Chicago, IL: Riverside Publishing.

    Asociación Internacional de Lectura. (2014). Uso de evaluaciones de alto riesgo para la retención de calificaciones y las decisiones de graduación: Una declaración de posición de la Asociación Internacional de Lectura. Recuperado a partir de http://www.literacyworldwide.org/docs/default-source/where-we-stand/high-stakes-assessments-position-statement.pdf

    Leslie, L., & Caldwell, J. S. (2010). Inventario de lectura cualitativa-5. Boston, MA: Pearson.

    Mitchell, A. M., Truckenmiller, A., & Petscher, Y. (2015, junio). Evaluaciones adaptadas a computadora: Fundamentos y consideraciones. Comunicado, 43 (8), 1, 22-24.

    Murray, M. S., Munger, K. A., & Clonan, S. M. (2012). La evaluación como estrategia para aumentar la fluidez en la lectura oral. Intervención en Escuelas y Clínica, 4 7, 144-151. doi:10.1177/1053451211423812

    Asociación Nacional de Gobernadores Centro de Mejores Prácticas y Consejo de Directores Escolares del Estado. (2010). Estándares Estatales Básicos Comunes para Artes del Lenguaje Inglés y Alfabetización en Historia/Estudios Sociales, Ciencias y Materias Técnicas. Washington, DC: Autor. Recuperado a partir de http://www.corestandards.org/assets/CCSSI_ELA%20Standards.pdf

    Nelson, H. (2013). Probar más, enseñar menos: Lo que la obsesión de los estadounidenses con las pruebas de los estudiantes cuesta en dinero y pierde tiempo de instrucción. Recuperado a partir de http://www.aft.org/sites/default/files/news/testingmore2013.pdf

    Ley No Child Left Atrás de 2001, Pub. L. No. 107-110, 115 Stat. 1425 (2002).

    Pearson. (2012). Manual técnico web AIMS (R-CBM y TEL). NCS Pearson, Inc. recuperado de www.aimsweb.com/wp-content/uploads/AIMSWEB-Technical-Manual.pdf

    Snow, C. (Presidente). (2002). Grupo de estudio de lectura RAND: Lectura para entender, hacia un programa de I+D en comprensión lectora. Santa Mónica, CA: RAND. Recuperado a partir de http://www.rand.org/content/dam/rand...005/MR1465.pdf

    Trochim, W. K. (2006). Base de conocimiento de métodos de investigación: Validez de constructo Recuperado a partir de http://www.socialresearchmethods.net/kb/relandval.php

    Wechsler, D. (2009). Prueba de Logro Individual de Wechsler (3ª ed.). San Antonio, TX: Pearson.

    Crédito de la foto

    Notas al final

    1: El punto de referencia de 52 palabras por minuto se considera una puntuación de “criterio referenciado” porque el desempeño de un estudiante se juzga en función de un criterio, en este caso, el referente. Recordemos que los puntajes obtenidos en las evaluaciones de alfabetización diagnóstica son referenciados por normas porque se juzgan en función de cómo puntuaron otros en un grupo Algunas evaluaciones de monitoreo de progreso proporcionan puntajes referenciados a criterios y referenciados por normas para ayudar en la toma de decisiones cuando se necesita más de un tipo de puntaje. Regreso


    This page titled 1.5: Tipos de Evaluación de Alfabetización- Principios, Procedimientos y Aplicaciones is shared under a CC BY-NC-SA license and was authored, remixed, and/or curated by Kristen A. Munger (OpenSUNY) .