6.6: Las máquinas pueden evaluar bien la escritura

Última actualización
Guardar como PDF

Page ID: 97423

Cheryl E. Ball & Drew M. Loewe ed.
West Virginia University via Digital Publishing Institute and West Virginia University Libraries

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Autor: Les Perelman, Estudios de medios comparados/ Redacción, Instituto Tecnológico de Massachusetts

En todo Estados Unidos, la escritura está siendo evaluada por máquinas. Considera la situación de María, una típica estudiante de secundaria. En una situación de prueba de alto riesgo que podría decidir si es admitida en la universidad de su elección, se le ha dado un aviso para escribir sobre un tema como si la originalidad está sobrevalorada, o si nuestra sociedad valora la certeza sobre el escepticismo. Durante los siguientes 25 minutos, trata de crear una obra de escritura decidida, desarrollando sus ideas, dando forma a su estructura, considerando su estilo y voz, eligiendo ejemplos apropiados y perfeccionándola para sugerir a sus lectores —sus evaluadores— que puede pensar y escribir con la suficiente eficacia como para ser admitida en un buen universidad. Incluso cae un poco de humor para aligerar el ensayo.

Ella escribe su ensayo para personas que imagina que son como sus maestros, personas que pueden leer y formar conclusiones sobre su ensayo desde múltiples ángulos, conocer la ironía o el humor cuando lo ven, pueden detectar una generalización sin apoyo, o pueden perdonar un error gramatical menor mientras toma nota de uno más grave. Pero en lugar de llegar a esos lectores humanos, su ensayo se alimenta a un sistema informático para su evaluación. La máquina escanea el papel en busca de un puñado de características simples, como la longitud y el porcentaje de palabras que se usan con poca frecuencia. En unos milisegundos, escupe una partitura que sella el destino de María.

Para las agencias de pruebas, la puntuación de la máquina es irresistiblemente atractiva. En lugar de contratar, capacitar y pagar a seres humanos de sangre caliente para que lean y juzguen decenas de miles de ensayos, piensan que invertir en un sistema de puntuación por computadora les ahorrará grandes cantidades de dinero y tiempo y generará grandes ganancias. Tienen fe en que los padres de familia, los estudiantes, los funcionarios escolares y el público en general pensarán que las máquinas son mejores que los lectores humanos. Después de todo, las computadoras son tan precisas, consistentes y confiables, ¿verdad? ¿Por qué correr el riesgo de que el evaluador que lee el ensayo de María esté de mal humor o cansado el día de la evaluación, o esté bajando con un resfriado? Las máquinas ofrecen precisión afilada y solidez metálica, nunca cediendo a la frustración o al agotamiento.

Pero como demostraremos, aunque las computadoras son brillantes en muchas cosas, son realmente malas para entender e interpretar la escritura —incluso la escritura producida por alumnos de quinto grado— y ese hecho no cambiará en un futuro previsible. Entender por qué esto es cierto puede preparar a maestros, padres de familia, estudiantes y contribuyentes para hacer retroceder contra las agencias de pruebas y los políticos que piensan que las personas serán aplacadas por la complejidad de la tecnología y seducidas por la promesa de que la escritura puede ser evaluada de manera económica y eficiente, justificando aún más recortes en el financiamiento educativo.

Por qué las máquinas hacen humanos pésimos

Primero, es importante entender que las computadoras no son el enemigo. De hecho, las computadoras juegan un papel importante en la investigación sobre el lenguaje y la escritura que producen los humanos. Hay algunas cosas que una computadora puede hacer en un par de segundos que le tomarían toda la vida a un investigador humano (o dos). Los estudiosos de la escritura son las últimas personas en resistirse al desarrollo posterior de las computadoras para trabajar con el lenguaje natural, un término que se refiere al lenguaje hablado o escrito producido por los humanos como parte de su vida diaria.

Pero a la hora de evaluar la escritura, las computadoras funcionan mal. Eso se debe a que el lenguaje natural es extraordinariamente complejo, mucho más complejo de lo que incluso las computadoras más sofisticadas pueden entender.

Consideremos algunas razones por las que.

Las computadoras no entienden el significado. Pueden computar la probabilidad de que dos palabras aparezcan cerca una de la otra, pero su juicio siempre se basa en probabilidades estadísticas, no en una comprensión de las connotaciones de palabras. Piensa en el verbo servir. Podemos servir a nuestro país, servir en un partido de tenis, o servir al presidente. También te podemos servir una cazuela. (Un restaurante caníbalista podría incluso servir presidentes para el almuerzo, aunque la oferta sería bastante limitada). Los humanos pueden diferenciar fácilmente entre los significados realistas y absurdos de una simple palabra como servir; las computadoras no pueden.
Una computadora tampoco puede diferenciar entre inferencias razonables y absurdas. De hecho, las computadoras son realmente malas para hacer inferencias en absoluto. Cuando hablamos o escribimos, grandes cantidades de información son dejadas fuera e inferidas por el oyente o lector. Cuando leemos, “Fred se dio cuenta de que no podía pagar la matrícula de su hija. Buscó la dirección de correo electrónico de su tío”, el espacio entre las dos frases está lleno de información que inferimos. Casi todo el lenguaje humano funciona de esta manera. Hacer inferencias requiere grandes cantidades de información y redes, conexiones y permutaciones astronómicamente grandes en contextos infinitos. Aunque las computadoras obviamente pueden almacenar y buscar cantidades masivas de datos, no saben cómo armarlos para inferir. La computadora leería las dos declaraciones anteriores exactamente igual que leería, “Fred se dio cuenta de que no podía pagar la matrícula de su hija. Buscó la dirección de correo electrónico de su elefante mascota”.
La mayoría de los programas de puntuación por computadora juzgan el desarrollo lógico y la organización efectiva por el número de oraciones o palabras en un párrafo. Si un sistema está programado para ver los phs de paragra de una oración como subdesarrollados, aplicará este principio a todos los ensayos aunque los párrafos de una oración puedan usarse con buenos resultados (como en la oración en la parte superior de esta lista de viñetas). Cuando uno de nosotros (Perelman) intentó escribir el mejor ensayo que pudo, uno de los motoniveladores más populares le advirtió que un párrafo estaba subdesarrollado porque solo tenía tres frases. Luego amplió el párrafo insertando material completamente irrelevante —la línea inicial del poema “Aullido” de Alan Ginsberg: “Vi las mejores mentes de mi generación destruidas por la locura, hambrientas histéricas desnudas”. La computadora consideró entonces que el nuevo párrafo estaba a la vez adecuadamente desarrollado y coherente.
Las computadoras empeoran progresivamente al evaluar la escritura a medida que se alarga (por razones obvias, hay más para arruinarlas). Esto lo saben los programadores. Aunque todos los sistemas comerciales de puntuación por computadora dan puntuaciones más altas a ensayos más largos, paradójicamente la mayoría limita la longitud de los trabajos a alrededor de 1,000 palabras, alrededor de cuatro páginas mecanografiadas. El programa Criterio del Servicio de Pruebas Educativas, por ejemplo, casi siempre da puntajes altos a ensayos de 999 palabras pero se negará a evaluar un ensayo que contenga 1,001 palabras. Sin embargo, muchos trabajos universitarios son más de mil palabras.

El primer mito a desacreditar sobre los sistemas informáticos de puntuación es que pueden leer el discurso extendido, especialmente para evaluar las habilidades de escritura de los estudiantes. No pueden, no entienden ni interpretan nada que les sea alimentado. Extrañan el humor y la ironía, o ingeniosos giros de frase, o cualquiera de una docena de aspectos de la prosa que tratamos de enseñar a los alumnos. No pueden discernir decisiones estilísticas decididas. Piensan que el galimatías es aceptable, y marcan como inaceptable una prosa perfectamente razonable que viola algún criterio simplista como el número de palabras en un párrafo. Siempre interpretan algún aspecto de la escritura de la misma manera, sin considerar las intenciones y el contexto del escritor. No pueden hacer inferencias entre las líneas de texto. La complejidad del lenguaje humano simplemente los desconcierta, o, con mayor precisión, va directamente sobre sus semiconductores. Los expertos en escritura han expuesto estas y otras limitaciones de la puntuación de la máquina utilizando ensayos coherentes e incoherentes. Las computadoras no pueden notar la diferencia.

En un experimento, investigadores del MIT crearon el Basic Automated Bullshit Essay Language Generator (BABEL), que produce ensayos galimatías. Cuando presentaron ensayos producidos por BABEL a un sistema que puntúa decenas de miles de ensayos de prueba de estudiantes, incluido el Examen de Expediente de Posgrado, la computadora otorgó a los ensayos galimatías la puntuación más alta posible. Aquí hay un extracto de un ensayo generado por Babel que recibió la puntuación más alta (6) del evaluador electrónico de ETS, junto con los comentarios enlatados del sitio web de preparación GRE de ETS.

Las carreras con corroboración no lo ha hecho, y con toda probabilidad nunca serán compasivas, gratuitas y disciplinarias. La humanidad siempre proclamará noesis; muchos por un tropo pero algunos sobre verdugo. Una cantidad de vocación radica en el estudio de la realidad así como en el área de la semántica. ¿Por qué la imaginación es tan pulverulenta a la casualidad? La respuesta a esta consulta es que el conocimiento es vehementemente y bultuosamente contemporáneo.

La puntuación: 6

Al abordar las direcciones específicas de las tareas, una respuesta de 6 presenta un análisis coherente y bien articulado del tema y transmite sentido hábilmente. Una respuesta típica en esta categoría:

articula una posición clara y perspicaz sobre el tema de acuerdo con la tarea asignada
desarrolla la posición completamente con razones convincentes y/o ejemplos persuasivos
sostiene un análisis bien enfocado, bien organizado, conectando ideas lógicamente
transmite ideas con fluidez y precisión, usando vocabulario efectivo y variedad de oraciones

demuestra facilidad superior con las convenciones del inglés escrito estándar (es decir, gramática, uso y mecánica) pero puede tener errores menores.

Obviamente, el ensayo galimatías de Babel no hace ninguna de estas cosas. Entonces, ¿por qué, con todas estas limitaciones, la puntuación de ensayos informáticos ha visto siquiera la luz del día? Hemos señalado las razones económicas y el deseo de lucro. Pero hay otra razón, y se trata de humanos, no de computadoras.

Por qué los humanos hacen máquinas pésimas

Cuando miramos cómo los humanos leen y evalúan los ensayos de prueba de los estudiantes, encontramos una paradoja interesante. Durante años, grupos de lectores han sido entrenados —normalizados y calibrados — para leer miles de ensayos de la manera más consistente y precisa posible. Esto se debe a que cuando permitimos que las personas lean la escritura normalmente, la ven subjetivamente, a través de la lente de sus experiencias (piense en una discusión en un club de lectura). Si una agencia de pruebas lo permitiera, si no pudiera garantizar una evaluación consistente, sería demandada instantáneamente. A través de un largo proceso, los lectores a menudo pueden desarrollar consenso sobre cómo evaluar muchos aspectos de los artículos, pero tal proceso lleva más tiempo y dinero del que las organizaciones de prueba están dispuestas a gastar. En cambio, su proceso de entrenamiento convierte a los humanos en máquinas para que busquen exactamente las mismas características exactamente de la misma manera, lo más rápido posible. Se les dice que ignoren los hechos porque no pueden verificar todo lo que leen. Están limitados a ver los ensayos solo a través de la lente de lo que los evaluadores piensan que es importante. Quieren leer más allá de las líneas de los criterios de evaluación, pero no pueden, debido a que se requiere que los humanos lean entre 20 y 30 ensayos por hora, terminan evaluando ensayos usando las mismas características simples que utilizan las máquinas.

En la lectura de alto riesgo, pruebas de ensayo de un solo disparo, entonces, tanto las máquinas como los humanos hacen malos evaluadores cuando reducimos su proceso de lectura a algunas características limitadas. Las máquinas hacen esto porque no pueden hacer otra cosa. Los humanos hacen esto porque están entrenados para ignorar todo lo demás que puedan ver e interpretar en un ensayo, incluso cuán factuales son sus afirmaciones, con el fin de puntuar solo aquellas cosas que los realizadores de pruebas consideren significativas y, lo que es más importante, se pueden puntuar muy rápidamente (costos de lectura lentos y reflexivos dinero).

Para tomar un caso (no tan extremo), imagine que suponemos que una buena escritura puede medirse enteramente por el número de errores gramaticales y de puntuación en un texto. Un humano puede ser entrenado para actuar como una máquina, cazando errores gramaticales e ignorando todo lo demás. Una computadora puede ser entrenada de manera similar para reconocer muchos errores, incluso mientras se pierden algunos y se marcan falsos positivos. Pero ambos evaluadores, humanos y informáticos, pierden el punto. Escribir es mucho más complejo que una coma faltante. Las agencias de pruebas que no entienden completamente qué es la escritura y cómo se mide mejor la capacidad de producirla tienen la culpa.

Sacar la máquina de la evaluación de escritura

Cuando se trata de probar y evaluar la escritura de nuestros hijos, las máquinas por sí solas no son realmente el problema. Es lo que les estamos diciendo a las máquinas que hagan. Y eso es muy parecido a lo que pedimos a los evaluadores humanos que hagan. Entonces, ¿cuál es la solución?

Primero, tenemos que dejar de probar a nuestros hijos escribiendo hasta la muerte. Los informáticos (que no son especialistas en escritura) se sintieron atraídos por la posibilidad de puntuar a máquina precisamente porque el tipo regresivo de puntuación humana con el que se les presentaba parecía tan simple y replicable. Debemos comenzar criticando a lo grande la máquina de prueba, la industria multimillonaria que se aprovecha de distritos escolares, políticos mal informados, padres ingenuos y niños explotables bajo el pretexto de proporcionar datos de evaluación diseñados para mejorar la educación. Nada se mejora con pruebas implacables, especialmente del tipo que reduce la escritura al equivalente a correr sobre una rueda de hámster. Ninguna prueba de escritura estandarizada es decidida, motivadora o atractiva, y casi nunca le da al escritor ninguna respuesta que no sea un número.

Si los métodos de esta prueba y evaluación están equivocados, lo que sucede con los resultados puede ser deplorable. Debido a la rendición de cuentas implacable e infundada proveniente de políticos y funcionarios gubernamentales que a menudo no saben casi nada sobre cómo funciona realmente la educación, las escuelas deben demostrar su éxito a través de pruebas estandarizadas. Los aumentos salariales de los maestros o incluso sus empleos están vinculados a los puntajes de sus alumnos en estas pruebas, y escuelas enteras pueden ser decapitadas o cerradas si caen demasiado por debajo de una norma, a pesar de que pueden estar ubicadas en una zona de tizón urbana y pobladas por niños que, sin culpa propia, no tienen ventajas que apoyan su desarrollo temprano de la alfabetización. Entonces, ¿qué pasa? Los maestros, temerosos de las consecuencias de los malos puntajes de las pruebas, comienzan a estrechar todo lo que hacen anticipándose a las pruebas estandarizadas. Este proceso puede poner en quiebra la educación de los niños al negarles experiencias de aprendizaje más ricas, no relacionadas con los parámetros estrechos de las pruebas. Peor aún, arruina la creatividad y la libertad de los maestros para aplicar las habilidades y estrategias que han aprendido como educadores para crear un plan de estudios significativo y atractivo, es decir, enseñar, en el mejor sentido de la palabra.

¿Cuál es la alternativa? No está en evaluación, sino en apoyo. Es para obtener pruebas de espaldas de estudiantes y profesores. Es para ayudar a los jóvenes a desarrollar sus habilidades de escritura en situaciones auténticas que les den tiempo para pensar y formular ideas, recopilar la información necesaria, estructurar y redactar escritos, y perfeccionarlos para lograr metas significativas, como informar o persuadir o entretener a las personas que puedan hacer sentido de lo que escriben. Es para dedicar mucho más tiempo a la enseñanza que a la evaluación. Es para reempoderar a los maestros para que utilicen sus mejores y más creativas habilidades para nutrir la escritura de los estudiantes y darles múltiples propósitos, contextos y audiencias. Es para reconocer el significado que los escritores están transmitiendo y no solo simples elementos formales de su prosa. Es reconocer que los estudiantes se encuentran en diferentes etapas de desarrollo y dominio del idioma y enseñar en consecuencia.

¿Por qué estamos reduciendo las situaciones de escritura a tareas estériles y sin propósito diseñadas para producir algunas métricas que están mal relacionadas con el significado de la palabra “escritura”? Los creadores de pruebas y las agencias de evaluación dirán que no están negando a los alumnos todas las situaciones de escritura ricas y significativas que deberían encontrar, sino que sus pruebas son una forma conveniente, sencilla y barata de medir lo que pueden hacer. Pero no lo son. Los tipos de evaluación más auténticos, como los portafolios estudiantiles cuidadosamente leídos por los profesores, son métodos mucho mejores y más humanos porque se enfocan tanto en el desarrollo de la capacidad como en su medición. Y si las computadoras no pueden leer un ensayo de prueba de mil palabras, ni siquiera comenzarán a saber qué hacer con un portafolio.

Lectura adicional

Para más información sobre los problemas con la evaluación automática de la escritura, consulte el ensayo profético de Ellis B. Page de 1966, “La inminencia de la calificación de ensayos por computadora”, Patricia Freitag Ericsson y Richard Haswell editó la colección Machine Scoring of Student Essays: Truth and Consequences, Les Perelman's” Cuando 'el estado del arte' es contar palabras”, de Doug Hesse “¿Quién posee la escritura? ”, así como dos piezas de Anne Herrington y Charles Moran: “¿Qué sucede cuando las máquinas leen la escritura de nuestros estudiantes?” y “Cuando escribir a una máquina no es escribir en absoluto”. Para conocer la postura de una organización profesional importante sobre la evaluación automática de la escritura, consulte la declaración de posición del Consejo Nacional de Maestros de Inglés, “Machine Scoring Falla la Prueba”. Para obtener más información sobre las pruebas estandarizadas y sus problemas, consulte “Sistemas cerrados y pruebas de escritura estandarizadas” de Chris Anson, de Todd Farley Making the Grades: My Misadventures in the Standardized Testing Industry, y un artículo en Slate de Matthew J.X. Malady titulado “We are Teaching High Alumnos escolares para escribir terriblemente: Los muchos problemas de la Sección de Ensayos del SAT”.

Palabras clave

calificación de ensayos, pruebas de escritura de alto riesgo, puntaje automático, pruebas estandarizadas, evaluación de escritura

Autor Bios

Chris Anson es Profesor Distinguido de la Universidad y director del Programa Campus Writing and Speaking de la Universidad Estatal de Carolina del Norte, donde trabaja con profesores a lo largo del plan de estudios para mejorar la forma en que la escritura se integra en todas las disciplinas. Durante casi cuatro décadas, ha estudiado, enseñado y escrito sobre escritura y aprendizaje de escritura, especialmente a nivel de secundaria y universidad. Es ex presidente de la Conferencia sobre Composición y Comunicación Universitaria y ex presidente del Consejo de Administradores de Programas de Escritura. Ha estudiado y escrito sobre escritura y tecnología informática y es un firme defensor de una mayor atención a los modos digitales de comunicación en la instrucción, pero su investigación no apoya el uso de computadoras para puntuar la evaluación de pruebas de escritura de alto riesgo.

Les Perelman se retiró recientemente como director de Redacción Across the Curriculum en el departamento de Estudios de Medios Comparados/Redacción en el Instituto Tecnológico de Massachusetts, donde también se ha desempeñado como decano asociado en la Oficina del Decano de Educación de Pregrado. Actualmente es afiliado de investigación en el MIT. Es miembro del comité ejecutivo de la Conferencia sobre Composición y Comunicación Universitaria y copreside el Comité de Evaluación de esa organización. Bajo una beca de Microsoft, el Dr. Perelman desarrolló un sistema de evaluación en línea para la escritura que permite a los estudiantes acceder a lecturas y tiempo para planificar, redactar y revisar ensayos para una variedad de contextos de evaluación. Perelman se ha convertido en un conocido crítico de ciertas pruebas estandarizadas de escritura y especialmente del uso de computadoras para evaluar la escritura.

Search

Text Color

Text Size

Margin Size

Font Type