10.3: Cambio de Comportamiento a través del Refuerzo y Castigo- Acondi

Última actualización
Guardar como PDF

Page ID: 146413

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Charles Stangor y Jennifer Walinga

Objetivos de aprendizaje

Esbozar los principios del condicionamiento operante.
Explicar cómo se puede moldear el aprendizaje mediante el uso de horarios de refuerzo y reforzadores secundarios.

En el condicionamiento clásico el organismo aprende a asociar nuevos estímulos con respuestas biológicas naturales como la salivación o el miedo. El organismo no aprende algo nuevo sino que comienza a realizar un comportamiento existente en presencia de una nueva señal. El condicionamiento operante, por otro lado, es el aprendizaje que ocurre a partir de las consecuencias del comportamiento y puede implicar el aprendizaje de nuevas acciones. El condicionamiento operante ocurre cuando un perro da la vuelta al mando porque ha sido elogiado por hacerlo en el pasado, cuando un matón escolar amenaza a sus compañeros de clase porque hacerlo le permite salirse con la suya, y cuando un niño obtiene buenas calificaciones porque sus padres amenazan con castigarla si no lo hace. en operante condicionando el organismo aprende de las consecuencias de sus propias acciones.

Cómo el refuerzo y el castigo influyen en el comportamiento: la investigación de Thorndike y Skinner

El psicólogo Edward L. Thorndike (1874-1949) fue el primer científico en estudiar sistemáticamente el condicionamiento operante. En su investigación Thorndike (1898) observó gatos que habían sido colocados en una “caja de rompecabezas” de la que intentaban escapar (“Video Clip: Thorndike's Puzzle Box”). Al principio los gatos se rascaban, mordían y golpeaban al azar, sin tener idea de cómo salir. Pero finalmente, y accidentalmente, presionaron la palanca que abrió la puerta y salieron a su premio, un pedazo de pescado. La siguiente vez que el gato estuvo constreñido dentro de la caja, intentó menos de las respuestas ineficaces antes de llevar a cabo la fuga exitosa, y después de varias pruebas el gato aprendió a hacer casi de inmediato la respuesta correcta.

Observar estos cambios en el comportamiento de los gatos llevó a Thorndike a desarrollar su ley de efecto, el principio de que las respuestas que crean un resultado típicamente agradable en una situación particular tienen más probabilidades de volver a ocurrir en una situación similar, mientras que las respuestas que producen una típica desenlace desagradable son menos propensos a ocurrir de nuevo en la situación (Thorndike, 1911). La esencia de la ley de efecto es que las respuestas exitosas, por ser placenteras, están “estampadas” por la experiencia y así ocurren con mayor frecuencia. Las respuestas fallidas, que producen experiencias desagradables, son “eliminadas” y posteriormente ocurren con menos frecuencia.

Video: Caja de Rompecabezas de Thorndike [http://www.youtube.com/watch?v=BDujDOLre-8]. Cuando Thorndike colocó a sus gatos en una caja de rompecabezas, descubrió que aprendieron a participar en el importante comportamiento de escape más rápido después de cada prueba. Thorndike describió el aprendizaje que sigue al refuerzo en términos de la ley de efectos.

El influyente psicólogo conductual B. F. Skinner (1904-1990) amplió las ideas de Thorndike para desarrollar un conjunto más completo de principios para explicar el condicionamiento operante. Skinner creó entornos especialmente diseñados conocidos como cámaras operantes (generalmente llamadas cajas Skinner) para estudiar sistemáticamente el aprendizaje. Una caja Skinner (cámara operante) es una estructura que es lo suficientemente grande como para caber en un roedor o ave y que contiene una barra o llave que el organismo puede presionar o picotear para liberar comida o agua. También contiene un dispositivo para registrar las respuestas del animal (Figura 10.5).

El más básico de los experimentos de Skinner fue bastante similar a la investigación de Thorndike con gatos. Una rata colocada en la cámara reaccionó como cabría esperar, corriendo alrededor de la caja y olfateando y agarrando el piso y las paredes. Finalmente, la rata se topó con una palanca, que presionó para liberar bolitas de comida. La siguiente vez, la rata tardó un poco menos en presionar la palanca, y en pruebas sucesivas, el tiempo que tardó en presionar la palanca se hizo cada vez más corto. Al poco tiempo la rata estaba presionando la palanca tan rápido como pudo comer la comida que aparecía. Como predecía la ley de efecto, la rata había aprendido a repetir la acción que provocó la comida y cesar las acciones que no lo hicieron.

Skinner estudió, en detalle, cómo los animales cambiaron su comportamiento a través del refuerzo y el castigo, y desarrolló términos que explicaron los procesos de aprendizaje operante (Cuadro 10.1, “Cómo influyen el refuerzo positivo y negativo y el castigo en el comportamiento”). Skinner utilizó el término reforzador para referirse a cualquier evento que fortalezca o aumente la probabilidad de un comportamiento, y el término castigador para referirse a cualquier evento que debilite o disminuya la probabilidad de un comportamiento. Y utilizó los términos positivo y negativo para referirse a si se presentó o se quitó un refuerzo, respectivamente. Así, el refuerzo positivo fortalece una respuesta al presentar algo agradable después de la respuesta, y el refuerzo negativo fortalece una respuesta al reducir o eliminar algo desagradable. Por ejemplo, darle elogios a un niño por completar su tarea representa un refuerzo positivo, mientras que tomar Aspirina para reducir el dolor de un dolor de cabeza representa un refuerzo negativo. En ambos casos, el refuerzo hace más probable que el comportamiento vuelva a ocurrir en el futuro.

Figura 10.5 Caja Skinner. B. F. Skinner utilizó una caja de Skinner para estudiar el aprendizaje operante. La caja contiene una barra o tecla que el organismo puede presionar para recibir alimentos y agua, y un dispositivo que registra las respuestas del organismo.

Cuadro 10.1 Cómo Influyen el Comportamiento Refuerzo y Castigo Positivo y
Término de condicionamiento operante	Descripción	Resultado	Ejemplo
Refuerzo positivo	Añadir o aumentar un estímulo agradable	Se fortalece el comportamiento	Dar un premio a un estudiante después de obtener una A en una prueba
Refuerzo negativo	Reducir o eliminar un estímulo desagradable	Se fortalece el comportamiento	Tomar analgésicos que eliminan el dolor aumenta la probabilidad de que vuelva a tomar analgésicos
Castigo positivo	Presentar o agregar un estímulo desagradable	El comportamiento se debilita	Darle a un estudiante tareas adicionales después de que se comporte mal en clase
Castigo negativo	Reducir o eliminar un estímulo agradable	El comportamiento se debilita	Quitarle la computadora a un adolescente después de que falte el toque de queda

El refuerzo, ya sea positivo o negativo, funciona aumentando la probabilidad de un comportamiento. El castigo, en cambio, se refiere a cualquier evento que debilite o reduzca la probabilidad de una conducta. El castigo positivo debilita una respuesta al presentar algo desagradable después de la respuesta, mientras que el castigo negativo debilita una respuesta al reducir o eliminar algo agradable. Un niño que está castigado después de pelear con un hermano (castigo positivo) o que pierde la oportunidad de ir al recreo después de obtener una mala calificación (castigo negativo) tiene menos probabilidades de repetir estos comportamientos.

Si bien la distinción entre refuerzo (que aumenta el comportamiento) y castigo (que lo disminuye) suele ser clara, en algunos casos es difícil determinar si un reforzador es positivo o negativo. En un día caluroso una brisa fresca podría verse como un reforzador positivo (porque trae aire frío) o un reforzador negativo (porque elimina el aire caliente). En otros casos, el refuerzo puede ser tanto positivo como negativo. Se puede fumar un cigarrillo tanto porque trae placer (refuerzo positivo) como porque elimina el deseo de nicotina (refuerzo negativo).

También es importante señalar que el refuerzo y el castigo no son simplemente opuestos. El uso del refuerzo positivo en el cambio de comportamiento es casi siempre más efectivo que el uso del castigo. Esto se debe a que el refuerzo positivo hace que la persona o animal se sienta mejor, ayudando a crear una relación positiva con la persona que proporciona el refuerzo. Los tipos de refuerzo positivo que son efectivos en la vida cotidiana incluyen la alabanza o aprobación verbal, la concesión de estatus o prestigio, y el pago financiero directo. El castigo, por otro lado, es más probable que solo genere cambios temporales en el comportamiento porque se basa en la coerción y típicamente crea una relación negativa y adversaria con la persona que proporciona el refuerzo. Cuando la persona que proporciona el castigo abandona la situación, es probable que el comportamiento no deseado regrese.

Creando comportamientos complejos a través del condicionamiento operante

Quizás recuerdes haber visto una película o estar en un espectáculo en el que un animal —tal vez un perro, un caballo o un delfín— hacía algunas cosas bastante increíbles. El entrenador dio una orden y el delfín nadó hasta el fondo de la alberca, recogió un anillo en su nariz, saltó del agua a través de un aro en el aire, se zambulló de nuevo al fondo de la alberca, recogió otro anillo, y luego llevó ambos anillos al entrenador al borde de la alberca. El animal fue entrenado para hacer el truco, y se utilizaron los principios del condicionamiento operante para entrenarlo. Pero estos comportamientos complejos están muy lejos de las simples relaciones de estímulo-respuesta que hemos considerado hasta ahora. ¿Cómo se puede utilizar el refuerzo para crear comportamientos complejos como estos?

Una forma de ampliar el uso del aprendizaje operante es modificar el horario en el que se aplica el refuerzo. A este punto sólo hemos discutido un horario de refuerzo continuo, en el que la respuesta deseada se refuerza cada vez que ocurre; siempre que el perro se da la vuelta, por ejemplo, obtiene una galleta. El refuerzo continuo da como resultado un aprendizaje relativamente rápido pero también una rápida extinción del comportamiento deseado una vez que el reforzador desaparece. El problema es que debido a que el organismo está acostumbrado a recibir el refuerzo después de cada comportamiento, el respondedor puede darse por vencido rápidamente cuando no aparece.

La mayoría de los reforzadores del mundo real no son continuos; ocurren en un programa de refuerzo parcial (o intermitente), un horario en el que las respuestas a veces se refuerzan y a veces no. En comparación con el refuerzo continuo, los programas de refuerzo parcial conducen a un aprendizaje inicial más lento, pero también conducen a una mayor resistencia a la extinción. Debido a que el refuerzo no aparece después de cada comportamiento, el alumno tarda más en determinar que la recompensa ya no viene, y así la extinción es más lenta. Los cuatro tipos de programas de refuerzo parcial se resumen en el Cuadro 10.2, “Programas de refuerzo”.

Cuadro 10.2 Horarios de Refuerzo.
Horario de refuerzo	Explicación	Ejemplo del mundo real
Relación fija	El comportamiento se refuerza después de un número específico de respuestas.	Trabajadores de la fábrica a los que se les paga de acuerdo al número de productos que producen
Relación variable	El comportamiento se refuerza después de un número promedio, pero impredecible, de respuestas.	Los pagos de las máquinas tragaperras y otros juegos de azar
Intervalo fijo	El comportamiento se refuerza para la primera respuesta después de que haya transcurrido un tiempo específico.	Personas que ganan un salario mensual
Intervalo variable	El comportamiento se refuerza para la primera respuesta después de un tiempo promedio, pero impredecible, ha pasado.	Persona que revisa el correo electrónico en busca de mensajes

Los programas de refuerzo parcial están determinados por si el refuerzo se presenta sobre la base del tiempo que transcurre entre el refuerzo (intervalo) o en función del número de respuestas en las que el organismo se involucra (ratio), y por si el refuerzo ocurre de forma regular (fija) o horario impredecible (variable). En un programa de intervalo fijo, el refuerzo se produce para la primera respuesta realizada después de que haya pasado una cantidad específica de tiempo. Por ejemplo, en un horario de intervalo fijo de un minuto el animal recibe un refuerzo cada minuto, asumiendo que se involucra en el comportamiento al menos una vez durante el minuto. Como puede ver en la Figura 10.6, “Ejemplos de Patrones de Respuesta por Animales Entrenados bajo Diferentes Programas de Refuerzo Parcial”, los animales en horarios de intervalo fijo tienden a ralentizar su respuesta inmediatamente después del refuerzo pero luego aumentar el comportamiento nuevamente como el tiempo del siguiente el refuerzo se acerca. (La mayoría de los estudiantes estudian para los exámenes de la misma manera). En un programa de intervalo variable, los refuerzos aparecen en un programa de intervalos, pero el tiempo varía alrededor del intervalo promedio, haciendo que la apariencia real del reforzador sea impredecible. Un ejemplo podría ser revisar tu correo electrónico: estás reforzado al recibir mensajes que vienen, en promedio, digamos, cada 30 minutos, pero el refuerzo ocurre solo en momentos aleatorios. Los programas de refuerzo a intervalos tienden a producir tasas de respuesta lentas y constantes.

Figura 10.6 Ejemplos de Patrones de Respuesta por Animales Entrenados bajo Diferentes Programas de Refuerzo Parcial. Los programas basados en el número de respuestas (tipos de relación) inducen una mayor tasa de respuesta que los programas basados en el tiempo transcurrido (tipos de intervalo). Además, los horarios impredecibles (tipos variables) producen respuestas más fuertes que las programaciones predecibles (tipos fijos).

En un horario de proporción fija, se refuerza un comportamiento después de un número específico de respuestas. Por ejemplo, el comportamiento de una rata puede reforzarse después de haber presionado una tecla 20 veces, o un vendedor puede recibir un bono después de haber vendido 10 productos. Como puede ver en la Figura 10.6, “Ejemplos de Patrones de Respuesta por Animales Entrenados bajo Diferentes Horarios de Refuerzo Parcial”, una vez que el organismo haya aprendido a actuar de acuerdo con el horario de proporción fija, se detendrá solo brevemente cuando se produzca el refuerzo antes de regresar a un nivel alto de capacidad de respuesta. Un programa de relación variable proporciona refuerzos después de un número específico pero promedio de respuestas. Ganar dinero en máquinas tragamonedas o en un boleto de lotería es un ejemplo de refuerzo que ocurre en un horario de relación variable. Por ejemplo, una máquina tragaperras (ver Figura 10.7, “Máquina tragaperras”) puede programarse para proporcionar una ganancia cada 20 veces que el usuario tira del asa, en promedio. Los programas de relación tienden a producir altas tasas de respuesta porque el refuerzo aumenta a medida que aumenta el número de respuestas.

Figura 10.7 Máquina tragaperras. Las máquinas tragamonedas son ejemplos de un programa de refuerzo de relación variable.

Los comportamientos complejos también se crean a través de la conformación, el proceso de guiar el comportamiento de un organismo hacia el resultado deseado mediante el uso de aproximaciones sucesivas a un comportamiento final deseado. Skinner hizo uso extensivo de este procedimiento en sus cajas. Por ejemplo, podría entrenar a una rata para que presione una barra dos veces para recibir comida, primero proporcionando comida cuando el animal se movió cerca de la barra. Cuando se había aprendido ese comportamiento, Skinner comenzaría a proporcionar comida sólo cuando la rata tocaba la barra. La conformación adicional limitó el refuerzo a solo cuando la rata presionó la barra, a cuando presionó la barra y la tocó por segunda vez, y finalmente a solo cuando presionó la barra dos veces. Si bien puede llevar mucho tiempo, de esta manera el condicionamiento operante puede crear cadenas de comportamientos que se refuerzan sólo cuando se completan.

Reforzar a los animales si discriminan correctamente entre estímulos similares permite a los científicos probar la capacidad de aprendizaje de los animales, y las discriminaciones que pueden hacer a veces son notables. Las palomas han sido entrenadas para distinguir entre imágenes de Charlie Brown y los demás personajes de Peanuts (Cerella, 1980), y entre diferentes estilos de música y arte (Porter & Neuringer, 1984; Watanabe, Sakamoto & Wakita, 1995).

Los comportamientos también pueden ser entrenados mediante el uso de refuerzos secundarios. Mientras que un reforzador primario incluye estímulos que son naturalmente preferidos o disfrutados por el organismo, como alimentos, agua y alivio del dolor, un reforzador secundario (a veces llamado reforzador condicionado) es un evento neutro que se ha convertido asociados a un reforzador primario a través del condicionamiento clásico. Un ejemplo de un reforzador secundario sería el silbato dado por un entrenador de animales, el cual se ha asociado a lo largo del tiempo con el reforzador primario, la comida. Un ejemplo de un reforzador secundario cotidiano es el dinero. Disfrutamos tener dinero, no tanto para el estímulo en sí, sino para los reforzadores primarios (las cosas que el dinero puede comprar) con los que está asociado.

Claves para llevar

Edward Thorndike desarrolló la ley del efecto: el principio de que las respuestas que crean un resultado típicamente agradable en una situación particular tienen más probabilidades de volver a ocurrir en una situación similar, mientras que las respuestas que producen un resultado típicamente desagradable tienen menos probabilidades de volver a ocurrir en la situación.
B. F. Skinner amplió las ideas de Thorndike para desarrollar un conjunto de principios para explicar el condicionamiento operante.
El refuerzo positivo fortalece una respuesta al presentar algo que suele ser agradable después de la respuesta, mientras que el refuerzo negativo fortalece una respuesta al reducir o eliminar algo que suele ser desagradable.
El castigo positivo debilita una respuesta al presentar algo típicamente desagradable después de la respuesta, mientras que el castigo negativo debilita una respuesta al reducir o eliminar algo que suele ser agradable.
El refuerzo puede ser parcial o continuo. Los programas de refuerzo parcial se determinan por si el refuerzo se presenta en función del tiempo que transcurre entre los refuerzos (intervalo) o en función del número de respuestas que el organismo realiza (ratio), y por si el refuerzo se produce de forma regular (fija) o horario impredecible (variable).
Se pueden crear comportamientos complejos a través de la conformación, el proceso de guiar el comportamiento de un organismo hacia el resultado deseado mediante el uso de aproximaciones sucesivas a un comportamiento final deseado.

Ejercicios y Pensamiento Crítico

Dar un ejemplo de la vida cotidiana de cada uno de los siguientes: refuerzo positivo, refuerzo negativo, castigo positivo, castigo negativo.
Considera las técnicas de refuerzo que podrías usar para entrenar a un perro para que atrape y recupere un Frisbee que le lanzas.
Mira los siguientes dos videos de programas de televisión actuales. ¿Se puede determinar qué procedimientos de aprendizaje se están demostrando?
1. La Oficina: http://www.break.com/usercontent/200...office-altoid - experiment-1499823
2. La teoría del Big Bang [YouTube]: http://www.youtube.com/watch?v=JA96Fba-WHk

Atribuciones de imagen

Figura 10.5: “Caja Skinner” (http://en.wikipedia.org/wiki/File:Sk...x_photo_02.jpg) está licenciada bajo la licencia CC BY SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0/deed.en). “Skinner box scheme” de Andreas1 (http://en.wikipedia.org/wiki/File:Sk... _scheme_01.png) está bajo la licencia CC BY SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0/deed.en)

Figura 10.6: Adaptado de Kassin (2003).

Figura 10.7: “Máquinas Tragamonedas en el Casino Hard Rock” de Ted Murpy (http://commons.wikimedia.org/wiki/Fi...otMachines.jpg) está bajo la licencia CC BY 2.0. (http://creativecommons.org/licenses/by/2.0/deed.en).

Referencias

Cerella, J. (1980). El análisis de las imágenes de la paloma. Reconocimiento de Patrones, 12, 1—6.

Kassin, S. (2003). Fundamentos de la psicología. Upper Saddle River, NJ: Prentice Hall. Recuperado del sitio web de Essentials of Psychology Prentice Hall Companion http://wps.prenhall.com/hss_kassin_e....cw/index.html

Porter, D., & Neuringer, A. (1984). Discriminaciones musicales por palomas. Revista de Psicología Experimental: Procesos de Comportamiento Animal, 10 (2), 138—148.

Thorndike, E. L. (1898). Inteligencia animal: Un estudio experimental de los procesos asociativos en animales. Washington, DC: Asociación Americana de Psicología.

Thorndike, E. L. (1911). Inteligencia animal: Estudios experimentales. Nueva York, NY: Macmillan. Recuperado a partir de http://www.archive.org/details/animalintelligen00thor

Watanabe, S., Sakamoto, J., & Wakita, M. (1995). La discriminación de Palomas en la pintura de Monet y Picasso. Revista del Análisis Experimental del Comportamiento, 63 (2), 165—174.

Colaboradores y Atribuciones

Introducción a la Psicología por Jorden A. Cummings & Lee Sanders está bajo una Licencia Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional, excepto cuando se indique lo contrario.
Refiérase a Atribuciones del Capítulo Fuente para obtener más detalles