2.10:1940: Skinner
- Page ID
- 139979
B.F. Skinner: Acondicionamiento Operante
El psicólogo B.F. Skinner vio que el condicionamiento clásico se limita a comportamientos existentes que se provocan reflexivamente, y no da cuenta de nuevos comportamientos como andar en bicicleta. [1] Propuso una teoría sobre cómo se producen tales comportamientos. Skinner creía que el comportamiento está motivado por las consecuencias que recibimos por el comportamiento: refuerzos y castigos. Su idea de que el aprendizaje es resultado de consecuencias se basa en la ley de effec t, que fue propuesta por primera vez por el psicólogo Edward Thorndike. De acuerdo con la ley del efecto, los comportamientos que van seguidos de consecuencias que son satisfactorias para el organismo tienen más probabilidades de repetirse, y los comportamientos que van seguidos de consecuencias desagradables tienen menos probabilidades de repetirse. [2] Esencialmente, si un organismo hace algo que produce un resultado deseado, es más probable que el organismo vuelva a hacerlo. Si un organismo hace algo que no produce el resultado deseado, es menos probable que el organismo vuelva a hacerlo. Un ejemplo de la ley de efectos es el empleo. Una de las razones (y muchas veces la razón principal) por las que nos presentamos al trabajo es porque nos pagan por hacerlo. Si dejamos de recibir pagos, es probable que dejemos de presentarnos, incluso si amamos nuestro trabajo.
Acondicionamiento Clásico | Acondicionamiento Operante | |
---|---|---|
Enfoque de acondicionamiento | Un estímulo incondicionado (como la comida) se combina con un estímulo neutro (como una campana). El estímulo neutro finalmente se convierte en el estímulo condicionado, lo que provoca la respuesta condicionada (salivación). | El comportamiento objetivo es seguido de refuerzo o castigo para fortalecerlo o debilitarlo para que el alumno tenga más probabilidades de exhibir el comportamiento deseado en el futuro. |
Momento de estímulo | El estímulo ocurre inmediatamente antes de la respuesta. | El estímulo (ya sea refuerzo o castigo) ocurre poco después de la respuesta. |
Trabajando con la ley de efecto de Thorndike como su fundamento, Skinner comenzó a realizar experimentos científicos en animales (principalmente ratas y palomas) para determinar cómo los organismos aprenden a través del condicionamiento operante. [3] Colocó a estos animales dentro de una cámara de acondicionamiento operante, la cual ha llegado a conocerse como “Caja Skinner” (Ver Figura 1.). Una caja de Skinner contiene una palanca (para ratas) o disco (para palomas) que el animal puede presionar o picotear para obtener una recompensa de comida a través del dispensador. Altavoces y luces pueden estar asociados con ciertos comportamientos. Un registrador cuenta el número de respuestas realizadas por el animal.
Al discutir el condicionamiento operante, usamos varias palabras cotidianas —positivas, negativas, refuerzo y castigo— de manera especializada. En condicionamiento operante, positivo y negativo no significan bueno y malo. En cambio, positivo significa que estás agregando algo, y negativo significa que te estás quitando algo. Refuerzo significa que estás aumentando un comportamiento, y el castigo significa que estás disminuyendo un comportamiento. El refuerzo puede ser positivo o negativo, y el castigo también puede ser positivo o negativo. Todos los refuerzos (positivos o negativos) aumentan la probabilidad de una respuesta conductual. Todos los castigos (positivos o negativos) disminuyen la probabilidad de una respuesta conductual. Ahora combinemos estos cuatro términos: refuerzo positivo, refuerzo negativo, castigo positivo y castigo negativo (Cuadro 2.).
Refuerzo | Castigo | |
---|---|---|
Positivo | Se agrega algo para aumentar la probabilidad de un comportamiento. | Se agrega algo para disminuir la probabilidad de un comportamiento. |
Negativo | Algo se elimina para aumentar la probabilidad de un comportamiento. | Algo se elimina para disminuir la probabilidad de un comportamiento. |
Refuerzo
La forma más efectiva de enseñar a una persona o animal un nuevo comportamiento es con un refuerzo positivo. En refuerzo positivo, se agrega un estímulo deseable para incrementar un comportamiento.
Por ejemplo, digamos que le dices a tu hijo de cinco años, Jerome, que si limpia su habitación, obtendrá un juguete. Jerome limpia rápidamente su habitación porque quiere un nuevo set de arte. Algunas personas podrían decir: “¿Por qué debería recompensar a mi hijo por hacer lo que se espera?” Sin embargo, somos recompensados constante y consistentemente en nuestras vidas. Nuestros cheques de pago son recompensas, así como las calificaciones altas o la aceptación en nuestras escuelas preferidas. Ser elogiado por hacer un buen trabajo o por aprobar una prueba de manejo también son recompensas. El refuerzo positivo como herramienta de aprendizaje es extremadamente efectivo. Se ha encontrado que una de las formas más efectivas de aumentar el rendimiento en distritos escolares con puntajes de lectura por debajo del promedio fue pagar a los niños para que lean.
En el refuerzo negativo, se elimina un estímulo indeseable para aumentar un comportamiento. Por ejemplo, los fabricantes de automóviles utilizan los principios de refuerzo negativo en sus sistemas de cinturones de seguridad, que van “pitido, pitido, pitido” hasta que se abrocha el cinturón de seguridad. El molesto sonido se detiene cuando exhibas el comportamiento deseado, aumentando la probabilidad de que te abroches el cinturón en el futuro. El refuerzo negativo también se usa frecuentemente en el entrenamiento de caballos. Los jinetes aplican presión, tirando de las riendas o apretando sus piernas, y luego eliminan la presión cuando el caballo realiza el comportamiento deseado, como girar o acelerar. La presión es el estímulo negativo que el caballo quiere eliminar.
Castigo
Muchas personas confunden el refuerzo negativo con el castigo en el condicionamiento operante, pero son dos conceptos muy diferentes. Recuerda que el refuerzo, incluso cuando es negativo, siempre aumenta un comportamiento. En contraste, el castigo siempre disminuye un comportamiento. En castigo positivo, se agrega un estímulo indeseable para disminuir un comportamiento. Un ejemplo de castigo positivo es reprender a un estudiante para que el estudiante deje de enviar mensajes de texto en clase. En este caso, se agrega un estímulo (la reprimenda) para disminuir el comportamiento (enviar mensajes de texto en clase). En castigo negativo, se quita un estímulo agradable para disminuir un comportamiento, como algo que el niño disfruta (por ejemplo, un juguete o una salida programada). Los tiempos de espera son una forma muy común de castigo negativo: momentáneamente les quitan el acceso de los niños a algo que disfrutan.
El castigo, sobre todo cuando es inmediato, es una forma de disminuir el comportamiento indeseable. Por ejemplo, imagina a tu hijo de cuatro años, Brandon, corre a una calle muy transitada para conseguir su pelota. Le das un tiempo de espera (castigo positivo) y le dices que no vuelva a salir a la calle nunca más. Lo más probable es que no repita este comportamiento. Si bien estrategias como los tiempos de espera son comunes hoy en día, en el pasado los niños a menudo estaban sujetos a castigos físicos, como las nalgadas. Es importante estar al tanto de algunos de los inconvenientes de usar el castigo físico a los niños. Dentro del contexto de la paternidad, es importante señalar que el término “castigo” no significa que la consecuencia deba ser dañina.
Si bien el castigo positivo puede ser efectivo en algunos casos, Skinner sugirió que el uso del castigo debe sopesarse contra los posibles efectos negativos. Los psicólogos y expertos en crianza de los hijos de hoy favorecen el refuerzo sobre el castigo; recomiendan que atrapes a tu hijo haciendo algo bueno y recompensarlo por ello.
Dar forma
En sus experimentos de condicionamiento operante, Skinner solía utilizar un enfoque llamado conformación. En lugar de recompensar solo el comportamiento objetivo, en la conformación, recompensamos sucesivas aproximaciones de un comportamiento objetivo. Por ejemplo, los padres pueden romper una tarea en pasos más pequeños más “alcanzables”. Estos pasos más pequeños deben estar en secuencia de completar toda la tarea deseada. A medida que los niños inician un paso, o muestran mejoras en un escalón, deben ser elogiados y recompensados. A medida que los niños dominan cada paso, deben ser nuevamente elogiados y recompensados y luego alentados al siguiente paso. Este proceso de aproximaciones sucesivas se sigue hasta que un niño domina toda la tarea. Esto lleva tiempo, pero es un método probado para moldear el comportamiento de un niño a través de recompensar y elogiar las mejoras continuas.
La conformación se usa a menudo para enseñar un comportamiento complejo o una cadena de comportamientos. Skinner solía modelar para enseñar a las palomas no solo comportamientos relativamente simples como picotear un disco en una caja de Skinner, sino también muchos comportamientos inusuales y entretenidos, como dar vueltas en círculos, caminar en figura ochos e incluso jugar al ping pong; esta técnica es comúnmente utilizada por los entrenadores de animales hoy en día. Una parte importante de la conformación es la discriminación por estímulos. Recordemos a los perros de Pavlov, los entrenó para responder al tono de una campana, y no a tonos o sonidos similares. Esta discriminación también es importante en el condicionamiento operante y en la conformación del comportamiento.
Es fácil ver cómo la conformación es efectiva para enseñar comportamientos a los animales, pero ¿cómo funciona la conformación con los humanos? Consideremos a los padres cuyo objetivo es que su hijo aprenda a limpiar su habitación. Utilizan la conformación para ayudarle a dominar los pasos hacia la meta. En lugar de realizar toda la tarea, configuran estos pasos y refuerzan cada uno. Primero, limpia un juguete. Segundo, limpia cinco juguetes. Tercero, elige si recoger diez juguetes o guardar sus libros y ropa. Cuarto, limpia todo excepto dos juguetes. Por último, limpia toda su habitación.
Refuerzos Primarios y Secundarios
Recompensas como pegatinas, elogios, dinero, juguetes y más se pueden usar para reforzar el aprendizaje. Volvamos de nuevo a las ratas de Skinner. ¿Cómo aprendieron las ratas a presionar la palanca en la caja de Skinner? Fueron recompensados con comida cada vez que presionaban la palanca. Para los animales, la comida sería un evidente reforzador.
¿Cuál sería un buen reforzador para los humanos? Para su hija Sydney, era la promesa de un juguete si limpiaba su habitación. ¿Qué tal Joaquín, el futbolista? Si le diste un caramelo a Joaquín cada vez que hacía un gol, estarías usando un reforzador primario. Los refuerzos primarios son refuerzos que tienen cualidades de refuerzo innatas. Este tipo de refuerzos no se aprenden. El agua, la comida, el sueño, el refugio, el sexo y el tacto, entre otros, son los principales reforzadores. El placer también es un reforzador principal. Los organismos no pierden su impulso por estas cosas. Para la mayoría de la gente, saltar en un lago fresco en un día muy caluroso sería reforzar y el lago fresco se reforzaría de manera innata: el agua enfriaría a la persona (una necesidad física), además de brindar placer.
Un reforzador secundario no tiene valor inherente y solo tiene cualidades de refuerzo cuando se vincula con un reforzador primario. La alabanza, ligada al afecto, es un ejemplo de un reforzador secundario, como cuando gritabas “¡Gran tiro!” cada vez que Joaquín hacía un gol. Otro ejemplo, el dinero, solo vale algo cuando puedes usarlo para comprar otras cosas—ya sea cosas que satisfagan necesidades básicas (comida, agua, refugio— todos los refuerzos primarios) u otros reforzadores secundarios. Si estuvieras en una isla remota en medio del Océano Pacífico y tuvieras pilas de dinero, el dinero no sería útil si no pudieras gastarlo. ¿Qué pasa con las pegatinas en la tabla de comportamiento? También son reforzadores secundarios.
A veces, en lugar de pegatinas en una tabla de pegatinas, se usa una ficha. Los tokens, que también son reforzadores secundarios, se pueden canjear por recompensas y premios. Los sistemas completos de gestión del comportamiento, conocidos como economías simbólicas, se construyen en torno al uso de este tipo de refuerzos de tokens. Se ha encontrado que las economías simbólicas son muy efectivas para modificar el comportamiento en una variedad de entornos como escuelas, prisiones y hospitales psiquiátricos.
Conexión cotidiana: Modificación de la conducta en niños
Los padres y maestros a menudo usan la modificación de la conducta para cambiar el comportamiento de un niño. La modificación de la conducta utiliza los principios del condicionamiento operante para lograr un cambio de comportamiento de manera que los comportamientos indeseables se cambien por otros más socialmente aceptables. Algunos maestros y padres crean una tabla de pegatinas, en la que se listan varios comportamientos. Los gráficos de pegatinas son una forma de economías simbóricas, como se describe en el texto. Cada vez que los niños realizan el comportamiento deseado, reciben una pegatina, y después de una cierta cantidad de pegatinas, obtienen un premio, o reforzador. El objetivo es aumentar los comportamientos aceptables y disminuir la mala conducta. Recuerda, es mejor reforzar los comportamientos deseados que usar el castigo. En el aula, el maestro puede reforzar una amplia gama de comportamientos, desde los alumnos levantando la mano, hasta caminar tranquilamente en el pasillo, hasta entregar su tarea. En casa, los padres pueden crear una tabla de comportamiento que premie a los niños por cosas como guardar juguetes, cepillarse los dientes y ayudar con la cena. Para que la modificación de la conducta sea efectiva, el refuerzo debe estar conectado con el comportamiento, el refuerzo debe importarle al niño, y el proceso debe realizarse de manera consistente a lo largo del tiempo.
El tiempo de espera es otra técnica popular utilizada en la modificación del comportamiento con niños. Cuando un niño demuestra un comportamiento indeseable, se le quita de la actividad deseable que tiene a mano. Por ejemplo, decir que Sophia y su hermano Mario están jugando con bloques de construcción. Sophia le tira unos bloqueos a su hermano, así que le das una advertencia de que irá a tiempo muerto si lo vuelve a hacer. Unos minutos después, le lanza más bloqueos a Mario. Quitas a Sophia de la habitación por unos minutos. Cuando regresa, no tira bloques.
Hay varios puntos importantes a considerar si planea implementar el tiempo de espera como una técnica de modificación de comportamiento. Primero, asegúrese de que el niño esté siendo retirado de una actividad deseable y colocado en un lugar menos deseable. Si la actividad es algo indeseable para el niño, esta técnica será contraproducente porque es más agradable que el niño sea removido de la actividad. Segundo, la duración del tiempo de espera es importante. La regla general es de un minuto por cada año de la edad del niño. Sophia tiene cinco años; por lo tanto, se sienta en tiempo de espera durante cinco minutos. Configurar un temporizador ayuda a los niños a saber cuánto tiempo tienen que sentarse en el tiempo de espera. Tercero, el uso de este método debe depender del desarrollo cognitivo y social del niño, no solo de la edad cronológica del niño. Por último, como cuidador, tenga en cuenta varias pautas en el transcurso de un tiempo de espera: mantenga la calma al dirigir a su hijo al tiempo de espera; ignore a su hijo durante el tiempo de espera (porque la atención del cuidador puede reforzar el mal comportamiento) y darle al niño un abrazo o una palabra amable cuando termine el tiempo de espera.
Horarios de Refuerzo
Recuerda, la mejor manera de enseñarle a una persona o animal un comportamiento es usar el refuerzo positivo. Por ejemplo, Skinner usó refuerzo positivo para enseñar a las ratas a presionar una palanca en una caja de Skinner. Al principio, la rata podría golpear aleatoriamente la palanca mientras exploraba la caja, y saldría una bolita de comida. Después de comerse el pellet, ¿qué crees que hizo después la rata hambrienta? Volvió a golpear la palanca y recibió otra bolita de comida. Cada vez que la rata golpeaba la palanca, salía una bolita de comida. Cuando un organismo recibe un reforzador cada vez que muestra un comportamiento, se le llama refuerzo continuo. Este horario de refuerzo es la forma más rápida de enseñar a alguien un comportamiento, y es especialmente efectivo en el entrenamiento de una nueva conducta. Veamos a un perro aprendiendo a sentarse. Cada vez que el perro se sienta, le das un regalo al perro. El tiempo es importante aquí: tendrás más éxito si presentas el reforzador inmediatamente después de que el perro se sienta para que el perro pueda hacer una asociación entre el comportamiento objetivo (sentado) y el refuerzo (obtener un regalo).
- Este capítulo fue adaptado de OpenStax Psychology, y se utiliza bajo una licencia CC BY 4.0. Descárgalo gratis en http://cnx.org/contents/4abf04bf-93a0-45c3-9cbc-2cefd46e68cc@12.2.
- Thorndike, E. L. (1911). Inteligencia animal: Estudios experimentales. Empresa Macmillan.
- Skinner, B. F. (1938). Comportamiento de los organismos. Appleton-Century-Crofts.
- Skinner, B. F. (1961). Máquinas didácticas. Scientific American, 205 (3), 90-112. doi.org/10.2307/1926170.
- Murphy, R. (2017). ¿Qué es el 'castigo negativo'? Definición y ejemplos del mundo real. https://www.care.com/c/stories/11980/what-is-negative-punishment-definition-and-real-world-examples/.
- Gerschoff, E. T. (2013). Nalgadas y desarrollo infantil: Ahora sabemos lo suficiente como para dejar de golpear a nuestros hijos. Perspectivas de Desarrollo Infantil, 7 (3), 133-137. doi.org/10.1111/cdep.12038
- Gershoff, E. T. (2002). Castigo corporal por parte de los padres y comportamientos y experiencias asociadas del niño: Una revisión metaanalítica y teórica. Boletín Psicológico, 128 (4), 539—579. https://doi.org/10.1037/0033-2909.128.4.539