18.5: Horarios de Refuerzo

Última actualización
Guardar como PDF

Page ID: 135098

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

Recuerda, la mejor manera de enseñarle a una persona o animal un comportamiento es usar el refuerzo positivo. Por ejemplo, Skinner usó refuerzo positivo para enseñar a las ratas a presionar una palanca en una caja de Skinner. Al principio, la rata podría golpear aleatoriamente la palanca mientras exploraba la caja, y saldría una bolita de comida. Después de comerse el pellet, ¿qué crees que hizo después la rata hambrienta? Volvió a golpear la palanca, y recibió otra bolita de comida. Cada vez que la rata golpeaba la palanca, salía una bolita de comida. Cuando un organismo recibe un reforzador cada vez que muestra un comportamiento, se le llama refuerzo continuo. Este horario de refuerzo es la forma más rápida de enseñar a alguien un comportamiento, y es especialmente efectivo en el entrenamiento de una nueva conducta. Consideremos un perro que está aprendiendo a sentarse al mando. Ahora, cada vez que se sienta, le das una golosina. El tiempo es importante aquí: tendrás más éxito si presentas al reforzador inmediatamente después de que se siente, para que pueda hacer una asociación entre el comportamiento objetivo (sentado) y la consecuencia (recibir un regalo).

ENLACE AL APRENDIZAJE

Mire este video clip donde la veterinaria Dra. Sophia Yin da forma al comportamiento de un perro usando los pasos descritos anteriormente.

Una vez que se capacita un comportamiento, los investigadores y entrenadores a menudo recurren a otro tipo de programa de refuerzo: el refuerzo parcial. En el refuerzo parcial, también denominado refuerzo intermitente, la persona o animal no se refuerza cada vez que realiza el comportamiento deseado. Existen varios tipos diferentes de programas de refuerzo parcial (capaz$\PageIndex{1}$). Estos programas se describen como fijos o variables, y como intervalo o relación. Fijo se refiere al número de respuestas entre los refuerzos, o la cantidad de tiempo entre refuerzos, que se establece e inmutable. Variable se refiere al número de respuestas o cantidad de tiempo entre refuerzos, que varía o cambia. Intervalo significa que el horario se basa en el tiempo entre los refuerzos, y la relación significa que el horario se basa en el número de respuestas entre los refuerzos.

Tabla$\PageIndex{1}$: Horarios de Refuerzo
Horario de Refuerzo	Descripción	Resultado	Ejemplo
Intervalo fijo	El refuerzo se entrega a intervalos de tiempo predecibles (por ejemplo, después de 5, 10, 15 y 20 minutos).	Tasa de respuesta moderada con pausas significativas después del refuerzo	Paciente hospitalario utiliza alivio del dolor controlado por el paciente y programado por el médico
Intervalo variable	El refuerzo se entrega a intervalos de tiempo impredecibles (por ejemplo, después de 5, 7, 10 y 20 minutos).	Tasa de respuesta moderada pero constante	Comprobando Facebook
Relación fija	El refuerzo se entrega después de un número predecible de respuestas (por ejemplo, después de 2, 4, 6 y 8 respuestas).	Alta tasa de respuesta con pausas después del refuerzo	Trabajo a destajo: trabajador de fábrica que recibe el pago por cada x número de artículos fabricados
Relación variable	El refuerzo se entrega después de un número impredecible de respuestas (por ejemplo, después de 1, 4, 5 y 9 respuestas).	Tasa de respuesta alta y constante	Juegos de azar

Ahora vamos a combinar estos cuatro términos. Un programa de refuerzo de intervalo fijo es cuando el comportamiento se recompensa después de una cantidad de tiempo establecida. Por ejemplo, June se somete a una cirugía mayor en un hospital. Durante la recuperación, se espera que experimente dolor y requerirá medicamentos recetados para aliviar el dolor. A junio se le administra un goteo intravenoso con un analgésico controlado por el paciente. Su médico establece un límite: una dosis por hora. Junio empuja una pero tonelada cuando el dolor se vuelve difícil, y recibe una dosis de medicamento. Dado que la recompensa (alivio del dolor) solo ocurre en un intervalo fijo, no tiene sentido exhibir el comportamiento cuando no será recompensado.

Con un horario de refuerzo de intervalo variable, la persona o animal obtiene el refuerzo en función de diferentes cantidades de tiempo, que son impredecibles. Digamos que Manuel es el encargado de un restaurante de comida rápida. De vez en cuando alguien de la división de control de calidad viene al restaurante de Manuel. Si el restaurante está limpio y el servicio es rápido, todos en ese turno ganan un bono de 20 dólares. Manuel nunca sabe cuándo se presentará la persona de control de calidad, por lo que siempre trata de mantener limpio el restaurante y se asegura de que sus empleados brinden un servicio rápido y cortés. Su productividad en cuanto a un servicio rápido y mantener un restaurante limpio es constante porque quiere que su tripulación gane el bono.

Con un cronograma de refuerzo de ratio fijo, hay un número determinado de respuestas que deben ocurrir antes de que el comportamiento sea recompensado. Carla vende gafas en una tienda de anteojos, y gana una comisión cada vez que vende un par de gafas. Siempre trata de venderle a la gente más pares de anteojos, incluyendo gafas graduadas o un par de respaldo, para que pueda aumentar su comisión. A ella no le importa si la persona realmente necesita las gafas de sol recetadas, Carla solo quiere su bono. La calidad de lo que Carla vende no importa porque su comisión no se basa en la calidad; solo se basa en el número de pares vendidos. Esta distinción en la calidad del desempeño puede ayudar a determinar qué método de refuerzo es el más apropiado para una situación particular. Las relaciones fijas son más adecuadas para optimizar la cantidad de salida, mientras que un intervalo fijo, en el que la recompensa no se basa en la cantidad, puede conducir a una mayor calidad de salida.

En un programa de refuerzo de relación variable, el número de respuestas necesarias para una recompensa varía. Este es el horario de refuerzo parcial más potente. Un ejemplo del horario de refuerzo de relación variable es el juego. Imagínese que Sarah, generalmente una mujer inteligente y ahorradora, visita Las Vegas por primera vez. Ella no es jugadora, pero por curiosidad pone un cuarto en la máquina tragaperras, y luego otro, y otro. No pasa nada. Dos dólares en trimestres después, su curiosidad se desvanece, y está a punto de renunciar. Pero entonces, la máquina se enciende, se apagan las campanas y Sarah le devuelve 50 cuartos. ¡Eso es más parecido! Sarah vuelve a insertar cuartos con interés renovado, y unos minutos después ha agotado todas sus ganancias y está 10 dólares en el hoyo. Ahora podría ser un momento sensato para dejar de fumar. Y sin embargo, sigue poniendo dinero en la máquina tragaperras porque nunca sabe cuándo viene el siguiente refuerzo. Ella sigue pensando que con el próximo trimestre podría ganar $50, o $100, o incluso más. Debido a que el horario de refuerzo en la mayoría de los tipos de juego tiene un horario de proporción variable, la gente sigue intentándolo y esperando que la próxima vez ganen a lo grande. Esta es una de las razones por las que el juego es tan adictivo y tan resistente a la extinción.

En el condicionamiento operante, la extinción de un comportamiento reforzado ocurre en algún momento después de que el refuerzo se detiene, y la velocidad a la que esto ocurre depende del programa de refuerzo. En un horario de relación variable, el punto de extinción llega muy lentamente, como se describió anteriormente en el ejemplo de máquina ranuradora. Pero en los otros horarios de refuerzo, la extinción puede llegar rápidamente. Por ejemplo, si June presiona el botón para el medicamento para el alivio del dolor antes del tiempo asignado que su médico haya aprobado, no se administra ningún medicamento. Ella está en un horario de refuerzo de intervalo fijo (dosificado por hora), por lo que la extinción ocurre rápidamente cuando el refuerzo no llega en el momento esperado. Entre los programas de refuerzo, la relación variable es la más productiva y la más resistente a la extinción. El intervalo fijo es el menos productivo y el más fácil de extinguir (Figura$\PageIndex{1}$).

Figura$\PageIndex{1}$: Los cuatro programas de refuerzo producen diferentes patrones de respuesta. El horario de relación variable es impredecible y produce tasas de respuesta altas y constantes, con poca o ninguna pausa después del refuerzo (p. ej., jugador). Un horario de relación fija es predecible y produce una alta tasa de respuesta, con una breve pausa después del refuerzo (por ejemplo, vendedora de gafas). El horario de intervalo variable es impredecible y produce una tasa de respuesta moderada y constante (por ejemplo, gerente de restaurante). El horario de intervalo fijo produce un patrón de respuesta en forma de festón, reflejando una pausa significativa después del refuerzo (por ejemplo, paciente quirúrgico). [La “Figura 6.13” de OpenStax está licenciada bajo CC BY 4.0.]