Download Pausas post-reforzamiento
Transcript
Tema 3: Condicionamiento instrumental: entrenamiento de recompensa Prof. Pablo Adarraga pablo.adarraga@uam.es Concepto y tipos de refuerzo positivo Los R+ pueden ser… • Estímulos concretos, simples (p.e., un trocito de comida, una sonrisa) • Configuraciones estimulares complejas (p.e. un amplio conjunto de signos de aprobación que incluya gestos, palabras y tonos de voz) • Posibilidades conductuales: p.e., permiso para usar la consola durante un tiempo, dejar salir al perro al jardín. Principio de Premack • Conductas de alta probabilidad: las que espontáneamente se hacen a menudo. • Conductas de baja probabilidad: las que espontáneamente se hacen raras veces o nunca. • Premack: cuando una CBP va seguida a menudo de una CAP, la primera resulta reforzada (aumenta su probabilidad). • El Pº de Premack afirma que ésta es precisamente la naturaleza del refuerzo. Reforzadores primarios y secundarios • Son reforzadores primarios los que funcionan de forma innata para todos los miembros normales de una especie. • Son reforzadores secundarios aquellos cuya capacidad de reforzar no es innata, sino que se debe a aprendizajes previos del organismo. – Condicionados: han adquirido su poder por condicionamiento clásico, asociándose a un primario: el clicker, el ruido de la máquina expendedora… – No condicionados: dinero, victoria en juegos, etc. El clicker • Es el reforzador secundario por excelencia en el entrenamiento de muchos animales. • Permite señalar con precisión el momento en que el organismo “se ha ganado el reforzador” con su conducta. R+ en humanos • Por las características de nuestra especie, hay algunos reforzadores que tienden a funcionar bien casi siempre. Por ejemplo: – Atención por parte de otros. Gestos de comprensión, interés, etc. – Signos de aprecio, valoración, prestigio, jerarquía. – Logro, victoria, triunfo, éxito… Factores del entrenamiento de recompensa Factores del entrenamiento de recompensa Factores: variables (independientes) de las que depende su eficacia Hay muchos; en términos generales los principales son: • Magnitud de la recompensa • Demora de la recompensa • Impulso y el más importante: • Programa de refuerzo Magnitud del reforzador • Aumentos en la cantidad o calidad del reforzador mejoran la actuación del organismo en la situación de adquisición • Sin embargo, las recompensas cuantiosas producen conductas menos estables, que se extinguen más fácilmente. Estribillo: El buen psicólogo es tacaño rácano cutre con los reforzadores positivos. Magnitud del reforzador Atención a los efectos de contraste: • Reducir súbitamente la magnitud de la recompensa durante la adquisición empeora la actuación del organismo, y puede perturbar el aprendizaje • Aumentarla mejora la actuación, y a veces puede mejorar también un poco el aprendizaje. Demora de la recompensa Es el intervalo entre la R y el R+ • Cuanto más breve, mejor. • A partir de una cierta demora (pocos segundos) ya no se produce condicionamiento • Una vez que el organismo emite la R, tenemos una breve ventana para reforzarla • Se puede alargar mucho mediante secundarios encadenados. Demora de la recompensa Estribillo: El refuerzo YA Impulso Es el estado motivacional del organismo respecto a aquello que usamos como R+ • Por ejemplo, no es probable que funcionen recompensas alimentarias con un animal saciado. • En el laboratorio se operativiza en términos de deprivación: gato 12 horas sin beber, rata al 80% de su peso… • No confundir con motivadores típicamente humanos, como los incentivos, salarios, objetivos, metas vitales, etc. • En humanos: muy importante asegurarlo, para no emplear “recompensas equivocadas”. Programas de refuerzo Refuerzo continuo y refuerzo parcial Refuerzo continuo: • Hay contingencia perfecta entre R y R+ • Es decir, siempre que se da la R se obtiene recompensa • Es fácil ver que esto es un caso muy particular • En la vida real no suele ocurrir mucho • No es ni mucho menos la pauta de refuerzo más eficaz Refuerzo parcial: • La contingencia entre R y R+ no es perfecta • No siempre que se da la R se obtiene recompensa • Aquí son posibles infinidad de pautas distintas (programas) • Más realista, y a menudo más eficaz Programa de refuerzo: concepto Es una regla que especifica la pauta con que se administran los refuerzos según responda el organismo. Por ejemplo: – Dar recompensa sólo a las respuestas impares (primera, tercera, quinta, etc.) – Recompensar sólo las conductas que se mantengan al menos dos minutos sin interrupción – Dar la recompensa sólo a las respuestas que se emiten transcurridos 10 segundos o más desde la anterior. – Etc. etc. Programa de refuerzo: concepto En sentido estricto, un programa de refuerzo es una regla sin ambigüedad ninguna, totalmente precisa. Por ejemplo: – Dar recompensa sólo a las respuestas impares (primera, tercera, quinta, etc.) es un programa de refuerzo. – Dar recompensa a la mitad de las respuestas no lo es (resulta impreciso: hay muchas maneras distintas de hacerlo). Este sentido estricto es muy importante en laboratorio; no tanto en la clínica o el mundo natural. Y en efecto, el mundo natural está lleno de programas de refuerzo. Programa de refuerzo: tipos Hay infinidad. Sólo veremos algunos de los más importantes Tipos generales: – Básicos o simples: se refieren a una sola R, y exigen una condición simple para administrar la recompensa – Complejos: Son combinaciones de los anteriores: una sola R, pero una exigencia compuesta para dar recompensa. – Concurrentes: se refieren a dos o más Rs alternativas en la misma situación. – Otros: programas de duración, de tasas bajas, etc. Programas básicos Hay cuatro tipos: – Razón fija – Razón variable – Intervalo fijo – Intervalo variable Programas básicos: Razón fija • Se recompensa cada enésima R emitida por el organismo: la quinta, la novena, la vigésima… • Es decir, se exige al organismo un número fijo de Rs. para darle cada recompensa • Notación: RF-5, RF-9, RF-20… Programa RF-5 Ultimo R+ recibido Nuevo R+ 5ª respuesta Tiempo Programas básicos: Razón variable • Es como RF, pero se exige al organismo un número variable de Rs. para darle cada recompensa. • Por ejemplo, en un RV-5: – Damos la primera recompensa a la 7ª R. – Segunda recompensa a la 3ª R. – Tercera recompensa a la 6ª – Etc. • Y globalmente, la media aritmética de las recompensas exigidas es 5 • Notación: RV-5, RV-9, RV-20… • Los programas RV, por tanto, mantienen siempre cierta incertidumbre sobre “cuándo toca” recibir R+ • Son más “naturales que los RF. Programas básicos: Intervalo fijo • Se recompensa la primera R emitida por el organismo una vez transcurrido un intervalo desde la última recompensa administrada • Tras cada recompensa hay un “tiempo muerto” • Notación: IF-5”, IF-30”, IF-90”… Programa IF-10” Ultimo R+ recibido Nuevo R+ Rs no reforzadas (dentro del intervalo) 1ª R tras el fin del intervalo Tiempo Intervalo de 10” Programas básicos: Intervalo variable • Es como IF, pero la duración del intervalo es diferente para cada recompensa (oscilando en torno a un promedio). • Por ejemplo, en un IV-10” podría suceder lo siguiente: – El intervalo “muerto” tras la primera recompensa dura 5”. – El intervalo tras la segunda recompensa dura 14”. – El intervalo tras la tercera recompensa dura 6” – Etc. • Y globalmente, la media aritmética de los intervalos aplicados es de 10” • Notación: IV-5”, IV-25”, IV-120”… • Los programas IV, por tanto, mantienen cierta incertidumbre sobre cuándo la recompensa vuelve a estar disponible • Son más “naturales que los IF. Razón fija: efectos en la R. • Producen una tasa de respuesta (TR) alta, tanto más alta cuanto mayor sea la razón. • La respuesta es tanto más difícil de extinguir cuanto mayor sea la razón (RF-1 se extingue muy fácilmente) • Asimismo, la TR resultante es bastante estable (constante) • Esa estabilidad se reduce cuando la tasa es muy alta: aparecen las pausas post-reforzamiento. • Pausas post-reforzamiento: el organismo detiene sus respuestas transitoriamente justo después de recibir la recompensa (parece como si se tomara un descanso). Razón variable: efectos en la R. • TR muy alta (incluso más que con RF) y tanto más alta cuanto mayor sea la razón. • Se obtiene una R muy difícil de extinguir, llegando a cronificarse. • TR muy estable (constante) • No aparecen pausas post-reforzamiento, salvo en valores altísimos, y a veces ni así. Intervalo fijo: efectos en la R. • TR no muy alta y tanto más baja cuanto mayor sea el valor del intervalo. • Con adquisiciones prolongadas, aparece el efecto de festoneado. • Efecto de festoneado: El organismo aprende a concentrar todas sus respuestas cerca del fin del intervalo • Es como si le hubiera “cogido el tranquillo” al programa: justo después de recibir refuerzo no vale la pena responder, pero cuando el intervalo está cerca de su fin es muy probable que una R reciba recompensa. Intervalo variable: efectos en la R. • TR no muy alta y tanto más baja cuanto mayor sea el valor del intervalo. • TR muy estable (constante): sin variaciones locales sistemáticas. • No aparece efecto de festoneado: El programa no tiene un “ritmo” temporal que el organismo pueda aprender y aprovechar. • Muy utilizados para la implantación de líneas base conductuales. Programas básicos: efectos generales • Los programas de razón dan TRs altas • Los programas variables dan TRs estables, constantes. • Estos resultados son muy consistentes entre especies (incluida la nuestra).