Download Tema 4 Aprendizaje mediante condicionamiento instrumental de
Document related concepts
Transcript
Tema 4 Aprendizaje mediante condicionamiento instrumental de recompensa Bloque 2: Aprendizaje asociativo mediante condicionamiento Tema 3: APRENDIZAJE ASOCIATIVO MEDIANTE CONDICIONAMIENTO CLÁSICO Tema 4: APRENDIZAJE ASOCIATIVO MEDIANTE CONDICIONAMIENTO INSTRUMENTAL DE RECOMPENSA Tema 5: CONDICIONAMIENTO INSTRUMENTAL: CONTROL DE ESTÍMULO Y CONDICIONAMIENTO CON ESTIMULACIÓN AVERSIVA Indice del Capítulo 1. DESCRIPCIÓN Y TIPOS DE PROCEDIMIENTOS ................................................................................................................. 187 1.1. Definición e historia .......................................................................................................................................................... 187 1.2. Operación experimental y fases del experimento básico ................................................................................................. 190 1.3. Elementos (estímulos y respuestas) principales .............................................................................................................. 191 1.4. Procedimientos y técnicas experimentales para la adquisición de la respuesta instrumental ......................................... 193 1.4.1. Medida de la respuesta instrumental ........................................................................................................................ 193 1.4.2. Técnicas de adquisición rápida de la respuesta instrumental .................................................................................. 194 1.4.3. Métodos de estudio en humanos .............................................................................................................................. 195 1.5. Clasificación de tipos de procedimientos ......................................................................................................................... 196 1.5.1. Según el tipo de consecuencia y según la contingencia R - consecuencia .............................................................. 196 1.5.2. Según la probabilidad R-C o intermitencia del refuerzo............................................................................................ 197 1.5.3. Según la estimulación antecedente .......................................................................................................................... 197 1.6. Comparacion entre condicionamiento clasico e instrumental .......................................................................................... 198 1.7. Procesos y cambios cognitivos ........................................................................................................................................ 198 1.7.1. Mecanismos o procesos relacionadores de eventos ................................................................................................ 198 1.7.2. Contenido del aprendizaje: Representaciones asociativas ...................................................................................... 199 2. CONDICIONES PARA LA ADQUISICION EN EL CONDICIONAMIENTO DE RECOMPENSA ............................................ 202 2.1. Condiciones generales para la adquisicion ...................................................................................................................... 202 2.1.1. Probabilidad de emparejamiento R-C: Correlación acción-consecuencia ................................................................ 202 2.1.2. Contigüidad temporal entre acción y consecuencia: La conducta supersticiosa ...................................................... 202 2.2. El refuerzo ........................................................................................................................................................................ 204 2.2.1. Definición, tipos de refuerzo y teorías en torno a su influencia en el condicionamiento ........................................... 204 2.2.2. Condiciones para la efectividad del refuerzo según su tipo, intensidad, demora y contraste de intensidad y demora208 2.2.3. Efecto de emparejar estímulos con el refuerzo: los refuerzos condicionados o secundarios .................................. 210 2.3. Efecto de la situación motivacional .................................................................................................................................. 211 2.4. Tipo de respuesta ............................................................................................................................................................. 211 3. CONDICIONES PARA EL MANTENIMIENTO DE LA TASA DE RESPUESTA: PROGRAMAS DE REFUERZO ................ 212 3.1. Distribución temporal del refuerzo: Refuerzo continuo vs. refuerzo parcial o intermitente ............................................... 212 3.2. Programas para una misma respuesta instrumental ........................................................................................................ 214 3.2.1. Programas simples de refuerzo: tipos y efectos conductuales ................................................................................. 214 3.2.2. Programas de refuerzo compuestos ......................................................................................................................... 216 3.2.3. Programas de refuerzo señalizados ......................................................................................................................... 218 3.3. Programas para diferentes respuestas: Programas concurrentes y conducta de elección ............................................. 219 3.3.1. Programas concurrentes ........................................................................................................................................... 219 3.3.2. Contingencias concurrentes: Conducta de elección ................................................................................................. 219 3.4. Condiciones especificas de refuerzo parcial en humanos................................................................................................ 221 3.4.1. Reglas verbales ........................................................................................................................................................ 221 3.4.2. Efecto de las instrucciones verbales ......................................................................................................................... 221 3.4.3. Experiencia previa de reforzamiento......................................................................................................................... 221 3.4.4. Valor informativo del refuerzo ................................................................................................................................... 222 4. CONDICIONES PARA LA EXTINCIÓN ................................................................................................................................... 222 4.1. Operaciones, consecuencias y parámetros ..................................................................................................................... 222 4.1.1. Operación experimental y procedimientos de extinción ............................................................................................ 222 4.1.2. Consecuencias o efectos generales ......................................................................................................................... 222 4.1.3. Parámetros................................................................................................................................................................ 223 4.2. Condiciones generales durante la adquisición que afectan a la extinción en el condicionamiento de recompensa ....... 224 4.2.1. Factores motivacionales ........................................................................................................................................... 224 4.2.2. Factores de entrenamiento ....................................................................................................................................... 224 4.3. La extinción tras adquisición con refuerzo parcial ............................................................................................................ 225 4.3.1. Condiciones específicas ........................................................................................................................................... 225 4.3.2. Teorías del efecto de refuerzo parcial....................................................................................................................... 226 5. PRINCIPALES APLICACIONES ............................................................................................................................................. 228 5.1. Condicionamiento instrumental y clínica .......................................................................................................................... 228 5.1.1. Procedimientos de modificación de conducta ........................................................................................................... 228 5.1.2. Condicionamiento instrumental de respuestas autonómicas: Biofeedback .............................................................. 230 - 185 Asignatura: Aprendizaje (6 créditos). Obl. de 2º curso Grado Psicología, Curso 2010/2011 Profesores: Dr. Agustín Romero Medina (agustinr@um.es) y Ldo. Pedro Jara Vera (pjara@um.es). Deptº Ps. Básica y Metodología. Univ. de Murcia. Fac. Psicología; En Aula Virtual Fac. Psicología en http://avpsi.inf.um.es/moodle/ (usuario: dni sin letra; contraseña: dni sin letra); y en SUMA campus virtual 186 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 5.2. Condicionamiento instrumental y enseñanza ................................................................................................................... 232 5.2.1. Métodos aplicados al proceso didáctico ................................................................................................................... 232 5.2.2. Métodos aplicados a la organización y manejo de la clase ...................................................................................... 233 6. PRÁCTICAS DE AUTOEVALUACIÓN DEL TEMA 4 ............................................................................................................. 233 Resumen del tema Con este tema, entramos en otro tipo de aprendizaje asociativo básico consistente en aprender a partir de las consecuencias de la acción (aprendizaje instrumental) en un contexto determinado. En este capítulo comenzamos con una descripción de sus características, procedimientos principales, clasificación de los principales tipos de condicionamiento instrumental y una comparación con el condicionamiento clásico, los efectos de las condiciones más generales de adquisición y, por último, los procesos o cambios a nivel representacional que produce este tipo de aprendizaje. Estudiaremos en este tema las condiciones más comunes del aprendizaje mediante condicionamiento instrumental con eventos reforzantes. De este modo analizamos en profundidad las condiciones de adquisición centradas en las consecuencias positivas (el refuerzo) y su relación con la respuesta. De estas cuestiones, las más estudiadas han sido las referentes a las condiciones de adquisición mediante refuerzo parcial: programas de refuerzo, y las condiciones específicas en humanos. También se analizan las condiciones de extinción y por último, se mencionan algunas de las principales aplicaciones, entre las cuales destacan las técnicas de modificación de conducta y el biofeedback. Lecturas complementarias Las obras de Dickinson (1980; trad. 1984), Tarpy (1981; trad. 1986), Mackintosh (1983; trad. 1988) y Domjan y Burkhard (1986; trad. 1990) son las imprescindibles para ampliar los contenidos de este capítulo. Otras obras de consulta pueden ser: Fernández Trespalacios (1985), Hulse et al. (1980; trad. 1982), Pelechano (1980, caps. 8 a 10), Rachlin (1976; trad. 1979), Honig (1966; trad. 1975) y las compilaciones de Aguado (1983) y Anguera y Veá (1984) y algunos de los trabajos de Rescorla y colaboradores (por ejemplo, Rescorla, 1980, 1985; Rescorla y Holland, 1982) y Estes (1978). Pueden consultarse como mínimo: Fernández Trespalacios (1985; cap. 17), Hulse et al. (1980; trad. 1982, cap. 5), Pelechano (1980; cap. 9); para la conducta de elección véase el capítulo 10 de Rachlin (1976; trad. 1979), el de Arambarri y Benjumea (1997) y el de Maldonado (1998) para programas de refuerzo Reynolds (1968; trad. 1977) y Schoenfeld (1970; trad. 1979); sobre automoldeamiento el libro editado por Locurto, Terrace y Gibbon (1981). Puesto que se trata de las aportaciones aplicadas más conocidas de la psicología del aprendizaje, para una revisión más amplia y completa el lector debería consultar, sobre todo manuales de modificación y terapia de conducta (por ejemplo, Mayor y Labrador, 1984; Carrobles, 1986; Leitenberg, 1976; Craighead, Kazdin y Mahoney, 1976; Izquierdo, 1988; Caballo (1991), Buela-Casal y Caballo (1991), etc.) y algún libro de psicología educativa (por ejemplo, Woolfolk y McCune, 1980; Beltrán et al., 1987; etc.). Sobre análisis funcional de la conducta véase Segura, Sánchez y Barbado (1991). Manuales útiles sobre biofeedback son los de Carrobles y Godoy (1987), Villanueva (1988) y Simón (1989: sobre aplicación a la rehabilitación física). Una buena guía bibliográfica sobre este tema puede encontrarse en el número 14/15 de la revista Estudios de Psicología ("Guía documental del biofeedback", pp. 151-165, 1983). Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 187 1. DESCRIPCIÓN Y TIPOS DE PROCEDIMIENTOS 1.1. Definición e historia El condicionamiento instrumental se considera el segundo tipo de aprendizaje asociativo predictivo y consiste en aprender a predecir sucesos derivados de nuestras acciones, aprender por las consecuencias de la acción, por ello Tarpy (1981) lo considera un "aprendizaje de respuestas": aprender a hacer o no hacer cosas en función de las consecuencias que estas acciones tienen para el mismo organismo. El descubrimiento científico de este tipo de aprendizaje tiene lugar a finales del siglo XIX. Aunque algunos de los principios del condicionamiento instrumental ya aparecen en las observaciones del psicólogo británico C. Lloyd Morgan en 1894 (conductas de “ensayo y error” observadas en su perro), es sólo cuatro años después cuando se describe más sistemáticamente. En efecto, en 1898 Thorndike publicó un libro titulado Inteligencia animal (1898), donde expone los resultados de su tesis doctoral sobre experimentos con animales en situaciones de cajas-problema (ver Figura 1). En uno de estos experimentos, un gato hambriento era introducido en una jaula que disponía de una especie de palanca para abrir la puerta; fuera de la jaula había comida, de modo que el animal tenía que aprender a abrir la puerta para conseguirla; una vez que por ensayo y error el animal lograba abrir la jaula y comer, en sucesivas ocasiones esta acción era realizada con mayor rapidez. La Figura 2 ilustra esta situación. Figura 1: Dibujo esquemático de una caja-problema como la de Thorndike. Tiempo requerido para escape (segs.) Ensayos sucesivos en la caja-problema Figura 2: Curva de aprendizaje en las cajas-problema de Thorndike. Thorndike utilizó como variable dependiente el tiempo para escapar de la jaula (definición operacional de aprendizaje) y como variable independiente los ensayos. La curva de aprendizaje fue gradual y ondulada (ver Figura 2) y con escasa evidencia de comprensión del problema (insight) en los prime- 188 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 ros ensayos. Sin embargo, después de 30 ensayos, los gatos presionaban la palanca tan pronto como eran colocados en la caja. Thorndike concluyo que los animales aprendían por "ensayo y error". En 1911, le dio una interpretación teórica a estos hallazgos empíricos proponiendo la que denominó "Ley del Efecto", tanto en sus versiones positiva como negativa: - La ley del efecto positivo postula que se puede conseguir una conexión entre una situación ambiental y una acción del sujeto siempre y cuando esa acción proporcione consecuencias satisfactorias o agradables. Esta asociación entre situación, respuesta y consecuencia satisfactoria tiene el efecto de aumentar la probabilidad de respuesta. Dicho más brevemente, cuando una acción va seguida de una recompensa tiende a repetirse. - La ley del efecto negativo dice que cuando las consecuencias son desagradables para el sujeto, en el futuro tenderá a disminuir esa respuesta. Esta ley, que básicamente hace referencia a lo que técnicamente llamamos "castigo" (ver Tema 5), fue inicialmente propuesta como simétrica a la anterior, pero fue retirada por el propio autor al no cumplirse en ciertas condiciones. El siguiente momento importante se da con Skinner y sobre todo a partir de la publicación de su primer libro La conducta de los organismos (1938). De hecho, como dice Cruz (1989, p. 161), "la contribución de Thorndike empezó a ser plenamente reconocida unos treinta años después de la presentación de su tesis doctoral, cuando Skinner la enmarcó dentro de un cuerpo teórico más amplio". Como señala Mackintosh (1983), fue Skinner (1938) quien estableció la diferenciación entre dos tipos de aprendizaje mediante condicionamiento: uno regido por el principio de sustitución (el condicionamiento pavloviano) y otro gobernado por la ley del efecto (el condicionamieto instrumental). Skinner los denominó, respectivamente, condicionamiento respondiente y operante. Se inaugura así un nuevo enfoque en el condicionamiento instrumental en cuanto a método y teoría. Skinner parte de un conductismo radical, por el cual sólo se pueden estudiar las conductas observables y las relaciones funcionales entre la situación previa o antecedentes y la situación posterior o consecuentes de la conducta. Obviamente en este esquema sobre lo "mental" es innecesario para explicar la conducta y el aprendizaje; además, la conexión mental entre estímulos y respuestas tampoco se puede observar y con ello no se puede hablar de "finalidad" de una conducta. Conducta "instrumental" alude a esa finalidad inobservable y por ello prefiere la denominación de condicionamiento operante porque lo que se aprende es una operante o respuesta que opera sobre el medio. No es instrumental, pues no se sabe o no se puede observar su finalidad. Así pues, el condicionamiento operante no se debe confundir con el condicionamiento instrumental: el operante es el desarrollo skinneriano del condicionamiento instrumental. El condicionamiento operante define el refuerzo en función de la tasa de respuestas que consigue, y no en función de la "satisfacción" que produce. Con esta diferenciación, Skinner pretende evitar cualquier presuposición acerca de lo que puede constituir o no un reforzador, de lo que a priori parece bueno o malo para el sujeto. Por ejemplo, cuando un niño actúa de forma traviesa puede que sus padres le riñan y llamen la atención continuamente para que deje de comportarse así, presuponiendo que la riña es un castigo para el niño; sin embargo, aunque en algunos momentos y para algunos niños pueda ser así, quizá en este caso particular las reprimendas sólo consigan que el niño siga comportándose de forma traviesa, e incluso que sea más travieso todavía (puesto que el niño persigue que le presten atención, independientemente de que sea con reprimendas o sin ellas), con lo que en realidad se le está reforzando y no castigando. En definitiva, desde un punto de vista skinneriano, en este caso la riña es un reforzador para la conducta traviesa puesto que aumenta la frecuencia de la misma1. 1 Recuérdese lo que dijimos en el Tema 2 acerca del término refuerzo. Como vimos, este término puede emplearse para aludir a cualquier estímulo que, siguiendo al EC (el el caso del condicionamiento clásico) o siguiendo a una conducta (en el caso del condicionamiento instrumental) fortalece (refuerza) el aprendizaje. Desde este punto de vista, un estímulo aversivo y uno apetitivo son ambos refuerzos. Sin embargo, en el contexto del condicionamiento instrumental, lo más habitual es reservar el término refuerzo para los estímulos apetitivos (que son los que refuerzan la conducta) y emplear el término castigo para los estímulos aversivos (que disminuyen la conducta). Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 189 Siendo el aprendizaje el tema central del conductismo, el condicionamiento instrumental fue desde su aparición el tipo de aprendizaje más estudiado, relegando al CC (de hecho, el CC fue utilizado por Watson en un ámbito más bien teórico) ante el gran interés práctico despertado por el condicionamiento instrumental, sobre todo desde Skinner y a partir de los años 30. El desarrollo aplicado del condicionamiento instrumental ha sido uno de sus logros más destacados y relevantes, con métodos objetivos y cuantificables, con el planteamiento de principios y leyes que siempre apelan a la actividad o conducta observable. La investigación y la tecnología que ha generado el condicionamiento instrumental ha sido considerable; la bibliografía, especialmente sobre condicionamiento operante, es también amplísima (programas de refuerzo, control de estímulo, etc.); además, ha desarrollado una tecnología que ha tenido éxito en muchísimas aplicaciones: se modifican conductas y se obtienen aumentos y decrementos en la tasa de respuestas en distintos ámbitos e incluso con consecuencias de tipo político, sociocultural e ideológico (vease la célebre novela de Skinner Walden dos). En determinadas condiciones, el control sobre la conducta que pueden ejercer estas técnicas es considerable. De ahí la configuración de toda una especialidad denominada Análisis Aplicado de la Conducta (véase Baer, 1982, para revisión) o Ingeniería Conductual o Tecnología conductual. Sin embargo, este enfoque conductista no ha podido profundizar en los procesos mentales del aprendizaje hasta la reciente aportación de las teorías cognitivas del aprendizaje animal, centradas en los procesos y los contenidos mentales del aprendizaje. Según este nuevo enfoque, el sujeto aprende a tener expectativas sobre las posibles consecuencias de su acción, de modo que la respuesta dada en un determinado contexto predice una consecuencia: la aparición de un evento significativo para el sujeto (por ejemplo, el refuerzo). En el condicionamiento instrumental, el resultado principal que se logra con esta práctica es la adquisición de dos tipos de asociaciones: - asociación entre la conducta y su consecuencia (asociación respuesta - consecuencia o R-C). - asociación entre un estímulo y el compuesto respuesta-consecuencia (E-[R-C]) Se trata pues de la asociación entre la acción del sujeto y las consecuencias de dicha acción, produciendo así una asociación R (respuesta) - C (consecuencia). También es importante la asociación entre la situación ambiental que existe al emitir la respuesta (ambiente o contexto en el que ocurre la acción) y la misma asociación E (estímulo) - R. Para Rescorla (1991), además de estas asociaciones R-C y E-R, lo fundamental es la asociación entre E y el conjunto R-C, o sea, E - (R-C), una asociación jerárquica que requiere un proceso de adquisición en dos fases: primero asociar R y C, y después asociar E al conjunto R-C. Así pues, la propia acción del sujeto es aquí lo importante, pues según lo que hacemos y las consecuencias que eso tiene, así actuaremos en el futuro. También es importante el contexto en el que ocurre la acción: determinados estímulos del ambiente se condicionan a la acción, de modo que se convierten en señal para actuar. PorDesarrollemos ahora el ejemplo de condicionamiento instrumental presentado anteriormente (Tema 3, apartado 1). Como se recordará, hablamos de un perro al que su amo golpeaba con un periódico cada vez que se subía al sillón del comedor. Podemos decir que el animal ha adquirido el condicionamiento cuando aprende la relación que existe entre una de sus conductas (subirse al sillón) y el estímulo que lo sigue (el golpe con el periódico), esto es: cuando aprende la relación R-C. Comoquiera que el golpe es un estímulo aversivo desagradable para el animal (es un castigo), el cambio conductual derivado del condicionamiento es que el animal deja de subirse en el sillón (o lo hace menos frecuentemente). Imaginemos ahora que el dueño del perro sale todas las mañanas a trabajar y deja al perro solo en la casa; en este caso, el perro podrá subirse al sillón tranquilamente a pelechar a sus anchas sin recibir castigo alguno. La presencia del amo en la casa, por lo tanto, puede actuar como un estímulo discriminativo: el animal sólo recibe el castigo al subirse al sillón cuando el amo está presente, apren- 190 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 de la relación E-[R-C] y, por lo tanto, sólo evitará el sillón en presencia de su dueño (en este ejemplo, E = amo, R = subir al sillón, C = golpe con el periódico -castigo-). 1.2. Operación experimental y fases del experimento básico Cuando se investiga en laboratorio, la operación experimental básica del condicionamiento instrumental, es decir, la fórmula que lo rige, es del tipo E-R-E, donde el primer estímulo o grupo de estímulos son los antecedentes -el contexto o el estímulo discriminativo-, en presencia de lo cual ocurre una respuesta voluntaria del sujeto, y tras ésta aparece una consecuencia o evento significativo (apetitivo o aversivo). El procedimiento para lograr la adquisición mediante condicionamiento instrumental tendría las siguientes fases: I) El sujeto se halla inmerso en una situación determinada -que contiene una serie de estímulos ambientales2- en la cual está realizando actividades -relacionadas o no con los estímulos-. En esta fase, los estímulos y las respuestas se consideran independientes entre sí. II) Una de dichas actividades debe producir una consecuencia significativa (C)3 para el sujeto (si la consecuencia es positiva la denominaremos refuerzo, Eref, si es negativa, castigo). De este modo se produce la secuencia: E - R - C. III) La fase anterior se repite varias veces. IV) Siempre y cuando E - R - C se haya repetido varias veces, el sujeto se encuentra con que R tiene consecuencias significativas y otras respuestas no las tienen; si la consecuencia de R es positiva, se producirá un aumento en la probabilidad de ocurrencia de dicha respuesta y no de las demás, incluso aunque no aparezca siempre el refuerzo o consecuencia. Si la consecuencia es negativa, se producirá una disminución de la probabilidad de ocurrencia de R. Con ratas, el procedimiento típico de laboratorio para la adquisición de respuestas instrumentales se suele realizar en la Caja de Skinner (ver Figura 3) y tiene varias fases. El Cuadro 1 (adaptado de la descripción de Cruz, 1989, p. 162) nos lo ilustra. Cuadro 1: Fases del procedimiento standard de laboratorio para el condicionamiento instrumental en ratas - Fase de preparación del animal: Se escoge una rata de tres meses, durante una semana se pesa diariamente y se le da la comida que requiera; después se le da menos comida y cuando pierda un 20% de su peso ya se puede comenzar la siguiente fase. - Adaptación a la caja de Skinner: En las primeras sesiones, el animal emite diversas conductas pero hay una baja frecuencia de la conducta objetivo consistente en apretar la palanca. Se anota el nivel operante o línea de base de frecuencia de respuestas antes de iniciar el entrenamiento. - Adaptación al sonido del comedero (magazine training): Se hace coincidir repetidas veces la emisión de un sonido con la aparición de bolitas de comida en el comedero (el animal aprende así cuándo hay comida, y el sonido se convierte en ED) - Elección de una respuesta: Cuando se emita la conducta objetivo (apretar la palanca) entonces se proporciona el refuerzo (bolitas de comida). Se observará un incremento en la frecuencia de respuesta. 2 Téngase en cuenta que esos "estímulos ambientales" ya afectan de por sí al sujeto en mayor o menor medida. Pueden ser aversivos (ruido intenso, frío, calor, etc.), sólo molestos, indiferentes o agradables. 3 Esta consecuencia significativa de la acción suele tener relación también con la estimulación ambiental; por ejemplo, cuando la estimulación previa es aversiva y la acción logra que cese dicha estimulación aversiva. Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa Palanca Dispensador de comida (recompensa) 191 Señal luminosa Suelo de parrilla Figura 3: Fotografía de una caja de Skinner actual (con un lateral abierto para poder ver el interior). Cuando se ha establecido un CI reforzando una R, para que disminuya o desaparezca esta respuesta, es decir, para que se produzca la extinción, el procedimiento principal consiste en no presentar el refuerzo tras la respuesta; esta ausencia de refuerzo tiene que ocurrir durante mucho tiempo y en todas las ocasiones en que se produzca la respuesta. La consecuencia observada tras la aplicación de este procedimiento es la disminución de la tasa de la respuesta (además de otros efectos descritos en el capítulo siguiente). 1.3. Elementos (estímulos y respuestas) principales a) Consecuencias o eventos significativos Son los eventos que aparecen contingentemente4 a la respuesta (tras la respuesta, como consecuencia de la respuesta y sólo si se da la respuesta). Son significativos porque tienen algún valor motivacional o informativo para el sujeto y son equiparables al EI del CC. Pueden ser de tipo apetitivo o agradable (refuerzo) o de efecto desagradable o aversivo (castigo). La Tabla 1 esquematiza todo esto. En cualquier caso, al ocurrir este evento significativo tras la respuesta siempre tendrá un efecto futuro sobre ella pues conseguirá elicitarla aumentando, manteniendo o disminuyendo su tasa (número de respuestas en un determinado tiempo). 4 En aprendizaje, el término 'contingente' (que encontramos habitualmente en los manuales de condicionamiento en castellano pero traducidos del inglés) tiene un significado técnico diferente al uso cotidiano o incluso filosófico. Según el Diccionario de uso del español de María Moliner (1986), 'contingente' "se aplica a las cosas que pueden suceder y no suceder: no seguras o no necesarias". 'Contingente' es pues "no necesario" y, sin embargo, en aprendizaje es justo lo contrario. El problema tal vez radica en una mala traducción del inglés. En efecto, 'contingency', que es el término inglés del cual se ha traducido, tiene el mismo significado (eventualidad, algo fortuito), pero 'contingent on' o 'contingent upon' es "dependiente de" y esto es precisamente lo que ocurre en aprendizaje instrumental: la aparición del refuerzo (B) depende de la elicitación de la respuesta (A). Hay una relación condicional del tipo "Si A entonces B". Así pues, cuando leamos "contingentemente a la respuesta" deberemos entender dependiendo de la respuesta. 192 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 Tabla 1: Descripción de tipos de consecuencias de la respuesta en el condicionamiento instrumental. Tipo de consecuencia Consecuencias positivas (refuerzos) Consecuencias negativas (castigos) Acción Presentación de un estímulo apetitivo Cese de una estimulación aversiva Presentación de un estímulo aversivo Cese de una estimulación apetitiva Denominación refuerzo positivo refuerzo negativo castigo por aplicación castigo por supresión b) Respuesta instrumental Es la que se produce con este procedimiento y es distinta a la respuesta del CC, ya que no es una respuesta refleja, sino que es una actividad generalmente de tipo voluntario (regida por la musculatura estriada -excepto en el biofeedback o condicionamiento instrumental de respuestas vegetativas o autonómicas-). Es cualquier conducta que le permite al sujeto manipular, influir o interactuar con el ambiente; son pues actividades funcionales o instrumentales para el sujeto (coger un libro, abrir una puerta, prestar atención, hablar, etc.). En el condicionamiento instrumental lo importante que se adquiere no es la respuesta (hay muchas respuestas tales como presionar una palanca, mover una mano o un brazo, que ya figuraban en el repertorio de respuestas del sujeto) sino emitirla en el momento adecuado, o incrementar o disminuir su frecuencia: por tanto se aprende a realizar conductas "prácticas", o sea, acciones deliberadas que resultan funcionales para conseguir algún tipo de reforzador (la conducta es un instrumento, un medio para lograr algo, con lo que opera sobre el medio por las consecuencias que obtiene de ello). Además, la respuesta instrumental ha de ser pertinente y relevante para el organismo que ha de ejecutarla, es decir, tiene que ser factible y no sobrepasar los límites biológicos de la especie, o dicho de otro modo, estar incluida dentro de las respuestas naturales y biológicamente posibles para la especie. De lo contrario, por mucho refuerzo que se le proporcione al sujeto, no estará en disposición de realizar la conducta. c) Estimulación o situación antecedente a la conducta En el paradigma del condicionamiento instrumental, la situación en la que ocurre la conducta tiene una misión señalizadora al estilo del EC: Los repetidos emparejamientos de la situación con las respuestas seguidas de consecuencias significativas provocan que en el futuro, cuando aparezca dicha situación antecedente será más probable que se suscite la respuesta instrumental, pues será la señal que activa en el sujeto la expectativa de obtener algo favorable si realiza la respuesta. Expresado metafóricamente, la situación antecedente es como el “gatillo” que detona la conducta cuando el objetivo (reforzador) es asequible. Pero hay varios tipos de situaciones antecedentes y cada una tendrá un efecto distinto sobre la respuesta: - Un primer tipo es la situación ambiental en general, que es el contexto presente en el momento de emitir la respuesta. En este caso, la respuesta es relativamente independiente de la situación. - Un segundo tipo es la situación de estímulo discriminativo (ED), que es aquella en que la respuesta es reforzada en presencia de dicho estímulo (y no aparece refuerzo cuando la respuesta no ocurre en presencia de éste). Es por tanto, un estímulo señal más específico que la situación ambiental y similar al EC+ del condicionamiento clásico, pero con la diferencia de que en este caso no predice al EI sino al par R-C (respuesta-consecuencia). - Y el tercer tipo sería el estímulo "delta" (E ), que es aquel en cuya presencia nunca es reforzada la respuesta. El E será señal para el sujeto de que no va a aparecer un evento significativo tras su respuesta (y, por tanto, tiende a no hacerla). Como vemos, es similar al EC- del condicionamiento clásico y su resultado más frecuente será la extinción de la respuesta instrumental. Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 193 Los estímulos discriminativos tienen también gran importancia en contextos aplicados, hasta el punto que el aprendizaje fundamental radica no tanto en la respuesta como en percibir el estímulo discriminativo con la suficiente destreza como para que sirva de señal para la respuesta. Por ejemplo, en el aprendizaje inicial de la lectura, al niño se le pone delante un símbolo gráfico escrito (E D) ante el cual tiene que emitir una respuesta determinada (su pronunciación); si lo logra habrá una consecuencia positiva (elogios por parte del profesor, etc.) y un afianzamiento o automatización de la asociación EDR. Esa respuesta tiene que situarse pues bajo el control del estímulo. ¿Cómo conseguir situar la respuesta bajo el control del estímulo correspondiente? Se trata de conseguir que el niño dé, por ejemplo, la respuesta "E" (sonido) cuando vea el estímulo escrito "E"; para ello las técnicas de discriminación y control de estímulos (véase Tema 5) podrían ayudar considerablemente: primero se empieza con instrucciones verbales o con imitación, etc. Siguiendo el ejemplo y para precisar los conceptos anteriores, la situación ambiental o contexto general en el que se da el estímulo discriminativo podría ser el aula de clase, mientras que un estímulo delta para, por ejemplo, la respuesta de pronunciar el fonema “P” sería el grafismo “B” o cualquier otro distinto al grafismo “P”, el cual es el estímulo discriminativo. Así pues, en el aprendizaje instrumental, no basta sólo con dar respuesta para conseguir algo, sino también dar la respuesta adecuada precisamente en determinada situación. 1.4. Procedimientos y técnicas experimentales para la adquisición de la respuesta instrumental 1.4.1. Medida de la respuesta instrumental Los procedimientos y técnicas conductuales típicos inciden básicamente en lograr una variación significativa en la frecuencia o tasa de la respuesta instrumental. La medida o variable dependiente más utilizada suele ser la tasa de respuesta, es decir, el numero de veces que se repite una respuesta durante un período de tiempo concreto o específico. Hay alguna otra medida como puede ser la latencia de respuesta, que se usa cuando se especifican estímulos antecedentes y sería el tiempo transcurrido desde que el sujeto se introduce en una situación determinada hasta que da la respuesta o, lo que es lo mismo, desde que aparece el ED hasta que da la respuesta. En el contexto experimental, la tasa de respuesta dentro de cámaras operantes tales como la "Caja de Skinner" o la "caja de saltos", se suele medir mediante instrumentos de registro acumulativo, dispositivos bastante automatizados que liberan al experimentador, entre otras, de la tarea de anotar el número de respuestas dadas por el sujeto. El registro acumulativo mide no sólo la tasa de respuesta media después de un tiempo determinado de exposición al ambiente, sino también permite registrar la velocidad de variación de la tasa de respuesta desde el principio del ensayo hasta el final. Como se puede apreciar en la Figura 4, al representar gráficamente la acumulación de respuestas a lo largo del tiempo, permite tener una apreciación visual de dichas tasas. Figura 4: Esquema del registro acumulativo utilizado en los experimentos de condicionamiento instrumental. 194 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 1.4.2. Técnicas de adquisición rápida de la respuesta instrumental En una situación experimental de Caja de Skinner hay que esperar a que el animal emita la respuesta objetivo para que se administre refuerzo y haya por tanto la posibilidad de que se incremente su frecuencia. Esta espera se puede acortar mediante el procedimiento de moldeamiento o aproximaciones sucesivas. a) Moldeamiento o técnica de aproximaciones sucesivas El moldeamiento (shaping) o técnica de aproximaciones sucesivas se define, en palabras de Cruz (1989, p. 164), como "la consecución gradual de una conducta final o comportamiento meta, que no existe en el repertorio de respuestas de un organismo o que se emite con una baja probabilidad". A lo largo de la sesión se va aplicando un refuerzo diferencial y progresivo de las conductas que más se aproximan o se parecen a la respuesta objetivo. La respuesta que es reforzada inicialmente deja de reforzarse cuando el animal realiza una respuesta más próxima al objetivo la cual es reforzada y así sucesivamente. Así, en una situación de caja de Skinner, la conducta objetivo que queremos que aprenda la rata es la de apretar la palanca. Como eso es difícil que ocurra al principio, lo que se hace es reforzar conductas de acercarse a la zona donde está la palanca; una vez que logramos esa conducta, dejaremos de reforzarla si el animal da un paso más y roza la palanca, en cuyo caso reforzaremos sólo esa conducta. Cuando presione con fuerza la palanca (conducta objetivo) sólo reforzaremos esta conducta y no la de mero roce de la palanca. En humanos, según Fernández Castro (1993, p. 208), el moldeamiento se aplica siguiendo cuatro pasos: 1. La especificación clara del objetivo final que se pretende conseguir. Es decir, qué se debe hacer, cuándo y cómo. 2. La determinación del nivel inicial del sujeto o punto de partida. El nivel inicial consiste en la conducta más parecida a la del objetivo final que ya sepa realizar el sujeto. No importa que este nivel inicial esté muy alejado del final, lo importante es que sea una conducta bien adquirida y habitual. 3. El establecimiento de pasos graduales que vayan desde la conducta inicial hasta la conducta final. 4. La aplicación del moldeamiento, mediante el reforzamiento de las aproximaciones sucesivas. Esto consiste en reforzar el paso siguiente al punto en el que se halla el sujeto; cuando éste se ha adquirido, se refuerza solamente el paso siguiente pero no el que ya se ha superado, y así sucesivamente. Fuera del ámbito experimental, esta técnica ha sido muy utilizada para instaurar conductas nuevas. En contextos aplicados la encontramos como técnica de doma y adiestramiento de animales (adiestradores y domadores de circo); en humanos, profesores de educación especial, reeducadores, etc., con el objeto de conseguir diversas conductas nuevas, por ejemplo, nuevas destrezas motrices en contextos deportivos y de educación física, respuestas asertivas en el ámbito de las relaciones sociales, etc. Como técnica experimental de adquisición rápida de operantes presenta dos problemas, según Cruz (1989): 1) Exige la presencia y atención activa del experimentador así como una gran habilidad por su parte para ir variando el criterio de refuerzo. 2) Además puede ser un método lento. En cualquier caso, resulta una técnica muy frecuentemente utilizada. Nótese el ejemplo de un chico con una conducta social bastante inhibida y que sin embargo pretendemos estimular; si esta inhibición conductual se debe al escaso poder reforzante que para este chico tiene el contacto social habrá que establecer reforzadores complementarios y apetecibles para él (el sujeto está dotado de las habilidades sociales necesarias pero no existe suficiente refuerzo para activarlas), pero si la inhibición se debe más bien a una falta de habilidades sociales, éstas deberán ser moldeadas (tomando forma) mediante el reforzamiento de las mejoras progresivas en la habilidad. En este último caso se trata por tanto de construir una respuesta nueva en el repertorio del sujeto. Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 195 b) Automoldeamiento También denominada técnica de seguimiento de señal, es un procedimiento de condicionamiento clásico (véase Tema 3, aptdo. 3.5.3) que puede servir para la adquisición de condicionamiento instrumental. En el contexto de éste último, permite una mayor automatización y estandarización experimental y requiere una respuesta específica ante un estímulo relevante. Recordando lo ya tratado en el Capítulo 3, se trata de un procedimiento experimental elaborado por Brown y Jenkins (1968) aplicado principalmente en palomas. En el procedimiento original, en un dispositivo tipo caja de Skinner se había dispuesto en una pared un disco que el animal podía picotear y que se iluminaba por dentro durante 8 segundos. Al final de los 8 segundos aparecía el refuerzo, consistente en bolitas de comida. El disco permanecía iluminado el tiempo prefijado y el refuerzo aparecía independientemente de que lo picara la paloma. Esta situación se repetía a intervalos regulares y se observaba, tras unos 40 o 50 ensayos, un rápido aumento de la conducta de picotear el disco que se iluminaba. Pero su interés no sólo es metodológico (una técnica para acelerar experimentalmente la adquisición de respuesta) sino también teórico, siendo fuente de discusiones teóricas sobre las distinciones entre condicionamiento clásico e instrumental. En efecto, el automoldeamiento parece una situación de condicionamiento clásico pues la iluminación del disco (EC) va seguida de la aparición de comida (EI). Pero con el entrenamiento se añade rápidamente una situación instrumental de estímulo discriminativo-respuesta-estímulo reforzante (EDR-C). Además, se observó que los animales no podían aprender a inhibir la respuesta de picotear mediante entrenamiento de omisión (no aparición de refuerzo al final del estímulo discriminativo sino en otros momentos) y que la relación se aprendía aunque el disco estuviera situado lo más lejos posible del dispensador de comida. Hay dos tipos de explicaciones a la eficacia del procedimiento: - La respuesta nueva que aparecía era la respuesta natural ante el refuerzo: el picoteo ante la comida. De hecho, el picoteo era distinto según se tratase de bebida o comida. - La contingencia entre el EC (iluminación) y el refuerzo es crítica para que se incremente la respuesta en cuestión. 1.4.3. Métodos de estudio en humanos Las técnicas más frecuentes de estudio del aprendizaje instrumental en humanos han incluido diversas condiciones y tipos de refuerzo. Según Fernández Castro (1993, p. 193), se distinguen dos tipos de estudio: en laboratorio y en contextos naturales. - En laboratorio: Los tipos de respuesta más comunes son motrices, perceptivas y verbales. Los tipos de refuerzo más empleados van desde refuerzos sociales tales como la aprobación o desaprobación (ya utilizado desde Thorndike), pasando por la obtención de algún tipo de conocimiento de resultados, información o feedback (saber que se ha realizado correctamente la tarea) o incluso la obtención de puntos canjeables por dinero u otro beneficio. - En contextos naturales: Se siguen dos pasos: 1º, identificar la respuesta o conducta objeto de estudio. 2º, registrar el número de veces que se da dicha respuesta, los antecedentes o estímulos discriminativos ante los cuales ocurre y los consecuentes (refuerzos, consecuencias punitivas, etc.) de la misma. En definitiva, lo que conocemos como el análisis funcional de la conducta. Estos son los dos primeros pasos de lo que en contextos aplicados se denomina evaluación conductual, los cuales a su vez sirven para proseguir posteriormente el tratamiento de modificación de conducta. 196 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 Otro procedimiento típico en humanos es el de estudios con juicios de contingencia. Por ejemplo, en Shanks y Dickinson (1991), se le presenta al sujeto en pantalla de ordenador una especie de videojuego: un tanque va cruzando la pantalla y el sujeto puede dispararle (R); el tanque puede explosionar (consecuencia) por los disparos del sujeto [p(C/R)] o por causas no relacionadas con la conducta del sujeto (por minas en el suelo) y por tanto p(C/no R). Finalmente se le pide al sujeto que juzgue la efectividad de sus disparos; los resultados son que ajustarán sus juicios según la contingencia real programada por el experimentador. 1.5. Clasificación de tipos de procedimientos Existen varias clasificaciones de procedimientos de condicionamiento instrumental. Todas ellas están basadas en las principales condiciones que hacen posible este aprendizaje y que se refieren a: - Condiciones que afectan a las consecuencias de la respuesta (positivas o apetitivas y negativas o aversivas) - Condiciones de la relación respuesta - consecuencia (contingencia R-C y probabilidad R-C), que puede ser de contingencia positiva (la R produce la consecuencia), negativa (R elimina la consecuencia que se venía teniendo) y no contingencia. - Condiciones antecedentes a la respuesta (presencia o ausencia de estímulos discriminativos). Según esto, hemos seleccionado tres clasificaciones: 1.5.1. Según el tipo de consecuencia y según la contingencia R - consecuencia A partir de esquemas de clasificación como los de Tarpy (1981), hemos elaborado una clasificación que desarrolla detalladamente el tipo de consecuencia y el tipo de relación R – C en el condicionamiento instrumental (véase la Tabla 2). Tabla 2: Tipos de condicionamiento instrumental en función de los tipos de consecuencias y del tipo de relación R-C. SI positiva Relación de contingencia R-C Sí negativa NO CONSECUENCIAS / resultados P O S I T I V A S (apetitivas) N E G A T I V A S (aversivas) Resultados de adquIsIcIón de R Resultados de extIncIón de R Por aplicación Por cese de Por Por cese (ref. positivo) estimulación aplicación del reforzador aversiva (ref. negativo) Condicionamiento Castigo (castigo positivo) de recompensa Escape Entrenamiento Evitación de omisión (castigo negativo) Indefensión aprendida Según esta clasificación, los tipos resultantes son los siguientes: Cuando a la respuesta le sigue la consecuencia, tenemos el condicionamiento de recompensa, el escape, la evitación y el castigo: - En el condicionamiento de recompensa, tras la respuesta aparece un evento apetitivo (refuerzo) y por tanto aumenta la tasa de respuesta (se estudia más adelante). - En el escape, si actuamos desaparece algo desagradable. En la evitación actuamos antes de que aprezca lo desagradable. La evitación implica una primera fase en que un ED es emparejado inicialmente con la estimulación aversiva y una segunda en que sólo se presenta el ED; en cualquier caso, la Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 197 respuesta impide la exposición al ED aversivo en la evitación, y a los estímulos aversivos en el escape, lo cual supone una consecuencia positiva por cese de estimulación aversiva. En esta situación se trata de un refuerzo negativo: refuerzo por hacer aumentar la tasa de respuesta y negativo porque supone un cese de estimulación, en este caso aversiva. Es decir, el refuerzo, por definición, siempre hace aumentar la probabilidad de la conducta y supone una consecuencia apetitiva; el ser positivo (como en la recompensa) o negativo (como en la evitación y el escape) se refiere a que se produzca por aplicación (por ejemplo, dar dinero) o por supresión (por ejemplo, levantar un arresto), respectivamente. - Sin embargo, en el castigo se aplica estimulación aversiva tras la respuesta y con ello disminuye su tasa. Hay dos tipos de castigo según el tipo de consecuencia negativa: castigo por aplicación (si es estimulación aversiva directa, como en el caso del castigo físico) y castigo negativo o por supresión, también entrenamiento de omisión (si la consecuencia es la supresión de un reforzador, como dejarnos sin postre); en este caso puede aparecer el refuerzo en otros momentos o con otras respuestas, pero nunca tras R; este procedimiento se denomina reforzamiento diferencial de otra conducta (RDO). Cuando la consecuencia no es contingente, es decir, cuando el hecho motivacionalmente significativo ocurre pero sin contigüidad con R, tenemos la indefensión aprendida, en la cual la estimulación aversiva independientemente de su conducta. Nótese que en este caso sí hablamos de una auténtica ausencia de contingencia entre la respuesta y su consecuencia, mientras que en el entrenamiento de omisión se trata en realidad de una relación negativa entre la respuesta y la consecuencia, más que de una no-relación. 1.5.2. Según la probabilidad R-C o intermitencia del refuerzo Otro criterio de clasificación, dentro de los casos de condicionamiento en que existe una relación de contingencia R-C, hace referencia a la probabilidad de aparición de consecuencia dentro de la fase de adquisición y en los sucesivos ensayos. Cuando tenemos en cuenta tan sólo consecuencias positivas, surgen dos grandes tipos, a saber: - El condicionamiento de recompensa continuo (se refuerza cada respuesta ), y - el condicionamiento de recompensa parcial, en el que se intercalan ensayos R - no C y ensayos R - C, es decir, se refuerzan sólo algunas respuestas, con arreglo a algún criterio o programa de refuerzo. Según el programa de refuerzo que se establezca, la variación en la tasa de respuestas será diferente, tal y como veremos en el próximo capítulo. También puede darse diferente probabilidad R-C cuando las consecuencias son negativas. Es decir, se pueden aplicar programas de castigo cuando el estímulo aversivo contingente a la respuesta no se aplique siempre tras ella sino sólo en algunas ocasiones y según cada programa. 1.5.3. Según la estimulación antecedente Dadas unas consecuencias positivas tras la respuesta, en la adquisición hay dos grandes tipos de condiciones antecedentes: - Estímulos señal o discriminativos: Suponen una asociación del tipo E - (R-C) y un entrenamiento en discriminación o generalización hasta que el estímulo "controle" o active la respuesta. Se trata pues de aprender a realizar acciones precisas y que exijan lo que desde el ámbito aplicado se denomina "coordinación sensorio-motriz", es decir, respuestas específicas tras señales específicas condicionadas. A esta situación la podríamos llamar de condicionamiento instrumental señalizado y se explica más adelante en esta obra. - Contexto: Aquí no son precisas señales específicas sino sólo un contexto determinado para que se produzca la asociación R-C. 198 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 1.6. Comparacion entre condicionamiento clasico e instrumental Hay bastantes autores que han investigado la posible relación entre estos dos tipos de aprendizaje e incluso se han realizado experimentos con procedimientos combinados de CC y CI. En los años 40-50 hubo una gran polémica en el ámbito teórico entre los que defendían que cada tipo de condicionamiento implicaba un proceso diferente de aprendizaje -por ejemplo, la teoría biproceso del aprendizaje (Mowrer y otros)- y los que decían que había un proceso subyacente a los dos tipos de condicionamiento. La conclusión final fue que cada procedimiento de condicionamiento pone en juego distintos mecanismos de aprendizaje y de ellos algunos son comunes a los dos. Gray (1988; trad. cast. de 1993, p. 159) precisa un poco más esta conclusión: La relación entre ambos tipos de condicionamiento “es un problema central y difícil de la teoría del aprendizaje. No obstante, se está de acuerdo en que, en principio, ninguno de estos dos procesos de aprendizaje puede ser reducido al otro, aunque ambos pueden reflejar algún mecanismo más general de aprendizaje, y que en parte la conducta está determinada por los dos”. En concreto, en el CC se relacionan eventos ambientales o estímulos y con ello, el sujeto aprende a relacionar unos estímulos con otros, de modo que unos hagan de señal de otros activando expectativas de aparición de otros estímulos; por ello el CC parece estar más relacionado con los procesos perceptivos. También, la respuesta que se produce en el CC no es voluntaria sino refleja. En el CI lo que se aprende es una relación, no entre eventos sino entre la propia acción y sus consecuencias en un contexto dado. El sujeto tiene que hacer algo para obtener una consecuencia, por tanto, es necesaria la existencia de los procesos perceptivos, pero en el CI van a ser más importantes los procesos de respuesta, de recuperación o actuación. En cualquier caso, habrá procesos o mecanismos comunes porque inevitablemente serán necesarios los procesos de memoria y de representación del conocimiento (en el sujeto se almacena la información sobre la correlación entre eventos o entre acciones y consecuencias), etc. Las diferencias no son tan tajantes como pretendían los neoconductistas; incluso hay cierta similitud en cuanto a los procedimientos citados en el CC y en el CI. Tarpy (1981) efectúa una nueva clasificación de tipos de condicionamiento en la que relaciona tipos de CC con tipos de CI. Dicha clasificación aparece en la Figura 5. Según esta Figura, los condicionamientos se pueden distribuir en función de dos dimensiones: - la dimensión vertical excitatorio-inhibitorio, sitúa los componentes excitatorios en la parte superior y los componentes inhibitorios en la parte inferior y - en el eje horizontal apetitivo-aversivo, se sitúan a la izquierda los componentes apetitivos y a la derecha los aversivos o de evitación. Hay un tercer elemento atribuible a los tipos de condicionamiento: el estado emocional y afectivo (emoción condicionada) resultante de la aplicación de los cuatro tipos de condicionamiento. 1.7. Procesos y cambios cognitivos Al igual que en el condicionamiento clásico, también en este caso los procesos y cambios cognitivos implicados en situaciones de condicionamiento instrumental hacen referencia a mecanismos o procesos de formación de asociaciones entre eventos y contenidos asociativos. 1.7.1. Mecanismos o procesos relacionadores de eventos Lo más estudiado en el condicionamiento de recompensa, igual que en el CC, son las condiciones y los procesos y resultados externos. Cuando se aprende en estas condiciones con un entrenamiento determinado se produce un cambio no sólo en la ejecución, sino también en el ámbito cognitivo y en dos sentidos: Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 199 - Se activan mecanismos capaces de asociar en el nivel interno los eventos de esta situación de condicionamiento; y - Se forman interiormente unos nuevos contenidos del aprendizaje en forma de representaciones mentales de algo nuevo, que no son otra cosa que representaciones asociativas de acciones y eventos relacionados. EXCITATORIO CC: Condicionamiento excitatorio apetitivo CC: Condicionamiento excitatorio aversivo CI: Condicionamiento de recompensa CI: Castigo Emoción de:expectativa positiva Emoción de: MIEDO EXPECTATIVA POSITIVA AVERSIVO APETITIVO O DE APROXIMACIÓN Emoción de: Emoción de: FRUSTRACIÓN ALIVIO O RELAJACIÓN CC: Condicionamiento inhibitorio apetitivo CI: Entrenamiento de omisión CC: Condicionamiento inhibitorio aversivo CI: Evitación y escape INHIBITORIO Figura 5: Tipos de condicionamiento y emoción correspondiente según ejes excitatorio-inhibitorio y apetitivo-aversivo. El primer mecanismo, al igual que en el CC, es de tipo fisiológico. En el nivel cerebral, las sensaciones provenientes de la acción realizada y de la consecuencia obtenida son asociadas por mecanismos como los de excitación neuronal, por ejemplo. Otros mecanismos también son similares a los explicados en el CC: unos son capaces de formar expectativas de relación entre la acción y la consecuencia (en la línea de Tarpy) y también hay otros mecanismos de relación causal entre eventos (en la línea de Dickinson). Los primeros mecanismos son fundamentalmente de memoria y hacen que la representación interna de la acción se relacione con la representación interna de la consecuencia (o sea, del refuerzo). Para los segundos se activa una representación mental con dos elementos: acción y refuerzo, la acción es la causa del refuerzo. 1.7.2. Contenido del aprendizaje: Representaciones asociativas En el nivel externo, mediante el condicionamiento de recompensa se consigue un aumento en la tasa de respuestas. En el nivel interno o cognitivo decimos que se producen representaciones asociativas. De un modo similar al CC, en el condicionamiento instrumental se postulan parecidas representaciones. Citaremos dos teorías complementarias: La de representaciones declarativas y procedimentales de Dickinson (1980) y la de estructura asociativa jerárquica de Rescorla (1991). 200 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 a) Representaciones asociativas declarativas y procedimentales En concreto, Dickinson explica el contenido de este tipo de aprendizaje de modo similar al CC, o sea mediante representaciones declarativas y procedimentales: - En la representación declarativa el conocimiento se representa de forma equivalente a un enunciado o proposición que describe una relación entre hechos ("cuando aparece la palanca la pulso para obtener comida", en situación de caja de Skinner). La representación declarativa es una información que no necesariamente ha de utilizarse; es, en general, la relación abstracta entre acción y consecuencia. Naturalmente, para que dicha representación sea efectiva y lleve a la acción son necesarios otros mecanismos internos que traduzcan ese conocimiento o información en acción, tales como los mecanismos efectores del sistema motor. Lo fundamental de la representación declarativa es que consiste en algo más general: Como es una información, va muy ligada a acciones concretas y pueden además integrarse otros elementos a la relación esencial entre la acción y la consecuencia, como pueden ser los estímulos discriminativos. - Sin embargo, la representación procedimental se utiliza fundamentalmente para la acción y refleja directamente el modo en que el conocimiento o información adquirida durante el entrenamiento de condicionamiento de recompensa sirve para el control de la conducta del sujeto ("aprieto la palanca"). Dadas estas dos posibles representaciones, en el condicionamiento instrumental está claro que la representación más usual o predominante es la de tipo procedimental, en el sentido de activar programas motores para la realización de la respuesta. Pero también se da una representación de tipo declarativo. Dickinson ha establecido un modelo en el que se puede expresar la interacción de estos dos tipos de representaciones por medio de un diagrama de flujo, tal y como se observa en Figura 6. Dickinson distingue entre lo que es la percepción del lugar donde debe darse la respuesta y la acción misma o respuesta del sujeto. La percepción del lugar donde debe darse la respuesta es algo parecido a los estímulos antecedentes. Estos llegan al registro sensorial y penetran en la reserva de memoria y una vez que se ha familiarizado (después del entrenamiento) se asocian unos con otros así como con otros eventos tales como el refuerzo o la respuesta, formando redes o nexos asociativos. El sujeto tiene representado el lugar donde va a dar la respuesta (palanca) y, por otro lado, tiene representado el refuerzo y también la respuesta. Los nexos asociativos se establecen entre: - la respuesta y la consecuencia (el refuerzo), - el estímulo discriminativo y el refuerzo (nexo de tipo E-E) y, también, - entre el estímulo discriminativo (visión de la palanca) y la respuesta (apretar la palanca) (nexo de tipo E-R). Según Dickinson, el nexo asociativo E-R es de tipo procedimental, porque implica un procedimiento y está ligado a la acción pues llega al sistema motor, a partir del cual surgirá la respuesta. Reserva de memoria Registro sensorial EC (tecla) Sistema motor EC Nexo E-E Nexo E-R Output conductual (picoteo de la EI (comida) R EI tecla) picoteo Figura 6: Modelo teórico de Dickinson sobre las representaciones asociativas en el condicionamiento (adaptado de Dickinson, 1980; trad. 1984, p. 154). Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 201 b) Estructura asociativa jerárquica Estos nexos asociativos han sido matizados y ampliados recientemente por Rescorla (1991). Según este autor, en el aprendizaje instrumental lo que se forman son estructuras asociativas jerárquicas. No es correcto pensar que dicho aprendizaje sea un ensamblaje de asociaciones binarias de cualquiera de las tres posibles: E-R, R-C o E-C (E = estímulo antecedente, R = respuesta, C = consecuencia). No es simplemente que R produce C o que E señala esa C, sino más bien que E señala la relación entre R y C. Como dice Rescorla (1991, p. 6), el organismo representa la situación en la forma de una estructura asociativa jerárquica de modo que E termina asociándose con la relación R-C. Para ello, la adquisición de estas asociaciones necesita dos fases: Primero, el organismo aprende la relación R-C y, una vez aprendida, introduce una nueva asociación con E. Es por tanto una estructura asociativa E - (R-C). La Figura 7 contrapone estas dos concepciones: la incompleta de asociaciones binarias y la más adecuada de asociación jerárquica. Según el enfoque conductista tradicional, la asociación principal que se hace en el aprendizaje instrumental es del tipo E-R. La consecuencia (C) tenía como misión el servir de "reforzador", ayudar a forjar esa asociación. Pero eso implica una asociación binaria simple E-R cuyo desarrollo depende también de la presencia de C. La estructura jerárquica de esta tríada de elementos es mucho más precisa e incluso sugiere una idea interesante que el mismo Rescorla se encarga de mencionar: la relación R-C puede entenderse como un asociado pavloviano de E. Es decir, el condicionamiento instrumental parecería así un tipo de condicionamiento clásico: El EC permanece igual (el hecho de que aquí lo llamemos "estímulo discriminativo", ED, no implica diferencias conceptuales) y el EI, o sea el evento significativo (C en el aprendizaje instrumental), ahora va ligado a la acción, co-ocurre con ella. E R R E C (a) Asociaciones binarias C (b) Asociaciones jerárquicas Figura 7: Estructuras asociativas del aprendizaje instrumental: (a) binarias, (b) jerárquica según Rescorla (1991). 202 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 2. CONDICIONES PARA LA ADQUISICION EN EL CONDICIONAMIENTO DE RECOMPENSA Se pueden mencionar dos grandes condiciones generales del condicionamiento instrumental y tres específicas del condicionamiento de recompensa: el refuerzo, la situación motivacional y el tipo de respuesta. 2.1. Condiciones generales para la adquisicion En este apartado vamos a analizar las condiciones para la adquisición de la respuesta y sus correspondientes efectos o resultados externos. Al igual que en el CC, los tipos de resultados externos son similares (adquisición, extinción, generalización y discriminación). Trataremos aquí las condiciones de adquisición y en el siguiente capítulo las de extinción. 2.1.1. Probabilidad de emparejamiento R-C: Correlación acción-consecuencia Para conseguir un aprendizaje instrumental o, lo que es lo mismo, un cambio de conducta debido a las consecuencias de la propia conducta, es fundamental la correlación acción-consecuencia. Esta es similar a la correlación estímulo-consecuencia del CC, pero lo importante es no sólo que la respuesta vaya siempre seguida de una consecuencia favorable, sino que ese emparejamiento entre acción y consecuencia sea más probable o se dé más veces que dichos eventos por separado. Tenemos aquí unos resultados similares a los del CC. El emparejamiento continuo o reforzamiento produce una tasa de adquisición más rápida que el parcial. La adquisición es posible si la probabilidad de ensayos emparejados (respuesta - consecuencia positiva, R-C+) es mayor que la de no emparejados: p (R/C+) > p (R / no C+) Esto también ocurre si se emplea refuerzo negativo como consecuencia, tal y como se observa en los paradigmas de escape y evitación (véase Tema 5). Una diferencia con el condicionamiento clásico se da en la relación inversa, es decir cuando p (R/C+) < p (R / no C+) El resultado debería ser la extinción, pero ello sólo ocurre con p (R/C+) = 0, es decir, si tras R nunca aparece el refuerzo puesto que si aparece alguna vez en el entrenamiento, aunque sea menor el número de veces que R va seguida de refuerzo que el de R no seguida del mismo, aún así se mantendrá la conducta (véase el apartado sobre programas de refuerzo en el siguiente capítulo). 2.1.2. Contigüidad temporal entre acción y consecuencia: La conducta supersticiosa Aunque la contingencia es lo más importante, la contigüidad también tiene relevancia, hasta el punto que en determinadas circunstancias cualquier acción fortuita, por extraña que parezca, puede condicionarse si va seguida de una consecuencia muy favorable para el individuo. Tal es el caso de lo que denominamos "conducta supersticiosa". Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 203 En 1948 Skinner realizó un experimento con palomas, a las cuales se les sometía a un programa de refuerzo tipo IF (programa de Intervalo Fijo: una vez situadas las palomas en la caja, los refuerzos aparecían a intervalos fijos de 15 segundos). A lo largo del entrenamiento se observó que la conducta de los animales con el paso del tiempo cada vez se hacía más específica y cada animal emitía progresivamente un solo tipo de respuesta (este tipo de conducta ocurría en 6 de las 8 palomas que utilizó para el experimento). Se trataba de conductas raras del tipo de dar vueltas en torno a la caja en sentido inverso al de las agujas del reloj, meter la cabeza en un ángulo concreto de la cámara experimental, balancear la cabeza, etc. Se observó que dichas conductas raras eran más frecuentes conforme se acercaba el momento del intervalo en el que aparecía el refuerzo. A esta posibilidad de incrementar la tasa de determinadas respuestas es a lo que Skinner denominó conducta supersticiosa, ya que eran respuestas que aparecían de forma simultánea o anterior a las primeras apariciones de refuerzo. Con ello, Skinner quería demostrar que se podía incrementar cualquier conducta que fuese contingente o dependiente de la recompensa. Se puede denominar conducta supersticiosa por analogía a lo que es la superstición en el ser humano: si hacemos algo que tenga consecuencias muy favorables estableceremos una especie de relación “causal” entre esa respuesta y la consecuencia, una expectativa de relación causal que no existe en la realidad (o al menos no está científicamente demostrada). Esta conducta supersticiosa surge tanto ante los refuerzos positivos como ante los refuerzos negativos (conducta de evitación) y, a diferencia de lo que ocurre en animales, se puede adquirir sin experiencia directa de refuerzo "accidental" (basta con observarlo en otros). No obstante, análisis e investigaciones posteriores (por ejemplo, Staddon y Simmelhag, 1971) sugieren que la conducta se hace frecuente no por refuerzo "accidental" sino por la facilidad para predecir la aparición del refuerzo (ello ocurría cada 15 segundos en el experimento de Skinner). Sin duda, se trata de un fenómeno complejo que tal vez se mantenga por otros factores tales como las señales del entorno en presencia de las cuales ocurre la "conducta" reforzada. Así, por ejemplo, los momentos previos a la corrida de toros hacen que algún torero se rodee de imágenes de santos y vírgenes y realice un ritual sistemático de rezos y gestos; esas conductas no "causan" una buena corrida (o evitan una cornada) pero la expectativa esta activa y funciona y mantiene dicha conducta supersticiosa. Probablemente hubo un condicionamiento previo directo (quizás de un solo ensayo): una vez que hizo el ritual hizo una gran "faena" y tuvo mucho éxito (o una vez que se le olvidó tuvo una cornada o una “mala tarde”). Ésta sería un tipo de superstición que Herrnstein (1966) denominó idiosincrásica o por experiencia personal; también hay otras que denominó “compartidas por la comunidad” (mala suerte viernes y 13, etc.) que se adquieren por aprendizaje observacional. Uno de los problemas de la conducta supersticiosa es que las expectativas de resultado que el sujeto mantiene sobre las mismas tienden a actuar como profecías autoconfirmadoras, por lo que resulta difícil distinguir las relaciones causales objetivas conducta - ambiente y las relaciones meramente subjetivas pero reificadas por el propio sujeto (por ejemplo, si creo que jugar un partido de fútbol con cierta camiseta me dará buena suerte, es posible que la confianza y tranquilidad que me inspira me permitan ciertamente una mejor ejecución, reforzando así la relación supersticiosa). En definitiva, las creencias y expectativas que se generan con el aprendizaje de una conducta supersticiosa constituyen filtros en el procesamiento de la información que tienden a reforzar la conducta. Ello queda también reflejado en la historia de aquel hombre que se encontraba en la calle dando palmadas al aire afanosamente y en todas direcciones, cuando una persona que lo miraba extrañada le pregunta: - “Señor, ¿le importa decirme qué está haciendo?” - “Estoy espantando elefantes” - “Pero, si aquí no hay ningún elefante” - “¡Y pues!, ¿lo ve usted?”. La historia refleja una situación de evitación de tipo supersticioso de evidente dificultad de extinción, muy similar a lo que ocurre en cualquier tipo de fobia. En el Tema 5 nos extenderemos más ampliamente en este tipo de procesos referentes específicamente a la evitación y los miedos. 204 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 2.2. El refuerzo Que aparezca el refuerzo tras la respuesta, y por tanto que el refuerzo sea consecuencia positiva de la respuesta, es una de las condiciones fundamentales y más estudiadas del condicionamiento de recompensa. En la concepción clásica del condicionamiento instrumental todo giraba en torno al refuerzo (su aparición dependiente de la respuesta) pero recordemos que el conductismo sólo tenía en cuenta el resultado externo o el cambio de conducta que producía el refuerzo, y para ello bastaba con estudiar las condiciones que favorecen ese cambio de conducta. Dentro de este apartado vamos a considerar las siguientes puntos: - Definición, tipos de refuerzo y teorías en torno a su influencia en el condicionamiento. - Efectos del refuerzo según su tipo, intensidad, demora y contraste de intensidad y demora. - El efecto de emparejar estímulos con el refuerzo (refuerzos secundarios o condicionados). 2.2.1. Definición, tipos de refuerzo y teorías en torno a su influencia en el condicionamiento a) Definición del refuerzo El refuerzo puede entenderse, de una manera funcional u operacional, como cualquier evento que presentado tras la respuesta hace aumentar su probabilidad futura de ocurrencia. En una situación típica de caja de Skinner, con la experiencia de recibir refuerzo tras realizar una determinada conducta, el animal tiende en el futuro a repetirla para conseguir el refuerzo (por ejemplo, comida). También podría describirse el refuerzo de forma más explicativa como cualquier evento con propiedades motivacionales positivas y que hace aumentar la probabilidad de ocurrencia de una respuesta cuando se presenta contingentemente a ella. El refuerzo sería asimilable al EI del CC o, más específicamente, al EI apetitivo. Según Catania (1992, p. 71), deben darse tres condiciones para que se pueda hablar de refuerzo: - que una respuesta produzca consecuencias, - que la respuesta ocurra más a menudo que cuando no produce dichas consecuencias, y - que el incremento en la respuesta ocurra debido a que la respuesta tenga dichas consecuencias. Es importante recordar aquí que, de acuerdo con el enfoque de Skinner, el refuerzo queda definido por su efecto fortalecedor de la conducta, independientemente de su aparente carácter agradable o desagradable para el sujeto desde el punto de vista motivacional - afectivo. Esto es así porque el carácter apetitivo o aversivo de las consecuencias de la conducta puede ser, en muchos casos, más aparente que real y, desde luego, bastante ambiguo y a menudo difícil de detectar en la práctica. Pongamos algunos ejemplos: La conducta de fumar tiene importantes consecuencias aversivas a medio y largo plazo, pero las consecuencias agradables más inmediatas que algunas personas pueden hallar (ayudar a relajarse, concentrarse o relacionarse) mantienen la conducta de fumar, incluso cuando el sujeto ya se está enfrentando palpablemente a sus consecuencias aversivas. En otro caso, una persona puede mostrar frecuentes conductas de enfado porque, aunque eso le proporciona consecuencias desagradables (rechazo, pérdida o deterioro de relaciones, disputas) también consigue con frecuencia cambios a su favor en las demás personas (cesiones o concesiones), además de una inmediata descarga o relajamiento emocional, aunque se siga un poco más tarde de un arrepentimiento y autoculpabilización. En definitiva, con mucha frecuencia el comportamiento tiene consecuencias variadas y a menudo conflictivas y, en menos ocasiones, estas consecuencias son unilateralmente "buenas o malas" para el sujeto. Ante tal situación, la elección de la conducta se vuelve un asunto complejo para el que, entre otras cosas, resultan decisivas las habilidades cognitivas de "conexión - desconexión" con las consecuencias positivas vs. negativas e inmediatas vs. demoradas de cada opción de conducta disponible; es- Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 205 tas consideraciones sobre aspectos cognitivos, sin embargo, si bien son fundamentales en la psicología actual para la comprensión del comportamiento, quedan un tanto alejadas de nuestras pretensiones en este lugar para la comprensión de los mecanismos del refuerzo según la tradición conductista y de la psicología experimental. Quede simplemente ahora de manifiesto la importancia de una definición operacional del refuerzo, como fortalecedor de la conducta que lo produce, independientemente de las confusas consideraciones apriorísticas sobre su significado motivacional - afectivo De todas maneras, siguiendo a Pelechano (1980, p. 198) y también a Catania (1992, p. 71), el concepto de "refuerzo" puede aparecer con distintos nombres y con significados diferenciados: 1ª) Como reforzamiento (del inglés reinforcement), se trata de un sustantivo que hace referencia a un proceso y a una operación: - Como proceso se trataría de la cadena de actos por los que se fortalece la respuesta, es decir, toda la secuencia de hechos que transcurren desde que el sujeto emite la respuesta y tras ella aparece el estímulo reforzante, con el consiguiente aumento en la probabilidad de ocurrencia de la respuesta. - Como operación, el reforzamiento consiste en proporcionar las "consecuencias" tras la ocurrencia de la respuesta. 2ª) El estado en que queda el organismo al aplicarle el refuerzo, es decir, las consecuencias de la aplicación del refuerzo al organismo. En este sentido se dice, por ejemplo, que el organismo "ha quedado reforzado" por emitir la respuesta. 3ª) Lo que fortalece la respuesta, o sea, el evento ambiental que se presenta tras la respuesta. Esto es lo que propiamente se llama refuerzo (un sustantivo que hace referencia a un tipo de estímulo) o estímulo reforzante (un adjetivo como propiedad de un estímulo de esas características). En inglés, se trata de reinforcer, o refuerzo, uno de cuyos tipos puede ser la "recompensa" (reward) o premio. b) Tipos de refuerzo Se han analizado varios tipos de refuerzo tanto en investigación básica como en su aplicación clínica. Se han propuesto varias clasificaciones: 1) Refuerzo positivo y negativo. El refuerzo positivo es equiparable al EI apetitivo, sin embargo, no es idéntico a la recompensa; es todo evento que hace aumentar la probabilidad de ocurrencia de la respuesta y puede ser una actividad, un refuerzo social, presentación de elogios, comida, sonrisas, objetos agradables, etc. El refuerzo negativo es la desaparición de un estímulo aversivo con la respuesta o la ausencia de estimulación aversiva tras ella (supresión de ruido, dolor, olores molestos, objetos desagradables, etc.). 2) Refuerzo primario y secundario. Los refuerzos primarios son aquellos que poseen valor reforzante por determinación biológica: satisfacen una necesidad o producen una reducción del impulso (comida, aire, etc). Los refuerzos secundarios o condicionados son eventos inicialmente neutros (en el sentido de no producir cambios en la respuesta) y adquieren valor reforzante por asociación o emparejamiento con refuerzos primarios: R Refuerzo secundario R Refuerzo secundario Refuerzo primario Esto da lugar a: Por ejemplo, la madre que tras realizar su hijo los deberes le dice “muy bien”, seguido de la entrega de una chocolatina; esas palabras adquieren así un significado positivo, reforzante, en esas y en otras situaciones. 206 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 3) Refuerzos de estímulo y de respuesta. No sólo hay refuerzos estimulares: también hay respuestas que actúan con la funcionalidad del refuerzo. La respuesta refuerzo consiste en realizar actividades agradables, interesantes o positivas después de la respuesta que interesa que el sujeto aprenda. David Premack recogió y sistematizó esta idea (Premack, 1965), conociéndose más tarde como el Principio de Premack (muy utilizado en modificación de conducta), el cual establece que las actividades que realiza con mucha probabilidad un sujeto, si son contingentes a actividades menos probables harán que aumente la probabilidad de ocurrencia de estas últimas. Por ejemplo, en un niño es muy probable la actividad de jugar o ver la televisión, y “menos probable” la actividad de estudiar o realizar los deberes; si después de realizar los deberes se le permite jugar o ver TV, esta última actividad reforzará a la primera. En definitiva, la existencia de respuestas o actividades intrínsecamente gratificantes permite que puedan ser estratégicamente conectadas de forma consecuente con otras respuestas no tan gratificantes per se para el sujeto y que queremos aparezcan con mayor frecuencia. Esta última conducta se convierte en una condición inexcusable para poder poner en marcha la conducta reforzante. Nótese la importante diferencia estratégica y motivacional entre un planteamiento basado en el castigo del tipo "si no haces los deberes no sales en toda la tarde", y un planteamiento basado en el refuerzo tipo respuesta del tipo "después de hacer los deberes podrás salir a jugar". 4) Refuerzos exteriores e intraorgánicos. Los exteriores son refuerzos, ya sean estímulos o respuestas, y son eventos externos al organismo; y los intraorgánicos son los que se aplican directamente a estructuras biológicas (aplicación de electrodos a centros cerebrales de placer, etc.). 5) Refuerzos extrínsecos e intrínsecos. Aunque ésta no es una distinción habitual en el estudio de los condicionamientos, consideramos que supone una expansión útil y lógica de los conceptos conductistas al ámbito de lo cognitivo. Refuerzos extrínsecos serían todos los que hasta ahora hemos considerado; de hecho, los únicos válidos desde el conductismo tradicional por su carácter medible y operativo. Los refuerzos intrínsecos son aquellos que el sujeto se proporciona a sí mismo en función de su personal modelo de creencias y valores, en términos de sentimientos de orgullo, competencia, valía, etc.; serían la contrapartida de los castigos intrínsecos (sentimientos de culpa e inadecuación personal). Podríamos decir que toda acción que el sujeto realiza habitualmente obtiene algún tipo de reforzamiento, ya sea extrínseco y/o intrínseco, y por tanto, está orientada hacia la satisfacción de algún tipo de necesidad personal. Los refuerzos intrínsecos están más conectados con la satisfacción de necesidades superiores de autoestima y autorrealización. El aprendizaje determina qué tipo de acciones se conectarán con esos sentimientos y necesidades superiores y, por tanto, qué acciones generarán consecuentemente un refuerzo intrínseco. Así, por ejemplo, más allá de los refuerzos extrínsecos, el modelo de creencias y valores aprendido por una persona puede hacer que su esfuerzo por ayudar a las personas necesitadas genere un poderoso refuerzo intrínseco en términos de sentimientos de congruencia y autorrealización personal, mientras que la renuncia a esa ayuda puede generar sentimientos intensos de culpa. El aprendizaje ha hecho que, en la búsqueda de su satisfacción personal, esta persona se oriente decididamente a ayudar a otros. La distinción entre refuerzos extrínsecos e intrínsecos es lógicamente privativa de los seres humanos y sus peculiaridades cognitivas y emocionales, por lo que en el contexto de este manual tampoco ahondaremos ni polemizaremos más con tal distinción. 6) Hay otras clasificaciones pero quizás la más práctica es la propuesta por Sulzer-Azaroff y Mayer (1977), referente a refuerzos utilizados en modificación de conducta. Distinguen entre: - reforzadores comestibles, - reforzadores tangibles (objetos en sí mismos gratificantes para el sujeto: juguetes, revistas, dinero, etc), - reforzadores cambiables (fichas, etc), - reforzadores de actividad (utilización del principio de Premack), - reforzadores sociales (alabanzas, elogios, contingencias reforzadoras de los compañeros, etc). Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 207 c) Por qué influye el refuerzo en el condicionamiento instrumental (teorías explicativas) Como se aprecia en el Cuadro 2, hay muchísimas teorías al respecto. Una primera clasificación incluye una distinción entre dos aspectos: - teorías del aprendizaje que consideran al refuerzo como factor irrelevante o que al menos hay otros factores más importantes para lograr la adquisición, y - teorías que consideran al refuerzo como factor influyente en el aprendizaje. Dentro del primer grupo habría que citar: - las teorías de la contigüidad (Guthrie, 1935, 1952; Estes, 1969, 1971, 1978), - la teoría de signos de Tolman (1932, 1951, 1959), y - la teoría de las expectativas -primero Bolles (1972) y más recientemente Tarpy (1981). Cuadro 2: Clasificación de las principales teorías sobre el refuerzo. 1. Teorías que consideran irrelevante al refuerzo: - Teoría de la contigüidad (GUTHRIE, ESTES) - Teoría de signos (TOLMAN) - Teoría de las expectativas (BOLLES, TARPY) 2. Teorías del refuerzo como factor principal: 2.1. Teorías de los mecanismos subyacentes del refuerzo A. Teorías de los mecanismos funcionales: * Teorías del refuerzo como estímulo: - T. de los "estímulos satisfactorios" (THORNDIKE) - T. de la "reducción de impulso" (HULL) - T. de la estimulación sensorial (feedback) (BANDURA) * Teorías del refuerzo como respuesta: - T. de las respuestas consumatorias (SHEFFIELD) - T. de las respuestas probables (PREMACK) B. Teorías de los mecanismos fisiológicos (OLDS Y MILNER) 2.2. Teorías descriptivas o funcionales (SKINNER) Por otro lado, están los que consideran que el refuerzo es el factor principal del aprendizaje en general y no sólo del condicionamiento de recompensa, hasta el extremo de que si al realizar una conducta no hay ninguna consecuencia entonces no se aprende. Estas teorías se subdividen, a su vez, en dos grupos: las teorías de los mecanismos subyacentes del refuerzo y las teorías descriptivas o funcionales. - Teorías de los mecanismos subyacentes del refuerzo, que intentan explicar la naturaleza del refuerzo en función de sus mecanismos internos en el sujeto, ya sean mecanismos funcionales o fisiológicos. Cuando estas teorías se han centrado en los mecanismos funcionales del refuerzo, tenemos a su vez dos grupos de teorías: * Teorías del refuerzo como estímulo: La primera teoría de este tipo es la del refuerzo como "estímulo satisfactorio" de Thorndike. La segunda teoría y quizás la más importante en este aspecto durante mucho tiempo fue la teoría de la reducción de impulso de Hull (1943, 1952). También hay que citar como tercera teoría la de estimulación sensorial o feedback (Bandura, 1969; trad. cast. de 1983, p. 229), en la que se considera reforzante la estimulación visual o auditiva resultante de la respuesta. 208 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 * Dentro de las teorías del refuerzo y sus mecanismos funcionales, el segundo grupo sería el de las teorías que consideran al refuerzo como respuesta. Aquí tendríamos en primer lugar, la teoría que considera que lo que refuerza la conducta son las respuestas consumatorias (Sheffield, 1966; Glickman y Schiff, 1967). Y en segundo lugar, la teoría de Premack (1965) según la cual, las respuestas más probables refuerzan a las menos probables. Además de teorías sobre mecanismos funcionales, están las teorías que han tenido en cuenta los mecanismos fisiológicos. Aquí la aportación clásica más relevante ha sido la de Olds y Milner (1954), quienes mediante técnicas de implantación quirúrgica de electrodos en cerebros de ratas, intentaron averiguar la existencia de posibles centros cerebrales responsables de los mecanismos fisiológicos del refuerzo. - Por último, las teorías funcionales o descriptivas, también llamadas "predictivas" (Tarpy y Mayer, 1978), las cuales, basadas en Skinner y demás teóricos del condicionamiento operante, no se interesan por los mecanismos que subyacen al refuerzo sino por su efecto o función sobre la conducta y por tanto su posibilidad de predicción, es decir, que solamente describen lo que ocurre en la situación cuando el sujeto recibe un/os estímulo/s y realiza determinada conducta. Aun sin citar las teorías más recientes, como podemos apreciar el panorama es bastante complejo y sería excesivamente prolijo profundizar en dichas teorías. No obstante, para un análisis detallado se pueden consultar en castellano los manuales de Pelechano (1980), Tarpy (1975), Hulse, Egeth y Deese (1982) o el enfoque actual en el libro de Mackintosh (1983, traducido en 1988) o el de Domjan y Burkhard (1986, trad. 1990); en inglés las monografías de Glaser (1971), Gilbert y Millenson (1972) y Tapp (1969), así como los manuales de Tarpy y Mayer (1978), Hintzman (1978) y Catania (1992). 2.2.2. Condiciones para la efectividad del refuerzo según su tipo, intensidad, demora y contraste de intensidad y demora a) Tipo de refuerzo empleado En la investigación experimental no se ha considerado mucho esta variable pues, generalmente, se han utilizado reforzadores muy potentes, todos útiles para el aprendizaje. Sin embargo, se ha observado que existe un tipo de estímulos también con propiedades reforzadoras, por ejemplo, el reforzamiento sensorial (experimentos en los cuales tras la emisión de la respuesta lo único que se hacía era cambiar la intensidad de la luz, lo cual también permitía reforzar la conducta). Otro tipo de reforzadores son las pautas naturales de refuerzo en algunas especies animales: hay especies muy sensibles a determinados estímulos naturales (en experimentos con ratas, la conducta de apretar la palanca puede ser reforzada simplemente con el olor de la comida, ya que el olfato en las ratas está muy desarrollado). b) Intensidad o magnitud del refuerzo Es una de las variables más estudiadas. Como podemos suponer, a mayor intensidad del reforzador, mejor aprendizaje. El aprendizaje está positivamente relacionado con la cantidad de refuerzo tanto en lo referido a una mayor tasa de adquisición (aumento más rápido en la tasa de respuestas) como en lo que se refiere al nivel asintótico (nivel máximo de ejecución cuando se aplica el refuerzo). Sin embargo, una dosis alta de refuerzo produce saciedad en el sujeto y por tanto puede perder motivación (para evitar este problema son útiles los refuerzos secundarios). Podríamos considerar en tal sentido el ejemplo de la persona que se satura tanto de su comida favorita que llega a perder el interés o incluso a aborrecerla, por un efecto de saciación. Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 209 c) Demora del reforzamiento Cuanto más tarde aparezca el refuerzo tras la respuesta peor ejecución y peor aprendizaje. El sujeto sólo podrá asociar su acción a la consecuencia positiva si ésta aparece inmediatamente después de la acción. Además, se ha visto que es mejor un refuerzo débil pero administrado inmediatamente después de la respuesta que un refuerzo fuerte pero presentado con demora con respecto a dicha respuesta. Por ejemplo, la clásica promesa que hace el padre al hijo de regalarle una moto o un perro si aprueba el curso (imaginemos que se lo promete en octubre, justo 8-9 meses antes de recibirlo) es menos efectiva para la conducta de estudio que pequeñas recompensas cada vez que se le ve estudiando. La demora del refuerzo es similar al intervalo entre el EC y el EI del CC. Si el refuerzo tarda mucho tiempo en aparecer entonces se debilita la asociación entre la respuesta y éste; e incluso la demora puede hacer también, si es muy larga, que se pierda el recuerdo o representación activa de la respuesta que hemos realizado; es decir, si el refuerzo no aparece mientras dura ese recuerdo o representación activa de la respuesta entonces será imposible la asociación entre dichos eventos. Al igual que en el CC, se ha intentado investigar el intervalo óptimo a partir del cual la demora es perjudicial para el aprendizaje. En experimentos con ratas en laberintos se ha visto que sí era posible una demora considerable, debido a que para estos animales no sólo era importante el refuerzo, sino que también eran capaces de relacionar estímulos discriminativos del refuerzo (claves secundarias de olor de la comida, etc.). d) Experiencia previa de recompensa: El efecto de contraste La variación de las magnitudes de recompensa a lo largo del entrenamiento afecta al aprendizaje. La práctica o experiencia previa incluye también el recuerdo del nivel de recompensa y si éste contrasta o se diferencia del nivel actual de recompensa, esto tendrá repercusiones en la ejecución. Así pues, este efecto de contraste estudia cómo afecta la experiencia previa de recompensa en el aprendizaje con diferentes condiciones de recompensa. El contraste se refiere a las variaciones relativamente considerables y sorpresivas que a lo largo del entrenamiento se pueden hacer sobre la magnitud o la demora de recompensa. La investigación empírica que se hizo para descubrir qué ocurría fue la siguiente: Se formaron cuatro grupos de ratas, de tal manera que los primeros grupos (A y B) recibieran un nivel alto de recompensa y los otros dos (C y D) un nivel bajo de recompensa. Los resultados se expresan gráficamente en la Figura 8. A partir del momento t del entrenamiento, se modificó el nivel de recompensa en los grupos A y C intercambiando los niveles de recompensa que recibían ambos grupos; de esta manera el grupo A pasó a recibir un nivel bajo de recompensa y el C un nivel alto de recompensa. Los grupos B y D sirvieron de grupos de control y los grupos A y C fueron los grupos experimentales de variación de la magnitud de recompensa. Los grupos de control (B y D) evolucionaron con el mismo nivel de ejecución anterior al momento t. El grupo C incrementó su ejecución por encima de los niveles de los grupos que recibían mayor nivel de recompensa y luego tendía a tener la misma ejecución que el grupo de control del nivel alto de recompensa (contraste positivo (1)), sucediendo algo similar pero a la inversa, como se observa en el gráfico, en el grupo A (contraste negativo (2)). 210 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 (1) EJECUCIÓN (Por ej., velocidad de carrera) (2) A B D C t TIEMPO Figura 8: Representación gráfica del efecto de contraste según magnitud de recompensa. Para explicar este fenómeno del contraste algunos dicen que lo importante es la motivación: Al reducirse el nivel de recompensa (y de forma brusca), esto tiene un valor aversivo para el sujeto y, por tanto, disminuye paulatinamente la motivación "de incentivo". El contraste positivo lo ha intentado explicar, sobre todo, Tarpy con su Teoría de la Expectativa: El grupo aprende a esperar el nivel de recompensa que estaba recibiendo hasta el momento, pero si se produce un incremento en dicho nivel, paulatinamente se produce un incremento motivacional y emocional y, por tanto, la ejecución se hace muy alta. Con la demora del refuerzo sucedería algo similar al contraste de intensidad. 2.2.3. Efecto de emparejar estímulos con el refuerzo: los refuerzos condicionados o secundarios También es posible el condicionamiento instrumental de recompensa con consecuencias que se hacen significativas por aprendizaje previo, o por alguna equivalencia o relación aprendida con reforzadores naturales. Se trata del refuerzo condicionado o secundario. Siguiendo a Reynolds (1968; trad. 1977, p. 68), algunos estímulos se convierten en refuerzo para una conducta debido a que en la historia previa del organismo han estado de algún modo asociados con algún refuerzo natural (que no necesita ninguna experiencia o aprendizaje previo para que sea efectivo). No es lo mismo un estímulo discriminativo que un refuerzo condicionado o secundario: Ambos comparten el poder adquirido de incrementar la probabilidad de ocurrencia de una respuesta, pero los ED preceden o acompañan a la respuesta y los refuerzos condicionados aparecen tras ella como productos o consecuencias. Se pueden distinguir dos tipos de refuerzos condicionados: positivos y negativos, y tienen el mismo significado que los primarios o naturales positivos o negativos. Como se ha visto antes al mencionar los refuerzos secundarios, la formación o adquisición de los refuerzos secundarios o condicionados se basa, entre otras cosas, en las propiedades discriminativas de los estímulos: un estímulo cuya aparición o eliminación posterior a una respuesta no incrementa su probabilidad de ocurrencia, al asociarse con un refuerzo primario (presentarse próximo a éste), después él sólo tendrá propiedades reforzantes, y ello porque dichos estímulos funcionan como ED para las respuestas posteriores, las cuales están mantenidas por el refuerzo que ocurre en presencia de dichos estímulos. Será pues un proceso gradual. Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 211 Los refuerzos condicionados son asimilables a los estímulos condicionados que en el condicionamiento de segundo orden tenían el poder, gracias a su condicionamiento previo, de condicionar a otros estímulos nuevos. El poder de los refuerzos condicionados reside en que están asociados a los refuerzos primarios (biológicamente significativos) y son intercambiables por ellos. El refuerzo condicionado más universalmente empleado es el dinero, que no posee ningún valor biológico significativo pero que precede a la posesión de muchos refuerzos primarios. La fuerza de un refuerzo condicionado se puede medir en términos de durabilidad y potencia: - La durabilidad es el número de respuestas que un refuerzo condicionado es capaz de seguir reforzando después de que se elimina el refuerzo primario sobre el que está basado. - La potencia es la tasa de respuesta que es capaz de mantener. Los refuerzos condicionados son muy utilizados en la vida cotidiana. En modificación de conducta tienen su expresión más extendida en los refuerzos intercambiables, las fichas, puntos, estrellitas, etc. que gana el sujeto por realizar determinadas conductas y cuya acumulación permitirá la obtención ulterior de refuerzos tangibles o primarios. También la alabanza o elogio puede entenderse como refuerzo condicionado. 2.3. Efecto de la situación motivacional A idénticas magnitudes de refuerzo (o intervalos entre respuesta y refuerzo) se ha observado que el resultado en la ejecución puede variar en función de la situación motivacional del sujeto. El efecto de la situación motivacional se ha estudiado atendiendo a dos conceptos: el impulso y el incentivo. En cuanto al impulso (drive), como vimos en el Capítulo 1, se trata del efecto del estado interno en que se halla el sujeto según su nivel de necesidad biológica (necesidad de comida, bebida, etc.) medido, además, objetivamente. Según distintos niveles de necesidad, el nivel de impulso va a ser diferente. A mayor nivel de necesidad va a corresponder un mayor nivel de impulso y, por tanto, va a haber una mayor motivación o activación que se traduce en una mejor ejecución. Esto explicaría situaciones como que en tiempos de crisis económica puede aumentar el índice de participación de la gente en juegos de azar, porque la necesidad de una rápida ganancia económica es más apremiante. El impulso tiene un efecto energizante de la conducta. Además se ha observado que los hábitos aprendidos bajo una condición de alto impulso son más fuertes (se retienen mejor, son más resistentes a la extinción, etc.) que los aprendidos con un bajo nivel de impulso (en términos de Hull). El incentivo sin embargo no está tan relacionado con la reducción de impulso o necesidad biológica como con las propiedades motivacionales de los objetos o eventos recompensantes. Los refuerzos tienen una propiedad motivacional en el sentido de activar la ejecución. El impulso, en realidad, no es algo aprendido y está basado en necesidades biológicas; sin embargo, el incentivo sí es aprendido, es decir, que un objeto no reforzante de una manera primaria tenga un valor motivacional es por aprendizaje y esto está basado en la historia pasada del sujeto. Con ello concluimos, por tanto, que a mayor nivel de incentivo, también, mejor aprendizaje. 2.4. Tipo de respuesta La tercera condición que mencionábamos al principio era el tipo de respuesta. El condicionamiento será mejor o peor según el tipo de respuesta que emplea el sujeto y que pretendemos que aprenda. Cuatro condiciones o factores se pueden mencionar: 212 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 - Adecuación de la respuesta a la constitución física del sujeto: Si es una respuesta que por su constitución física el sujeto puede realizar, el condicionamiento será mejor que si se trata de respuestas que el sujeto también puede realizar pero con una mayor dificultad. - Adecuación de la respuesta a la preparación biológica de la especie: El condicionamiento también depende de la especie que lo realiza (véase Capítulo 1): hay respuestas para las que una rata está mucho menos capacitada o preparada para realizarlas que otra especie y, por lo tanto, su condicionamiento será peor. - Cantidad de respuestas para el refuerzo: El condicionamiento también depende de la cantidad de respuestas exigidas para la obtención del refuerzo: el sujeto quiere conseguir el máximo de recompensa con el mínimo costo de respuesta. - Esfuerzo de respuestas para el refuerzo: Igual que con la cantidad de respuestas, el esfuerzo que exige cada respuesta para obtener el refuerzo también influye del mismo modo: a menor esfuerzo mejor aprendizaje. 3. CONDICIONES PARA EL MANTENIMIENTO DE LA TASA DE RESPUESTA: PROGRAMAS DE REFUERZO Con el fenómeno de constraste ya hemos podido observar hasta qué punto las variaciones en magnitud o demora del refuerzo afectan al aprendizaje instrumental. Pues bien, cuando se manipulan sistemáticamente las condiciones de refuerzo en sus diversas posibilidades, en particular la contingencia R-C a través de distintos programas o criterios, el efecto en el aprendizaje también es notorio. 3.1. Distribución temporal del refuerzo: Refuerzo continuo vs. refuerzo parcial o intermitente Las pautas de presentación del refuerzo se refieren a su distribución temporal en una situación de entrenamiento o de condicionamiento instrumental. Se pueden distinguir dos grandes tipos de pautas de presentación del refuerzo: - cuando el refuerzo es administrado siempre después de cada respuesta emitida por el sujeto (situación de refuerzo continuo); y - cuando el refuerzo sólo aparece contingentemente a algunas respuestas pero no a todas (situación de refuerzo intermitente o parcial). Es lógico pensar que cuando el refuerzo es continuo, el aprendizaje o la ejecución será mejor que si el refuerzo fuera parcial, porque la correlación entre acción y consecuencia (positiva, en este caso) es menor en situación de refuerzo parcial que en una situación de refuerzo continuo. En términos de Tarpy, es más difícil que se forme una expectativa de acción-consecuencia en una situación de refuerzo parcial pues para el sujeto es más difícil predecir con qué acción se obtendrá la consecuencia favorable. De todas formas, incluso en situación de refuerzo parcial, también se formarán expectativas de acción-consecuencia y también podrá haber correlación entre los eventos y, por tanto, también aprendizaje. El interés del estudio de las pautas de presentación del refuerzo es de tipo práctico. Lo normal en la vida cotidiana no es la situación de refuerzo continuo, sino la de refuerzo parcial. Por realizar una misma tarea unas veces obtendré una consecuencia favorable y otras veces menos; muchas situaciones cotidianas son azarosas e impredecibles, si nos interesa mucho obtener algo a través de determinada acción persistiremos, incluso aunque inicialmente no obtengamos ningún resultado. No siempre que se pone uno a pescar con una caña pica el pez y sin embargo persistimos en ello y somos muy aficionados a esa actividad. Las máquinas tragaperras siempre nos invitan a dar una respuesta (introducir la moneda) pero la mayor parte de las veces que hacemos dicha acción la consecuencia deseada (el pre- Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 213 mio) no aparece y no por ello se hace menos frecuente ese entretenimiento (incluso en algunos es patológicamente frecuente). Se han estudiado distintas condiciones de refuerzo parcial. Las dos más importantes son la variación en la magnitud de recompensa y la variación en la correlación acción-consecuencia (refuerzo parcial con arreglo a programas de refuerzo): - En cuanto a la variación en la magnitud de recompensa, se han llevado a cabo experimentos en los que tras la respuesta (apretar la palanca) se iba variando la magnitud de recompensa recibida (bolitas de comida) de forma totalmente aleatoria en algunos grupos y de variación periódica en otros, repitiéndose este ciclo a lo largo de la sesión. Un ejemplo de variación periódica sería la secuencia R-1, R-5, R-3 (que se repite a lo largo de la sesión, siendo R la respuesta y el número que aparece tras cada respuesta sería el número de bolitas de comida que se dispensa como refuerzo). El resultado fue que cuanto más discriminable era la pauta de refuerzo más rápido era el aprendizaje. Las series periódicas de refuerzo eran mejores que las aleatorias. Esto significa que las series periódicas ayudan a anticipar la magnitud de la recompensa y, por tanto, los sujetos responden de acuerdo a ello. - No obstante, lo más estudiado ha sido la variación en la correlación o probabilidad respuesta - refuerzo a través de los programas de refuerzo. Como dice Cruz (1989, p. 176), un programa de refuerzo no es más que "una regla que determina las condiciones en las que la emisión de una respuesta irá seguida por la presentación de un reforzador o, dicho de otro modo, el programa de reforzamiento especifica las ocasiones en que se reforzarán las respuestas de un organismo". Además de los programas simples de refuerzo que hacen intervenir un solo criterio para la probabilidad R - C (respuesta - consecuencia), se han estudiado los efectos conductuales resultantes de la combinación de más de un criterio y/o de más de un programa. En general, los programas de refuerzo podrían clasificarse con arreglo a los diferentes criterios. El criterio más general se refiere a programas que refuercen una sola respuesta o varias. - Como programas para reforzar una sola respuesta instrumental tenemos tres tipos de programas: simples, compuestos y señalizados: * Los programas simples hacen intervenir un sólo criterio (de razón o intervalo, fijo o variable) cada vez. * Los programas compuestos combinan programas simples. Estos, a su vez se subdividen en dos: . Si se combinan en función del tipo de tasa de respuesta que muestra el sujeto a lo largo de la ejecución tenemos, entre otros, los programas conjuntivos, alternativos, RDB y RDA. . Si se combinan en función de criterios externos o de programación previa tenemos los programas tándem, mixtos y entrelazados. * Los programas señalizados son los que ocurren en presencia de algún ED y, entre otros, tenemos los programas múltiples y encadenados. - Como programas para reforzar diferentes respuestas instrumentales tenemos los programas concurrentes. El Cuadro 3 nos resume esta clasificación. Dentro de estos programas vamos a analizar aquí sólo los que mayor aplicación puedan tener en contextos aplicados. 214 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 Cuadro 3: Clasificación de los programas de refuerzo. De razón RF RV De intervalo IF IV Prog. simples PARA UNA MISMA R INSTRUMENTAL Según tasa de R Prog. conjuntivos Prog. alternativos Prog. RDB Prog. RDA Prog. compuestos Según criterios externos Prog. señalizados PARA DIFERENTES R INSTRUM. Prog. tándem Prog. mixtos Prog. entrelazados Prog. múltiples Prog. encadenados Prog. concurrentes 3.2. Programas para una misma respuesta instrumental 3.2.1. Programas simples de refuerzo: tipos y efectos conductuales a) Tipos Así pues, lo más usual en la experimentación es la situación de refuerzo parcial sin variar la magnitud de recompensa, es decir, variando solamente la correlación respuesta-refuerzo, y con ello la distribución temporal del refuerzo para examinar cómo afectan a la conducta los distintos programas de refuerzo que podemos condicionar. Dentro de los programas simples de refuerzo se pueden establecer cuatro grupos en función de la interacción de dos criterios: - Según el número de veces que se administra el refuerzo en función del número de respuestas (criterio de razón), y - Según el tiempo que transcurre de refuerzo a refuerzo, independientemente del número de respuestas que dé el sujeto (criterio de intervalo). Hay dos tipos de criterios de razón: fija o variable: - Si es una razón fija (RF), se trata de que siempre aparezca el refuerzo tras la realización de un número constante o fijo de respuestas. Por ejemplo, si a un sujeto se le refuerza cada 10 respuestas, estamos ante un programa RF 10: El número de respuestas sin refuerzo es constante en todo el entrenamiento. Cuando estamos en la situación de refuerzo continuo se trataría de un programa RF 1. - Si es de razón variable (RV), el número de respuestas entre refuerzo y refuerzo varía por lo general aleatoriamente o siguiendo pautas complejas. Por ejemplo, RV 7 implica que la media de respuestas sin refuerzo es 7, pero el número de respuestas para obtener refuerzo es variable; el programa RV 7, 6, 11, 3, 8 indica que la razón variable se repite según este ciclo de número de respuestas sin refuerzo. En cuanto a los criterios de intervalo ocurre exactamente lo mismo: Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 215 - Cuando el tiempo entre refuerzo y refuerzo es constante entonces nos encontramos ante un programa de intervalo fijo (IF). Por ejemplo, IF 6': cada seis minutos se refuerza siempre contingentemente a la respuesta más próxima a este intervalo. - Cuando el intervalo entre refuerzo y refuerzo varía de un modo aleatorio entonces estamos ante un programa de intervalo variable (IV). La Tabla 3 nos resume esta clasificación de tipos de programas simples de refuerzo (adaptada de Cruz, 1989, p. 178). Tabla 3: Tipos de programas simples de refuerzo. RAZÓN Nº de respuestas emitidas INTERVALO Periodo de tiempo transcurrido Fija RF IF Variable RV IV Contingencia de refuerzo b) Resultados o efectos conductuales Lo interesante es el efecto que produce en la respuesta la aplicación de cada uno de estos programas. En la Figura 9. tenemos la representación en registro acumulativo de la conducta típica al aplicar estos programas simples. Como vemos en la Figura, cada programa produce un perfil conductual diferente. RV Respuestas acumuladas RF IV IF Refuerzos Tiempo Figura 9: Representación gráfica de la adquisición con cada programa de refuerzo simple. Con los programas de razón: - Se consigue un nivel de ejecución (expresado en tasa de respuestas), generalmente superior al obtenido con los programas de intervalo, son más motivantes pues depende de cuánto responde (no de cuándo). - El programa que consigue la tasa más alta es el programa de razón variable siendo además muy estable. - Otra característica importante de los programas de razón es que la propia conducta del sujeto controla la frecuencia de recompensa: El sujeto se da cuenta que dando más respuestas obtiene antes el refuerzo, por tanto incrementa la tasa de respuesta si está interesado en obtener más refuerzos en menos tiempo. 216 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 Con los programas de intervalo: - Se produce una tasa de respuestas inferior a la conseguida con los programas de razón. - Los programas IF producen una ejecución "en festoneado": la tasa de respuestas aumenta hasta que llega el momento en que se proporciona el refuerzo y, una vez logrado éste, la ejecución disminuye para progresivamente volver a aumentar hasta la aparición del siguiente refuerzo. Algunos autores dicen que este tipo de programa desarrolla en el sujeto un sentido del intervalo temporal entre las recompensas, por tanto, siguiendo a Tarpy, esta ejecución se basa en una expectativa de estímulo, siendo en este caso el estímulo el intervalo temporal, el cual actúa como estímulo discriminativo que le indica al sujeto cuándo debe responder. - Los programas IV producen una tasa estable de respuestas, pero relativamente baja, ya que el sujeto no puede valerse del intervalo temporal para predecir la aparición de la recompensa, pues el refuerzo aparece siguiendo unos intervalos temporales de duración aleatoria. Así pues, la mayor diferencia entre los programas de razón y los de intervalo radica en que en los programas de razón el sujeto puede controlar la aparición del refuerzo, mientras que en los programas de intervalo la frecuencia de la recompensa no depende tanto de la ejecución, sino de factores externos a ésta. Estos resultados son los obtenidos en experimentos de laboratorio. También se han intentado aplicar estos modelos a la vida cotidiana. Hay determinadas conductas cotidianas que podrían explicarse por estas contingencias de refuerzo al tener una ejecución parecida. Ejemplos de cada programa simple serían: RF: Trabajo a destajo. IF: El sueldo mensual. RV: Conducta ante una máquina tragaperras o conducta de juego en general. IV: Conducta de pescar o cazar. No obstante, el problema en la vida cotidiana está en especificar claramente cuál es exactamente la respuesta o qué componente de la misma se refuerza o incluso qué es lo que refuerza a cada sujeto. Así, la conducta de pescar puede ser la de tirar la caña o el tiempo que está echada. 3.2.2. Programas de refuerzo compuestos Son aquellos que refuerzan una respuesta de acuerdo con los requisitos de dos o más programas operando al mismo tiempo -una descripción más detallada la tenemos en Ferster y Skinner (1957) y Reynolds (1968). Se subdividen en dos tipos: a) En función de la tasa de respuesta PROGRAMAS DE REFUERZO CONJUNTIVOS En estos programas deben cumplirse las condiciones de los programas implicados (dos, generalmente) para que el sujeto reciba el refuerzo. En la Figura 10 podemos observar la representación gráfica característica de los puntos o líneas de refuerzo con todos estos programas. En caso de líneas verticales hay un criterio temporal para obtener el refuerzo; en caso de líneas horizontales es un criterio de número de respuestas. Un ejemplo sería CONJ RF 10 IF 5'. Esto indica que para la primera vez que se da el refuerzo debe cumplirse que, como mínimo, el sujeto haya dado 10 respuestas y como mínimo hayan transcurrido 5'. Cuando el sujeto llegue a la línea de refuerzo marcada es cuando se le refuerza y este punto va a ser el eje de coordenadas para la administración del siguiente refuerzo. Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 217 PROGRAMAS DE REFUERZO ALTERNATIVOS Basta con que se cumpla uno de los programas para que se administre el refuerzo. Ejemplo: ALT RF 10 IF 5'. Se refuerza al sujeto cuando llegue a cualquiera de las dos líneas y este punto va a ser, como en el caso anterior, el vértice de los ejes de coordenadas para la administración del subsiguiente refuerzo. PROGRAMAS DE REFUERZO DIFERENCIALES (RDB Y RDA) Estos programas se dedican a reforzar según los tiempos entre respuestas (TER) y básicamente hay dos tipos: RDA (programa diferencial de tasas altas) y RDB (programa diferencial de tasas bajas): - Con TER cortos tenemos los programas diferenciales de tasas altas o programas RDA (tal y como se denominan en modificación de conducta). El RDA es parecido al programa alternativo, pero en el RDA sólo se refuerza un programa que, además, es de razón (línea horizontal del gráfico correspondiente de la Figura 10) mientras que el programa de refuerzo alternativo reforzaría también en la línea vertical de dicha Figura. Esto obliga al sujeto a mantener una tasa de respuestas alta. Por ejemplo, un RDA 25 segs. 40 respuestas, implica que para obtener refuerzo el sujeto tiene que dar al menos 40 respuestas antes de que transcurra ese tiempo desde la última respuesta reforzada. Es pues un programa que se utiliza cuando se pretende mantener una tasa alta de respuesta. En el ejemplo de un niño que come con mucha lentitud, se le está aplicando RDA cuando se le permite tomar dulce (refuerzo) si se come todas las patatas del plato (criterio de razón) en no más de diez minutos (criterio de intervalo). En este caso no sólo nos interesa que el sujeto haga algo, sino que la haga con cierta rapidez o frecuencia. - Otro programa diferencial es el programa diferencial de tasas bajas o programa RDB -también muy utilizado en modificación de conducta-. Según este programa, se refuerza cuando pasa cierto tiempo y no se sobrepasa un número predeterminado de respuestas (se refuerza en la línea horizontal siempre que la tasa de respuesta no pase por la horizontal). Así por ejemplo, un programa RDB 40 segs. 15 respuestas, implica que desde la última respuesta reforzada el sujeto debe dar menos de 15 respuestas en ese tiempo si quiere obtener refuerzo. Al final del entrenamiento RDB el sujeto, por decirlo de un modo coloquial, intuye que debe responder pocas veces para recibir refuerzo. Este programa es utilizado para corregir los excesos conductuales (hiperactividad, disfemia, etc.). b) En función de criterios externos PROGRAMAS TÁNDEM Se utilizan dos programas simples que se presentan siempre en el mismo orden. Deben satisfacerse los requisitos del primer programa para iniciar el segundo y el refuerzo sólo se da tras el segundo. Por ejemplo, Tándem IF 1' RF5, supone que el refuerzo se da tras la quinta respuesta si ha pasado un minuto. Es parecido al conjuntivo con la diferencia de que en éste hay un orden secuencial de los dos programas y en aquel no. PROGRAMAS MIXTOS Hay dos o más programas alternándose según un orden aleatorio pero al acabar cada programa el sujeto recibe refuerzo. Por ejemplo, Mixto IF1' RF5 consistiría en que se puede reforzar tras un minuto o por cinco respuestas, dependiendo del programa que el experimentador tenga en vigor. Es igual que el alternativo excepto en que es el experimentador el que determina el orden de programa en vigor. 218 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 Conjuntivo Entrelazado creciente Entrelazado decreciente Alternativo RDB RDA Figura 10: Representación gráfica de la ejecución con alguno de los programas de refuerzo compuestos. PROGRAMAS DE REFUERZO ENTRELAZADOS En estos programas lo característico es que a lo largo del entrenamiento varía el número de respuestas necesario para obtener refuerzo. Se refuerza tras la realización de un número determinado de respuestas, pero para el siguiente refuerzo se aumenta o disminuye el número de respuestas necesarias para la obtención del refuerzo. Cuando se aumenta el número de respuestas hablamos de un programa entrelazado creciente y, obviamente, cuando se disminuye estamos ante un programa entrelazado decreciente. Un ejemplo cotidiano de programa entrelazado creciente sería el que se da en las asignaturas de bachillerato y EGB que son acumulativas, es decir, que los conocimientos adquiridos en cursos inferiores son imprescindibles para adquirir los de cursos siguientes (matemáticas, idiomas, etc.). Con estos programas se corre el riesgo de llegar a una extinción si el sujeto no llegara a recibir nunca el refuerzo como consecuencia del aumento progresivo del número de respuestas necesarias para recibir dicho refuerzo. En el programa entrelazado decreciente el número de respuestas necesarias para obtener refuerzo cada vez es menor con el paso del tiempo. 3.2.3. Programas de refuerzo señalizados PROGRAMAS DE REFUERZO MÚLTIPLES Son aquellos en los que se hacen intervenir dos o más programas de refuerzo simples, presentados en forma sucesiva y, generalmente, cada uno de ellos en presencia de un estímulo discriminativo diferente. Podríamos poner como ejemplo un programa RF cuyo ED fuese una luz verde; pasado un tiempo determinado se sigue un programa RV con una luz amarilla y, finalmente, un programa IF con una luz roja como ED. Lo que se observa es que el sujeto adapta su ejecución a la tasa de cada uno de esos programas. Más tarde, ante la sola aparición del ED, el sujeto es capaz de manifestar la ejecución correspondiente al programa con el que estaba vinculado. El único inconveniente de estos programas es que en la transición de un programa a otro la ejecución no cambia inmediatamente y por tanto se presentan interacciones o interferencias entre ellos. Es similar al programa mixto pero con E D para cada programa. Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 219 PROGRAMAS DE REFUERZO ENCADENADOS Son parecidos al programa tándem pero se intercala un ED entre ambos programas. Por ejemplo, encadenado IF1' RF5 supone que tras un minuto aparece ED y en su presencia la quinta respuesta es reforzada. 3.3. Programas para diferentes respuestas: Programas concurrentes y conducta de elección 3.3.1. Programas concurrentes Se trata de reforzar dos o más respuestas diferentes, cada una siguiendo un programa de refuerzo distinto, a su vez, con un estímulo discriminativo distinto y operando al mismo tiempo todos los programas como en casos anteriores. La ejecución en cada respuesta se adecua a cada uno de estos programas. En modificación de conducta puede ser útil la combinación concurrente de programas de refuerzo junto con programas de extinción; así, en el tratamiento de los alcohólicos, proporcionar refuerzo social al no beber y ausencia de refuerzo al beber. 3.3.2. Contingencias concurrentes: Conducta de elección Dentro del condicionamiento instrumental de recompensa, se han realizado una serie de interesantes investigaciones sobre lo que se denomina "conducta de elección" (choice behavior) en situaciones de programas concurrentes. Cuando a un sujeto se le da la posibilidad de dar más de una respuesta para obtener el refuerzo, se trata de averiguar los factores y la forma en que elige dar una u otra respuesta o la forma en que la tasa de respuestas difiere en un caso o en otro. En ámbito experimental, la conducta de elección entre dos programas se ha estudiado en laberintos en forma de T con ratas o en cajas de Skinner con dos palancas. En estas situaciones, descritas por varios autores (entre otros, Rachlin, 1976), se llegó a establecer lo que se denomina la ley de la igualación -propuesta inicialmente por Herrnstein en 1961-. Según esta ley, los sujetos tienden a equiparar la tasa a la que emiten una determinada respuesta con la tasa relativa de refuerzo contingente a dicha respuesta. Si un sujeto se encuentra ante dos respuestas, cada una de las cuales se somete a programas que difieren en la frecuencia de refuerzo, no se limita a responder al programa más favorable sino que distribuye sus respuestas de tal forma que el número relativo de respuestas a uno de los programas igualará al número relativo de reforzadores obtenidos con ese programa. La razón entre las tasas de respuesta a cada programa igualará a la razón entre las tasas de refuerzo. Es una ley cuantitativa y predice la tasa de respuestas en función de la tasa de refuerzo y viceversa; se expresa de la forma siguiente: Ra ra = Ra + Rb ra + r b donde, R = tasa de respuestas, r = tasa de refuerzos recibidos, a y b = programas o situaciones. De este modo, si la tasa relativa de respuestas es igual con ambos programas de refuerzo la razón resultante de Ra /(Ra + Rb) será de 0.5. Si es más favorable el programa a, la razón será superior a 0.5 e inferior en el caso contrario. El mismo cálculo se puede hacer para la tasa relativa de refuerzo. Por tanto, conociendo tres de las cuatro variables, mediante la Ley de Igualación podremos averiguar la cuarta variable. El ejemplo del Cuadro 5 nos ilustra esta Ley. 220 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 Así pues, podemos predecir la tasa de respuestas esperada en distintas situaciones a partir de las contingencias de refuerzo previstas para cada una de ellas; y viceversa: nos puede interesar predecir las contingencias de refuerzo que se han de disponer para una ejecución determinada en distintas situaciones. Una consecuencia aplicada de estas investigaciones es que se puede predecir que el sujeto dedica más tiempo a las alternativas mas favorables, ya que cuanto mayor es el valor reforzante de una respuesta por comparación con otras respuestas alternativas, mayor será el tiempo invertido en la ejecución de dicha respuesta. Por lo tanto, la ley de la igualación proporciona una información decisiva sobre el valor de la recompensa: permite estimar la potencia de un reforzador en relación con otros reforzadores. Cuadro 5: Ejemplo de aplicación de la Ley de Igualación. Veamos un caso en que conocemos ra, rb y Ra, y queremos averiguar Rb. Supongamos, siguiendo el ejemplo de Herrnstein, un programa a de IV 6' y un programa b IV 2'. Si conocemos la tasa de respuesta con uno de esos programas (por ejemplo, Ra= 40), podremos hallar la que se puede obtener con el otro. Esto requiere aplicar la Ley de la igualación y para ello, seguiremos los siguientes pasos: 1) Primero hay que transformar los programas de refuerzo en tasa de refuerzos recibidos en una unidad de tiempo común. En este ejemplo: - Con un programa a del tipo IV 6' se recibe un refuerzo cada 6 minutos, o sea, 10 refuerzos por hora; es decir, se recibe una tasa máxima de refuerzo (ra) de 10 por hora. - En un programa b del tipo IV 2' se recibe un refuerzo cada dos minutos, o sea, una tasa de refuerzo (rb) de 30 por hora. ra 10 2) Sustituir los datos de tasa de refuerzo recibidos en la ecuación: = = 0.25 ra + rb 10 + 30 Vemos que la razón resultante es inferior a 0.5 y por tanto favorable al programa b pues éste tiene una tasa de refuerzo mayor. 3) Sustituir la tasa de respuesta conocida en la ecuación y despejar la incógnita correspondiente a la tasa de respuesta desconocida: Dado que Ra= 40, entonces, Ra Ra + Rb 40 = 40 + Rb Como ra /(ra + rb )= 0.25, pasando este dato a la fórmula principal, tenemos: 40 = 0.25 (40 + Rb); 40 = 10 + 0.25 Rb; Rb = (40-10)/0.25 = 120. Vemos pues que la tasa de respuestas en el programa b es más alta que en el programa a, lo cual es lógico pues b está sometido a una tasa de refuerzo más favorable. También se ha demostrado que no sólo se ajusta la ejecución a la frecuencia de refuerzo, sino a la cualidad o tipo de recompensa y a la cantidad, demora y duración del refuerzo. Además, la ley de igualación no es exclusiva de elecciones entre dos alternativas sino que se da también en situaciones con más de dos alternativas, con estimulación aversiva e incluso cuando hay un sólo programa simple en vigor pero otras actividades a la vez. Esto tiene interés aplicado en modificación de conducta pues, por ejemplo ante conductas problemáticas no sólo hay que tener en cuenta la frecuencia de su reforzamiento sino la frecuencia de reforzamiento de otras actividades (si es mayor la primera que las segundas el sujeto seguirá con mayor probabilidad esas conductas problema). Para averiguarlo, basta con comparar las tasas de respuesta (Ra) y refuerzo (ra) con la conducta objetivo y las de otras actividades (Ro y ro): Ra ra = Ra + R0 ra + r 0 La ley de igualación se cumple sobre todo con programas de intervalo, en los cuales el sujeto suele escoger el programa con intervalo de refuerzo más corto. Cuando se trata de programas de razón, el Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 221 sujeto escoge el que implique menos respuestas por refuerzo, es decir, maximizan la ejecución (si se quiere una terminología más coloquial, siguen la ley del mínimo esfuerzo). 3.4. Condiciones especificas de refuerzo parcial en humanos Según la revisión efectuada por Huertas (1992) -véase también Benjumea, 1994, para revisión-, hay algunas condiciones para la adquisición del condicionamiento de recompensa que sólo se dan en humanos y que difieren de las condiciones y resultados en animales. Estas diferencias se producen en virtud de nuestras posibilidades o capacidades relacionadas con: - formular reglas verbales que gobiernen nuestra conducta, - aprovecharnos de las instrucciones verbales que recibimos, - aprovechar la experiencia previa de reforzamiento, y - darle valor informativo (y no sólo hedónico) a los reforzadores. 3.4.1. Reglas verbales La conducta resultante de la aplicación de programas de refuerzo puede depender de las expectativas o reglas verbales implícitas que establece el sujeto. Se ha demostrado en este sentido una alta correlación entre cómo creen los sujetos que son las contingencias de refuerzo (en entrevistas postexperimento) y el patrón de respuestas que muestran. Así, por ejemplo, si se les aplica un programa IF pero los sujetos creen que la aparición del refuerzo depende del número de respuestas (programa RF), mostrarán una tasa alta de respuestas como si fuera un programa de razón; y por el contrario, los que crean que depende del tiempo transcurrido mostrarán una tasa tipo IF. Como recordamos, en animales la ejecución resultante de un programa IF era en festoneado (cosa que no ocurre en humanos, excepto en niños menores de cinco años). La influencia del lenguaje es pues decisiva puesto que puede alterar las expectativas y representaciones asociativas que la mera experiencia directa podría generar en los sujetos. 3.4.2. Efecto de las instrucciones verbales Las instrucciones verbales inducen expectativas y pueden modificar completamente la ejecución. En el experimento citado anteriormente y en otros, fueron las instrucciones verbales las que modificaron los resultados: - Aplicando un programa IF a los sujetos que se les dijo que la aparición del refuerzo dependía del número de respuestas obtenían una ejecución tipo RF. - Aplicando un programa IV cuando se les dio instrucciones falsas de que iban a seguir un programa IF mostraron inicialmente una tasa baja (aunque luego fue aumentando). 3.4.3. Experiencia previa de reforzamiento En humanos, ésta es una condición considerada decisiva y fuente de la gran variabilidad obtenida en los experimentos. Así, - se ha observado que sujetos sometidos previamente a programas RF, con programas IF mostraban tasas altas de respuesta; - sin embargo, sujetos sometidos previamente a programas RDB, con IF exhibían tasas bajas de respuesta. 222 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 En definitiva, la experiencia previa crea unas expectativas sobre cuáles son las reglas del experimento, dándose cierta resistencia al cambio. 3.4.4. Valor informativo del refuerzo En humanos el refuerzo no sólo tiene un valor motivacional hedónico sino también informativo, en términos de retroalimentación o de solución positiva de un problema. En animales, los reforzadores suelen ser primarios mientras que en humanos tienen más valor informativo que hedónico, aportan información sobre lo apropiado o inapropiado de la conducta. Algunos programas de refuerzo como el IV son poco informativos (variaciones importantes en la ejecución apenas producen cambios en el número de refuerzos) y es por esto por lo que hay grandes variaciones en la ejecución. Sin embargo, en programas como el RDB hay menos diferencias individuales. Cuando el refuerzo actúa más en su sentido informativo o de retroalimentación (feedback) de la conducta que en su sentido de recompensa, funcionará más claramente fortaleciendo la motivación intrínseca del sujeto. El refuerzo no será tanto un premio como una indicación de la competencia y buen hacer del sujeto. Hay que notar que el mismo tipo de consecuencia puede cumplir una función esencialmente de control sobre la conducta (según el significado tradicional del refuerzo) o más bien una función informativa, lo cual va a depender en buena medida de la manera de administrar ese refuerzo y el acompañamiento verbal con que se hace. 4. CONDICIONES PARA LA EXTINCIÓN 4.1. Operaciones, consecuencias y parámetros 4.1.1. Operación experimental y procedimientos de extinción La extinción consiste en la reducción o eliminación de la respuesta al retirar el reforzador que aparecía tras la misma durante la adquisición. Se pasa pues de la operación experimental E-R-E a la de ER (ver Tema 1). Si en el condicionamiento clásico se eliminaba la contingencia o correlación entre estímulo y consecuencia, aquí se hace entre respuesta y consecuencia. También aquí se aprecia el fenómeno de la recuperación espontánea (y por tanto la inhibición condicionada). Se han descrito varios procedimientos que inducen la extinción en el condicionamiento de recompensa: 1) Supresión de la recompensa en los ensayos de extinción (es el procedimiento más usual y típico); 2) Presentación aleatoria (habiéndose dado o no la respuesta) de la recompensa (produce peor extinción o incluso ninguna extinción); 3) Entrenamiento de omisión o presentar la recompensa en momentos en que el sujeto no responde (se da recompensa por no responder). Produce peor extinción que el método 1; 4) Contracondicionamiento de respuesta, en el que se da la recompensa sólo tras respuestas incompatibles con la que se quiere extinguir; produce buena extinción comparable con la del método 1. 4.1.2. Consecuencias o efectos generales Citaremos en primer lugar los efectos conductuales u operacionales concretos, y en segundo lugar, los efectos generales sobre el proceso de aprendizaje instrumental. Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 223 Durante los ensayos de extinción se aprecian generalmente en la conducta los siguientes efectos: 1º) Al comienzo de los ensayos de extinción se suele registrar un paradójico incremento breve de la tasa de respuesta, tal vez, como dice Bandura (1969; trad. 1983, p. 369), "en un intento por producir los reforzamientos a los que estaba acostumbrado". Así por ejemplo, un niño está acostumbrado a recibir lo que quiere tras una rabieta. Si la madre decide no darle lo que pide (si insiste en no reforzarlo), con toda seguridad la rabieta aumentará hasta hacerse insoportable. 2º) También al comienzo puede ocurrir un cambio en la topografía de respuesta, por tanto un incremento de otras respuestas alternativas. De aquí se deduce que al comenzar la extinción la forma de la conducta se hace más variable. Si con la rabieta no obtiene lo que busca, intentará otras respuestas (dar patadas, salir corriendo, etc.). 3º) Tras estos momentos iniciales se produce una reducción gradual en la frecuencia de respuesta hasta tasas muy bajas. En el ejemplo mencionado, todo es cuestión de que resista la persona encargada de no proporcionar el refuerzo (veremos que hay procedimientos alternativos menos duros para esas personas, por ejemplo, refuerzo de conductas alternativas, etc.). Otro ejemplo: Si al girar el pomo de una puerta (R) ésta se solía abrir en el pasado (E ref) pero no ahora (y sin causa justificada), intentaremos varias veces girar el pomo de la puerta (incremento en la tasa de respuesta), empujaremos, tiraremos del pomo, incluso podríamos tener reacciones más violentas con la puerta (cambio en la topografía de respuesta) hasta que al final desistimos (extinción de respuesta). En cuanto a los efectos sobre el proceso de aprendizaje, según Tarpy (1981; trad. 1986, p. 228), la disminución de la aparición de la respuesta ocurre por dos motivos: - por la reducción de la correlación R-C (respuesta-consecuencia) y - por la adquisición de una nueva expectativa basada en la nueva correlación R - no C (respuesta-no consecuencia). 4.1.3. Parámetros Tres de los parámetros más usados en experimentación, descritos gráficamente en la Figura 11, son los siguientes: (2) Número de respuestas Extinción Adquisición (1) (3) TIEMPO Figura 11: Representación gráfica de un ejemplo de aplicación de los tres parámetros de medida de la extinción en el condicionamiento de recompensa. 224 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 1) Tasa a la que llega a bajar la respuesta tras un tiempo determinado (prefijado por el experimentador) después de iniciar los ensayos de extinción. 2) El número total de respuestas emitidas desde que se inicia la extinción hasta que cesa la acción de responder. 3) Tiempo desde el inicio de los ensayos de extinción hasta que, o bien cesa la respuesta o bien llega a una tasa muy baja por debajo de la cual ni descenderá ni aumentará durante un período relativamente largo. 4.2. Condiciones generales durante la adquisición que afectan a la extinción en el condicionamiento de recompensa Se citan diversos factores o variables que favorecen la extinción (García Sevilla, 1987). Aquí citaremos sólo las condiciones generales que aplicadas durante la adquisición del condicionamiento de recompensa afectan posteriormente a la extinción y las resumiremos en dos grupos: factores motivacionales y factores de entrenamiento. 4.2.1. Factores motivacionales 1) Magnitud del reforzador. Nos referimos tanto al número de reforzadores como a la cantidad de cada reforzamiento. En cualquier caso, a mayor magnitud más rápida es la extinción posterior, siempre y cuando no se varíe la magnitud de la recompensa a lo largo de los ensayos de adquisición (si ocurriera esto último, entonces la extinción se hace mucho más lenta). 2) Demora de la recompensa: En términos generales, la demora entre la respuesta y el reforzador durante la adquisición dificulta la extinción (aumenta la resistencia a la extinción). Ahora bien, según resume Tarpy (1981; trad. 1986, p. 256), una demora constante en los ensayos de adquisición apenas afecta a la extinción (provoca una extinción similar a la que se da sin demora en la recompensa), pero si la demora ocurre sólo en algunos ensayos, la extinción es más lenta. 3) Nivel de privación: A mayor nivel de privación (por ejemplo, más hambre o más sed) mayor resistencia a la extinción (Cruz, 1989). 4.2.2. Factores de entrenamiento 4) Duración y número de ensayos de adquisición: Si el reforzamiento es continuo, al aumentar la duración y número de ensayos de adquisición, aumentará también la velocidad de extinción, y sólo se produce una mayor resistencia a la extinción al aumentar el número de ensayos si se proporcionan pequeñas dosis de recompensa durante la adquisición (que mantenga niveles altos de impulso). 5) Esfuerzo de respuesta: Se trata del esfuerzo físico que requiere la respuesta que se ha de extinguir. La extinción es más rápida cuando se exige un mayor esfuerzo para emitir la respuesta en los ensayos de extinción. En ámbitos experimentales esta variable se manipula inclinando el corredor recto o aumentando el contrapeso de la palanca en la Caja de Skinner (Cruz, 1989). 6) Experiencia previa de entrenamiento en extinción: Cuantas más veces haya tenido el organismo experiencia en extinción, dichas experiencias pasadas harán que la extinción sea más rápida. Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 225 4.3. La extinción tras adquisición con refuerzo parcial Cuando sólo se refuerzan algunas respuestas durante la adquisición, la extinción sigue las pautas marcadas por el efecto del refuerzo parcial de Humphreys, o sea, una determinada conducta es más resistente a la extinción si se aprende mediante refuerzo parcial. Bajo condiciones de refuerzo parcial durante la adquisición, los factores citados afectan de modo diferente a la extinción y aparecen otros factores importantes. Veámoslos: 4.3.1. Condiciones específicas Al igual que en el condicionamiento clásico, el refuerzo parcial durante la adquisición hará aumentar la resistencia a la extinción. Pero hay condiciones específicas de esta situación que afectan a los resultados en la extinción: 1) Magnitud de recompensa: Al utilizar refuerzo continuo la extinción era más rápida al aumentar la magnitud de la recompensa. Sin embargo, ocurre lo contrario con refuerzo parcial: aumenta la resistencia a la extinción si se aumenta la magnitud de recompensa. También, cuanto mayor es el número de reforzamientos mayor resistencia a la extinción. 2) Número de ensayos de adquisición: La resistencia a la extinción que sigue al refuerzo parcial aumenta según aumenta el número de ensayos de adquisición. 3) Porcentaje de ensayos de recompensa (durante la adquisición): Es uno de los parámetros que más afecta, y mantiene con la resistencia a la extinción una función en forma de U invertida, de tal modo que la extinción es más rápida cuando el porcentaje de ensayos reforzados durante la adquisición es muy alto o muy bajo. Véase este efecto en la Figura 12. + Resistencia a la extinción - % Recompensa + Figura 12: Relación entre nivel resistencia a la extinción y nivel de recompensa durante la adquisición. 4) Orden de aplicación de refuerzo continuo y parcial: Aumenta la resistencia a la extinción cuando el refuerzo parcial sigue al refuerzo continuo durante la adquisición. 5) Pautas o programas de refuerzo: El refuerzo alternativo (sucesión de ensayos reforzados y no reforzados) es menos resistente a la extinción (produce extinción más rápida) que el refuerzo aleatorio (Capaldi, 1958; Rudy, 1971; cit. por Tarpy, 1981), pero si el entrenamiento es muy reducido se invierte este principio (Capaldi y Hart, 1962; cit. por Tarpy, 1981). 226 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 El tipo de extinción resultante tras adquisición con programas de refuerzo simple varía con los programas utilizados. En la Figura 13 podemos observar el registro acumulativo resultante durante la extinción de los cuatro programas simples. Programas IF: Producen una tasa de respuesta inicial alta, reducción rápida de la ejecución, reanudación festoneada de la misma cada vez más breve y pausas cada vez más largas. Programas RF: Pausas repentinas cada vez más largas, tasa elevada de respuesta igual que en la adquisición pero con la diferencia de que aquí cada vez duran menos los períodos de respuesta. Programas RV: Al principio tasa alta de respuesta, luego períodos repentinos cada vez mayores de descanso. Muy resistente a la extinción. Programa IV: Reducción constante en la tasa de respuesta sin que se registren pausas repentinas. Máximo tiempo hasta lograr la extinción. Adquisición Extinción RV RF Respuestas acumuladas IV IF Tiempo Figura 13: Representación gráfica de la extinción según adquisición mediante programas simples de refuerzo. 4.3.2. Teorías del efecto de refuerzo parcial Vamos a considerar las tres principales teorías al respecto. Fueron propuestas en distinas épocas y con distinta fuerza predictiva y operativa, pero siguen teniendo cierta vigencia desde la perspectiva integradora del enfoque de Tarpy (1981). a) Hipótesis de la discriminación y la expectativa Según Humphreys (1939), el refuerzo hace aumentar la fuerza de la respuesta instrumental y produce anticipación o expectativas aprendidas de reforzamiento, lo cual favorece la adquisición. Durante la adquisición, el sujeto tiene expectativas de recibir la recompensa; durante la extinción se crea una contraexpectativa o expectativa de no recompensa, la cual tarda más tiempo en formarse cuando se utiliza refuerzo parcial durante la adquisición. Esto hace que la extinción sea más lenta. Sin embargo, esta hipótesis se abandonó durante mucho tiempo por la dificultad en el tratamiento experimental. El mismo Humphreys propuso otra hipótesis según la cual la discriminación de las condiciones de extinción es mejor tras la adquisición con el 100 % de ensayos recompensados. Con refuerzo parcial en la adquisición, los ensayos sin refuerzo son semejantes a los de extinción, por lo cual el sujeto tiene Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 227 dificultad para distinguir ensayos de adquisición y extinción. Sin embargo, no se pudo confirmar esta hipótesis pues cuando se hizo un experimento intercalando una fase de ensayos con refuerzo continuo entre la fase de adquisición con refuerzo parcial y la fase de extinción no mejoró esta última. b) Hipótesis de la frustración En realidad, la teoría general de la extinción basada en la interferencia por frustración propuesta inicialmente por Amsel se elaboró para explicar el efecto de refuerzo parcial. Con refuerzo continuo en los ensayos de adquisición el sujeto no tiene experiencia de frustración. Sí con refuerzo parcial, pues los ensayos no reforzados generan en el sujeto un estado motivacional o impulso de frustración de índole aversiva, con lo cual al llegar a la fase de extinción la frustración forma parte del contexto estimular previo y por tanto la respuesta se prolonga y se hace más resistente a la extinción. Las claves ambientales de frustración forman parte del complejo estimular de la adquisición y por tanto durante la extinción el sujeto tolerará mejor la frustración y la extinción será más lenta. c) Hipótesis secuencial de Capaldi Capaldi (1966, 1967), reelaborando la teoría de los post-efectos de Sheffield (1949) -según la cual los ensayos reforzados o no reforzados producen post-efectos (o sea, estímulos internos distintivos memorizados) que persisten hasta el ensayo siguiente-, viene a decir que en la adquisición con refuerzo parcial también se generan post-efectos de no recompensa. En muchos ensayos en que la respuesta es recompensada, entre los estímulos que la preceden se encuentra el de los post-efectos (el recuerdo) de ensayos previos no recompensados y cuanto más larga es la secuencia de ensayos no reforzados, previos a cualquier ensayo reforzado, mejor se puede establecer el post-efecto mnemónico de la no recompensa, con lo cual este complejo estimular no diferirá mucho del presente en la extinción y así ésta será mucho más lenta. Según Capaldi, los factores principales (durante la adquisición con refuerzo parcial) que permitirán una extinción más lenta son tres (llamando R a los ensayos reforzados y N a los no reforzados): - La longitud N o número de ensayos no recompensados que preceden a cada ensayo R (en este caso a mayor longitud N corresponden una extinción más lenta); o sea, cuanto más largas sean las secuencias N menor porcentaje de ensayos reforzados y mayor resistencia a la extinción. - Número de veces que ocurre una longitud N, es decir, número de transiciones N-R (a mayor diferencia entre las diversas secuencia N extinción más lenta). - Número de longitudes N diferentes (a mayor diferencia entre las diversas secuencias N extinción más lenta). d) Integración teórica de Tarpy En realidad, todas estas aproximaciones teóricas no son incompatibles pues, según Tarpy (1981), en el contexto estimular de la adquisición con refuerzo parcial se incluyen tanto los post-efectos mnemónicos de no recompensa como los motivacionales-emocionales de frustración, todo lo cual hace que la formación de contraexpectativas (expectativas de no recompensa) durante la extinción sea mucho más lenta pues las claves más sobresalientes de esta fase (post-efectos de no recompensa y de frustración) ya estaban presentes en la fase de adquisición en la que aparecía recompensa y así es más difícil para el sujeto discriminar entre ambas fases, con lo cual la extinción se enlentece. 228 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 5. PRINCIPALES APLICACIONES 5.1. Condicionamiento instrumental y clínica 5.1.1. Procedimientos de modificación de conducta Milby (1982) propone una clasificación de las técnicas operantes de modificación de conducta en la cual se incluyen métodos para iniciar nuevas conductas, para incrementar o mantenerlas, reducirlas o eliminarlas, restringirlas a ciertas situaciones y estrategias combinadas. Añadimos un último apartado respecto al procedimiento general de manejo de contingencias. a) Métodos para iniciar nuevas conductas: Moldeamiento y modelado Para iniciar nuevas conductas las técnicas más usadas son el moldeamiento (shaping) o método de aproximaciones sucesivas y el modelado (modeling): - El moldeamiento (véase aptdo. 1.4.2.a) supone reforzar conductas que se asemejen a la conducta objetivo y no reforzar las que menos se asemejen; conforme avanza el entrenamiento progresivamente se irán reforzando las conductas más similares a la objetivo y se irán extinguiendo por no reforzamiento el resto. - El modelado es aprendizaje observacional o vicario: se observa el condicionamiento efectuado en modelos o a través de demostraciones. Es un método similar al citado en el próximo Capítulo 7, referente a control de estímulos con instigadores de demostración. b) Métodos para incrementar o mantener conductas Los métodos más conocidos para incrementar o mantener conductas implican el uso del refuerzo positivo (recompensas) y del refuerzo condicionado (por ejemplo, economía de fichas, contratos de contingencias, etc.). Se procura en estos casos iniciar el entrenamiento con refuerzo casi continuo y progresivamente hacerlo parcial con los programas de refuerzo recomendados en este capítulo. Otra técnica para el mismo objetivo es el refuerzo negativo mediante procedimientos de escape o evitación (ver Tema 5). También los procedimientos de control de estímulo (ver Tema 5) y de control ambiental (permitir la conducta sólo en presencia de determinados estímulos o en determinado ambiente) entran dentro de este grupo. c) Métodos para reducir o eliminar conductas Para reducir o eliminar conductas se emplean técnicas de: - Saciación (exposición masiva a los estímulos reforzantes), - Práctica negativa (repetición masiva de la respuesta problema), como por ejemplo realizar deliberadamente un tic nervioso durante 30 minutos seguidos todos los días. - Procedimientos de castigo por aplicación de estimulación punitiva (serán expuestos en el Capítulo 8). - Procedimientos de extinción, que algunos autores (por ejemplo, Drabman, 1977) los consideran también de castigo por supresión de reforzadores. Como técnicas aplicadas de extinción tendríamos: - Métodos de uso exclusivo de extinción: Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 229 - Extinción simple, en la que sólo se retira el reforzador. Las principales desventajas de este método radica en que posee unos efectos retrasados (es un procedimiento lento) y produce un incremento inicial temporal en la tasa e intensidad de la respuesta que se desea extinguir (con la consiguiente frustración por parte del que aplica el procedimiento, si no está advertido de ello). - Costo de respuesta: Supresión contingente de reforzadores previamente adquiridos respecto a una respuesta. Si se está siguiendo un sistema de fichas, se trata de perder fichas contingentemente a la conducta inapropiada. - Tiempo-fuera (time-out): Supresión contingente de la oportunidad de lograr refuerzo positivo mediante aislamiento social contingente. Por ejemplo, tras la conducta no deseada se lleva al sujeto a otro lugar aislado durante un período de tiempo mínimo (10 minutos). Combina supresión de refuerzo con cambio estimular, retirando pues reforzadores y estímulos discriminativos. - Combinados con refuerzo diferencial, tales como las técnicas: - Refuerzo diferencial de omisión, o también llamado entrenamiento de omisión, consistente en proporcionar el refuerzo en cualquier otro momento que no sea contingente a la respuesta, y preferentemente cuando el sujeto no esté emitiendo ninguna respuesta. - Refuerzo diferencial de otras conductas (RDO): Tiene una variante que es el refuerzo diferencial de conductas incompatibles (RDI) y consiste en reforzar selectivamente aquellas que no se pueden realizar cuando se ejecuta la que se trata de omitir. - RDB (refuerzo diferencial de tasas bajas -descrito en este capítulo-). En conjunto, las técnicas de extinción y sobre todo de refuerzo diferencial, tienen ventajas sobre las que aplican estimulación aversiva directa pues producen un efecto duradero de reducción conductual. Para su uso, tal y como indican Sulzer-Azaroff y Mayer (1977), hay tres requisitos importantes: - deben identificarse todas y cada una de las fuentes de reforzamiento, - deben mantenerse las condiciones de extinción durante un tiempo suficiente, y - deben combinarse con el refuerzo de las conductas deseables. d) Métodos para restringir conductas a ciertas situaciones y técnicas combinadas Las más útiles son las técnicas de control de estímulo (véase el Tema 5). Cualesquiera de las técnicas anteriores pueden combinarse entre sí para casos concretos. e) El manejo de contingencias El procedimiento general aplicado para incrementar, mantener, reducir o eliminar conductas, en modificación de conducta se denomina manejo de contingencias. El terapeuta de conducta suele seguir tres fases (Rimm y Masters, 1979; Klein, 1991; trad. esp. 1994, p. 189): I) Evaluación.- Medir la frecuencia de las conductas inapropiadas y apropiadas, especificar las condiciones en las que se producen e identificar los reforzadores que mantienen la conducta problema y los que pueden servir para las conductas adecuadas. II) Contrato de contingencias.- Se establecen las nuevas relaciones entre respuestas y reforzadores y el método para la administración de los mismos. III) Intervención y evaluación de resultados.- Se aplica el tratamiento y se evalúan los cambios producidos. 230 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 5.1.2. Condicionamiento instrumental de respuestas autonómicas: Biofeedback a) Los primeros experimentos de Miller y colaboradores En los años 60, dentro de las teorías conductistas de aprendizaje, se planteó la polémica de si el CC era un proceso o tipo de aprendizaje totalmente distinto al condicionamiento instrumental o si eran meramente dos manifestaciones de un mismo proceso de aprendizaje. Efectivamente, eran reconocidas varias diferencias de procedimiento entre los dos tipos de condicionamiento, pero a nivel teórico la polémica era mayor. Uno de los argumentos era que no había en realidad tantas diferencias y que si subyace un solo proceso de aprendizaje se podría efectuar un condicionamiento instrumental de las respuestas típicas del CC, o sea, las fisiológicas, neurovegetativas o autonómicas, que son respuestas involuntarias. Como contrapartida también sería posible un CC de respuestas instrumentales. Algunos autores intentaron en el ámbito experimental desarrollar la primera hipótesis: el condicionamiento instrumental de respuestas autonómicas. Neal Miller y colaboradores y Kimmel fueron, entre otros, los que iniciaron este tipo de investigación. Estos autores hicieron sus estudios experimentales con animales y la investigación pionera es la de Miller y Dicara, realizada en 1967 y en la que se logró condicionar la tasa cardiaca de ratas mediante técnicas de recompensa y discriminación. El Cuadro 6 describe detalladamente este experimento. Cuadro 6: Experimento de Miller y Dicara (1967) de condicionamiento instrumental de tasa cardíaca en ratas. Fases I) La primera fase fue la preparación quirúrgica de las ratas, mediante la implantación de electrodos conectados a un electrocardiograma. Se implantaron electrodos también en el cerebro en la zona de recompensa encefálica (efecto placentero). Paralizaron la musculatura voluntaria o esquelética del animal (ya que la tasa cardíaca podría verse alterada por sus movimientos), para lo cual emplearon curare (droga con lo que el animal se mantenía consciente y con los órganos sensoriales funcionales pero que paraliza su musculatura esquelética). II) A continuación, se iniciaba el condicionamiento instrumental del ritmo cardíaco y para ello hacían aparecer un estímulo discriminativo compuesto de luz y sonido. Observaban el ritmo cardíaco y esperaban a que se produjera un cambio espontáneo en el ritmo cardíaco según un criterio determinado y contingentemente se administraba la recompensa. Durante todo este tiempo estuvo activo el estímulo discriminativo, el cual se suprimía durante 20 segundos, una vez asignada la recompensa al animal; pasado este tiempo se volvía a activar y se iniciaba otra vez el proceso y así sucesivamente repetidas veces. A medida que avanzaba el entrenamiento se iban incrementando el número de latidos necesarios para obtener refuerzo. La sesión duraba 90 minutos y se utilizaron dos grupos de sujetos: A un grupo se le recompensaba por acelerar el ritmo cardíaco y a otro por disminuirlo. Al final, al exponer a los animales solamente al estímulo discriminativo (sin recompensa) se producía la respuesta vegetativa. Resultados La ejecución resultante fue la que se expresa en la Figura 14. RITMO CARDIACO Promedio en látidos / min. 500 450 Recompensa por aceleración 400 350 Recompensa por aceleración 300 0 60 90 30 MINUTOS DE ADIESTRAMIENTO Figura 14: Resultados del experimento de Miller y Dicara (1967). Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 231 Esto fue un descubrimiento muy importante y generó al principio una gran cantidad de investigación experimental básica que rápidamente pasaría a la investigación aplicada clínica. En un principio a este fenómeno se le denominó condicionamiento instrumental de respuestas autonómicas, pero posteriormente pasó a llamarse biofeedback, cuya traducción literal sería bio-retro-alimentación. La investigación en este área ha sido sumamente extensa y ha llevado a configurar toda un área de aplicación: la medicina conductual o comportamental; en este área, estas técnicas han llegado a ser las más frecuentemente utilizadas, ya que son técnicas que permiten modificar (voluntariamente) respuestas fisiológicas, cosa no factible mediante CC. Tampoco ha de entenderse como una panacea aplicable a todo tipo de problemas clínicos psicosomáticos. Pese al entusiasmo inicial, en el ámbito experimental no dejaron de aparecer problemas. Así, estos experimentos de Miller eran difíciles de replicar, lo cual hizo dudar un poco respecto a su validez. No obstante, la necesidad práctica fue tal que, a pesar de estos impedimentos, se pasó directamente a su aplicación. b) Las técnicas aplicadas de biofeedback El biofeedback se puede definir como la utilización de técnicas de condicionamiento instrumental para la producción de cambios en respuestas fisiológicas internas, del tipo del ritmo cardíaco, actividad electrodérmica, presión sanguínea, actividad eléctrica cerebral (ondas "alfa"), temperatura corporal o basal, pH estomacal, actividad electromiográfica, etc. El nombre de biofeedback se debe a que esta técnica o conjunto de técnicas recompensan al sujeto o le proporcionan artificialmente feedback (o conocimiento de resultados) acerca de la realización de alguna respuesta biológica (generalmente de tipo autonómico) que de un modo natural no podría obtener. Hay dos enfoques teóricos en cuanto a la explicación de por qué se modifica la conducta vegetativa mediante biofeedback: - El feedback como recompensa: Lo que permite la modificación de las respuestas autonómicas es la influencia directa de la recompensa. - El feedback como información: Lo que permite la modificación de dichas respuestas es meramente el valor informativo de la retroalimentación. Lo que se le permite al sujeto en estas situaciones es tener un feedback sobre sus respuestas autonómicas que antes no poseía: una serie de aparatos permiten una retroalimentación artificial de esas respuestas. Para que estas técnicas sean efectivas lo ideal es que se den las dos circunstancias: que haya un feedback visual o auditivo proporcionado por el mismo aparato y, por otro lado, que exista algún tipo de recompensa. Las recompensas más utilizadas dentro de estas técnicas, según Tarpy, son: la alabanza o elogio verbal, dinero (sobre todo en experimentos financiados), refuerzo negativo o evitación de descargas o sonidos molestos, etc. El problema de estas técnicas, todavía no resuelto, atañe a la generalización o transferencia de estos cambios o nuevo control del sujeto sobre este tipo de respuestas, del laboratorio o gabinete clínico a la vida real, en la que no van a estar presentes los aparatos utilizados. La técnica básica del biofeedback aplicado tiene según Carrobles y Godoy (1987), cinco fases una vez conectado el aparato para detectar las variaciones fisiológicas: 1) Detección y transformación de la señal (desde los electrodos a la unidad central de registro y medida) 2) Amplificación (se procesa y analiza la señal en el aparato de biofeedback correspondiente) 3) Procesamiento y simplificación (filtrado) de la señal. 4) Conversión a señales auditivas o visuales 232 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 5) Información al sujeto (feedback) Los trastornos a los que más se han aplicado estas técnicas son los siguientes: trastornos musculares (rehabilitación motora), problemas vasculares (hipertensión, arritmias cardíacas, etc), problemas de ansiedad (sobre todo con AED y electromiografía), asma y problemas respiratorios, insomnio, trastornos sexuales y trastornos gastrointestinales. 5.2. Condicionamiento instrumental y enseñanza Aunque en la actualidad los métodos basados en el condicionamiento han dejado paso a métodos más activos de tipo cognitivo, su interés sigue radicando en dos áreas de la enseñanza: el proceso didáctico y la organización y manejo de la clase. 5.2.1. Métodos aplicados al proceso didáctico Cuando hablamos del proceso didáctico nos referimos a determinados aspectos de la situación didáctica, en particular a la disposición adecuada del material que el sujeto debe aprender. Una muestra de ello es la enseñanza programada de Skinner y sus ramificaciones tecnológicas posteriores en la enseñanza asistida por ordenador y en la enseñanza personalizada. La enseñanza programada (Skinner, 1954) propone un conjunto de técnicas y reglas para disponer los materiales didácticos de modo que los alumnos pueden emplearlos para autoenseñarse en un determinado tema. Se dispone el material mediante preguntas y respuestas con confirmación inmediata (refuerzo contingente) y práctica distribuida en pequeñas unidades; previamente el sujeto conoce los objetivos de cada unidad, comprueba el material y fija su propio ritmo de aprendizaje. Siguiendo estos principios ya en los años 30 se idearon las primeras "máquinas de enseñar", precedentes de la actual enseñanza asistida por ordenador (EAO). En cualquier caso, se elaboraron dos tipos de programas: Los programas lineales, iniciados por Skinner y según los cuales los alumnos deben elaborar activamente una respuesta y no simplemente optar por una preestablecida, Si los alumnos formulaban una respuesta errónea conocían el error inmediatamente viendo después la respuesta correcta. En los programas ramificados o de opciones múltiples, a los alumnos se les ofrece diversas opciones de respuesta. La enseñanza programada tiene la utilidad de que al fragmentar el material en pequeñas unidades, el profesor entiende mejor todos los objetivos de la docencia y el alumno tiene feedback inmediato de su respuesta. Además permite individualizar o personalizar la enseñanza al llevar cada alumno su propio ritmo. Uno de los primeros sistemas personalizados de enseñanza fue propuesto por Keller (1966), un psicólogo de orientación conductista que desarrolló un sistema de enseñanza individualizada para universitarios que no se basaba en máquinas o materiales especiales sino en fragmentar los materiales y aprender en pequeñas unidades con unos objetivos y orientaciones específicos para su estudio. Los alumnos estudian por su cuenta y periódicamente son examinados de modo que han de superar las pruebas para seguir a las etapas siguientes. Hay textos y manuales confeccionados con arreglo a estas normas de enseñanza programada, incluso textos de psicología. De éstos uno de los más antiguos es el manual de psicología conductista Análisis de la conducta, de Holland y Skinner (1961). La reciente introducción del ordenador en la escuela optimiza al máximo todas estas posibilidades de la enseñanza programada (ver Solomon, 1986; para revisión). En general, el ordenador potencia enormemente los logros de la enseñanza programada. Por ejemplo, la tecnología multimedia, con los materiales didácticos elaborados para dispositivos tipo CD-ROM, permiten una enseñanza multimedia que combina textos, imágenes (estáticas o dinámicas) e incluso hipertexto, que favorecen la inmedia- Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 233 tez e interacción con el material didáctico. La más reciente todavía (finales de los 90) expansión acelerada de las telecomunicaciones a través de Internet, potencia mucho más esas posibilidades por su inmediatez, accesibilidad y bajo coste. 5.2.2. Métodos aplicados a la organización y manejo de la clase Los más relacionados con el condicionamiento son los derivados del condicionamiento operante. Los podemos clasificar en: métodos centrados en la conducta positiva, métodos de desarrollo de nuevas conductas, métodos para hacer frente a conductas indeseables y métodos grupales (véase Marcos, 1994b, para ampliación de aplicaciones). a) Métodos centrados en la conducta positiva Siguen obviamente los principios de refuerzo. En el contexto educativo uno de los reforzadores más poderosos es la atención del profesor, la cual puede adoptar formas diversas: que el profesor esté pendiente, que muestre aprobación, que elogie verbalmente o con gestos al alumno por lo que hace, etc. Estas formas positivas son siempre más eficaces que las formas aversivas tal y como ha quedado suficientemente demostrado en diversos estudios. Además puede ser más eficaz el refuerzo de la conducta deseable acompañado del no refuerzo de la conducta indeseable. Se trata de cualquiera de los métodos de refuerzo diferencial reseñados en apartados precedentes. En clase puede ser también muy eficaz el refuerzo vicario. Al tratarse de una situación grupal, el refuerzo de la conducta deseable de otro, es decir, el refuerzo del modelo ejerce sobre la misma conducta del observador una influencia positiva. b) Métodos para desarrollar nuevas conductas Para desarrollar nuevas conductas y para hacer frente a conductas indeseables son indispensables los procedimientos citados anteriormente, o sea, moldeamiento, modelado y control de estímulos, por un lado, y extinción, castigo y saciación por otro. c) Los métodos grupales Se basan en el refuerzo de la conducta del grupo como conjunto. Hay dos posibilidades: refuerzo de toda la clase en función de la conducta de un sólo alumno y refuerzo de cada alumno premiando a todos y cada uno en función de la conducta. En estos casos pueden utilizarse refuerzos positivos o refuerzos secundarios mediante fichas o contratos de contingencias. Los métodos grupales tienen especial interés cuando se quiere fortalecer conductas de apoyo mutuo entre los alumnos y aumentar la experiencia de interdependencia. 6. PRÁCTICAS DE AUTOEVALUACIÓN DEL TEMA 4 4-1: Las cañas de pescar construidas con fibra de carbono atraen fuertemente los rayos en las tormentas, así que un pescador recoge y guarda su caña en cuanto ve los primeros relámpagos en el cielo. La conducta de recoger y guardar la caña es: a) Una conducta de escape. b) Una conducta de evitación. c) Una conducta reforzada positivamente. d) Una respuesta condicionada clásicamente. 234 Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11 4-2: A un atleta se le exige, temporada tras temporada, una cierta mejora de sus marcas personales para poder seguir disfrutando de una beca. Con él se está aplicando: a) El automoldeamiento. b) El moldeamiento. c) El castigo por supresión. d) El castigo por aplicación. 4-3: El entrenamiento de omisión provocará una emoción de: a) Alivio o relajación. b) Expectación positiva. c) Miedo. d) Frustración. 4-4: Para enseñar a un niño a vestirse solo, la madre le da “estrellas doradas” de cartulina (intercambiables por un regalo), una por cada prenda que el niño se pone solo. La madre proporciona: a) Refuerzos primarios, en programa de razón variable (RV). b) Refuerzos condicionados, según un reforzamiento parcial. c) Refuerzos condicionados, según un reforzamiento continuo. d) Refuerzos sociales, según un reforzamiento continuo. 4-5: A un niño que está aprendiendo a no mojar la cama por las noches, sus padres le permiten ver un video de dibujos animados cada día que se despierta con la cama seca. Los padres están aplicando: a) El principio de inhibición reactiva. b) El principio de inhibición recíproca. c) El efecto de refuerzo parcial. d) El principio de Premack. 4-6: Como administradora de un restaurante de comida rápida, Teresa sabe que un representante de la compañía puede visitarla en cualquier momento, haciéndose pasar por cliente, y evaluar la calidad de la comida y el servicio. Como resultado, ella elabora un plan permanente de mantenimiento y limpieza al cual se ciñe cada día, ¿cuál es el programa de refuerzo que está empleando la compañía para asegurar una ejecución adecuada?: a) IF b) IV c) RF d) RV Anotaciones y observaciones