Download TEMA 6 - Apuntes Grado Psicología
Document related concepts
Transcript
http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta PRINCIPIOS DE APRENDIZAJE Y CONDUCTA PROGRAMAS DE REFORZAMIENTO Y CONDUCTA DE ELECCIÓN TEMA 6 Objetivo Los programas de reforzamiento son importantes porque determinan la tasa y el patrón de las respuestas instrumentales. En primer lugar se describen los programas simples de razón fija y variable, y los de intervalo fijo y variable, así como los patrones de respuesta instrumental producidos por estos programas. Después se describen los programas de reforzamiento de tasas de respuesta, para continuar con el análisis de la conducta de elección. INTRODUCCIÓN Una forma particularmente interesante de elección es la que se da entre beneficios modestos a corto plazo frente a beneficios mayores a largo plazo, debido a que estas alternativas representan el dilema del autocontrol. Un programa de reforzamiento es un programa, o regla que determina cómo y cuándo la ocurrencia de una respuesta irá seguida de un reforzador. Los programas de reforzamiento que incluyen relaciones similares entre los estímulos, las respuestas y los reforzadores, normalmente producen patrones similares de conducta. Los programas de reforzamiento influyen tanto en la forma de aprender una respuesta instrumental como en la forma en que se mantiene por el reforzamiento. Los programas de reforzamiento se investigan normalmente en cajas de Skinner que permiten una observación continua de la conducta, por lo que pueden observarse y analizarse realmente los cambios en la tasa de respuesta. PROGRAMAS SIMPLES DE REFORZAMIENTO INTERMITENTE En los programas simples, un factor determina qué ocurrencia de la respuesta instrumental se refuerza. PROGRAMAS DE RAZÓN La característica definitoria de un programa de razón es que el reforzamiento depende sólo del número de respuestas que el organismo realiza. Si este número es uno, cada ocurrencia de la respuesta instrumental provocará la entrega del reforzador. Este tipo de programa se denomina técnicamente Reforzamiento Continuo RFC. El reforzamiento continuo no suele suceder fuera del laboratorio. Las situaciones en las que la respuesta se refuerza sólo alguna vez involucran un Reforzamiento Parcial o Intermitente. Razón Fija. En un programa como éste, hay una razón fija entre el número de respuestas que la rata realiza y el número de reforzadores que consigue. Por ejemplo, siempre se dan 10 respuestas por cada reforzador. 2ER SEMESTRE Miguel Ángel Llamas Romero Página 1 http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta Los programas de razón fija se dan en la vida cotidiana siempre que es necesario un número fijo de respuestas para conseguir el reforzamiento. Un programa de reforzamiento continuo constituye también un programa de razón fija. El reforzamiento continuo es una razón fija de una respuesta por reforzador. En un programa de reforzamiento intermitente de razón fija se da una tasa constante y alta, una vez que la conducta se ha iniciado, pero se puede tardar un tiempo antes de comenzar el número requerido de respuestas. La tasa cero de respuesta que se observa justo después del reforzamiento se denomina Pausa Posreforzamiento. La tasa de respuesta alta y estable que completa cada requerimiento de la razón se denomina Carrera de la Razón. El efecto Tensión de la Razón, hace referencia al deterioro en la respuesta que sucede cuando el requerimiento de respuesta de una razón fija se incremente demasiado rápido. La pausa Posreforzamiento podría recibir la etiqueta más apropiada de pausa prerazón. Razón Variable. Un procedimiento en que se necesita un número de respuestas distinto para la entrega de cada recompensa se denomina Procedimiento de Razón Variable RV. Los investigadores pueden, por ejemplo, entrenar a una paloma para realizar 10 respuestas para conseguir la primera recompensa, 13 para conseguir la segunda, y así sucesivamente. El valor numérico del programa de razón variable indica el número medio de respuestas requerido para conseguir el reforzador. Los programas de razón variable se encuentran en la vida cotidiana siempre y cuando se requiera una cantidad impredecible de esfuerzo para obtener un reforzador. Los jugadores empedernidos tienen que jugar a la máquina para ganar, pero nunca saben cuántas jugadas producirán la combinación ganadora. Debido a que el número de respuestas necesario para conseguir el reforzamiento no es predecible, las pausas predecibles en la tasa de respuesta son menos probables con los programas de RV que con los programas de RF. PROGRAMAS DE INTERVALO En los programas de razón, el reforzamiento depende sólo del número de respuestas que el organismo ha realizado. En los programas de intervalo, las respuestas son reforzadas sólo si ocurren cuando ha transcurrido una cierta cantidad de tiempo y el sujeto ha realizado la conducta instrumental requerida. Intervalo Fijo. En un programa simple de intervalo, una respuesta se refuerza sólo si se da después de que haya transcurrido un tiempo desde la última entrega del reforzador. En un Programa de Intervalo Fijo IF, el tiempo establecido no varía de una ocasión a la siguiente. A medida que el tiempo para la disponibilidad del próximo reforzador se acerca, la tasa de respuesta aumenta. Este aumento en la tasa de respuesta se manifiesta como una aceleración en el registro acumulativo hacia el final del IF. El patrón de respuesta que se desarrolla con los programas de reforzamiento de IF se denomina Festón del Intervalo Fijo. 2ER SEMESTRE Miguel Ángel Llamas Romero Página 2 http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta Es importante darse cuenta de que un programa de IF no garantiza que el reforzador se proporcionará en algún momento a lo largo del intervalo de tiempo. Se requieren respuestas instrumentales para conseguir el reforzador en los programas de intervalo, del mismo modo que en los programas de razón. El intervalo determina sólo cuándo el reforzador está disponible, no cuándo se entrega. Intervalo Variable. En un Programa de Intervalo Variable IV, las respuestas se refuerzan si se dan tras haber transcurrido un intervalo variable desde la administración del reforzador previo o desde el comienzo del programa. Los programas de intervalo variable se hallan en situaciones donde se requiere una cantidad de tiempo impredecible para preparar o dispensar el reforzador. Un mecánico que no dice cuándo tendrá a punto el coche impone un programa de IV. El tiempo que tiene que pasar antes de que el coche esté listo es impredecible. Como en los programas de intervalo fijo, el sujeto tiene que realizar la respuesta instrumental para obtener el reforzador. COMPARACIÓN DE LOS PROGRAMAS DE RAZÓN Y DE INTERVALO Existen notables similitudes, tanto los programas de razón fija como los de intervalo fijo producen una pausa Posreforzamiento después de la administración de cada reforzador. Además, tanto los programas de RF como los de IF producen altas tasas de respuesta justo antes de la administración del siguiente reforzador. Por el contrario, los programas de razón variable y de intervalo variable mantienen tasas estables de respuesta, sin pausas predecibles. En cambio, los programas de intervalo y de razón activan diferentes cambios neuroquímicos en el cerebro. La conducta mantenida por programas de intervalo está mediada por el sentido temporal del organismo, mientras que los mecanismos temporales no están involucrados en la actuación con los programas de razón. La primera evidencia sobre las diferencias fundamentales entre los programas de razón y de intervalo fue proporcionada por un importante experimento de Reynolds. La paloma reforzada con el programa de RV respondió a una tasa mucho más alta que la paloma reforzada con el programa de IV. El programa de RV motivó una conducta instrumental mucho más vigorosa. Reforzamiento Diferencial del Tiempo Interrespuesta. ¿Por qué los programas de razón son capaces de producir tasas de respuesta más altas que los programas de intervalo? El factor crítico es el espaciamiento entre respuestas que se da justo antes del reforzamiento. El intervalo entre una respuesta y la siguiente se denomina Tiempo Interrespuesta o TIR. El intervalo entre sucesivas respuestas es también un parámetro conductual que puede moldearse mediante el reforzamiento. Si se refuerzan TIRs cortos, será más probable que el sujeto realice TIRs cortos. Un sujeto que produce sobre todo tiempos Interrespuesta cortos responderá a una tasa alta. Por el contrario, un sujeto que produce sobre todo tiempos Interrespuesta largos, responderá a una tasa baja. ¿Cómo determinan los programas de intervalo y de razón el reforzamiento de los tiempos Interrespuesta? En un programa de razón, no existen restricciones acerca de cuándo cuentan las respuestas para conseguir el reforzador. De hecho, cuanto más rápido complete el sujeto el requerimiento de la razón, más rápido recibirá el reforzador. Un programa de razón favorece tiempos interrespuesta cortos. Contrariamente, los programas de intervalo no favorecen los 2ER SEMESTRE Miguel Ángel Llamas Romero Página 3 http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta tiempos Interrespuesta cortos, sino una ejecución con TIRs largos. Esto deriva en tasas de respuesta más bajas que las que se observan en los programas de razón. PROGRAMAS DE REFORZAMIENTO DE TASAS DE RESPUESTA A pesar de que los programas de razón producen tasas de respuesta mayores que los programas de intervalo comparables, ni uno ni otro requieren una tasa específica d respuesta para conseguir el reforzamiento. Por el contrario, los Programas de Tasas de Respuesta requieren específicamente que el organismo responda a una tasa particular para obtener el reforzador. En los programas de tasas de respuesta, el reforzamiento de una respuesta particular depende de cuán pronto ocurra tras la respuesta precedente. Puede establecerse un programa de reforzamiento, por ejemplo, en el que una respuesta se refuerce sólo si ocurre dentro de los 5 segundos siguientes a la respuesta precedente. Si el animal realiza una respuesta cada 5 segundos, su tasa de respuesta será de 12 por minuto. Por tanto, el programa proporciona reforzamiento si la tasa de respuesta es de 12 por minuto o mayor. El organismo no será reforzado si su tasa de respuesta se encuentra por debajo de 12 por minuto. Este procedimiento fomenta tasas altas de respuesta. Se denomina Reforzamiento Diferencial de Tasas Altas, o RDA. En los programas de RDA, una respuesta se refuerza sólo si ocurre antes de que haya transcurrido cierta cantidad de tiempo tras la respuesta precedente. Se consigue el resultado opuesto si se refuerza una respuesta sólo si ocurre después de que haya trascurrido cierta cantidad de tiempo desde la respuesta previa. Este tipo de procedimiento se denomina Reforzamiento Diferencial de Tasas Bajas, o RDB. Los programas RDB fomentan que los sujetos respondan lentamente. Los programas de tasas de respuestas se encuentran fuera del laboratorio. CONDUCTA DE ELECCIÓN: PROGRAMAS CONCURRENTES Los programas de reforzamiento que se han descrito hasta ahora, incluyen una única respuesta y el reforzamiento de esa respuesta. La conducta es algo más que la repetición de respuestas individuales. Las situaciones de elección pueden ser bastante complicadas. La situación de elección más simple consta de dos respuestas alternativas, cada una de éstas seguida por un reforzador de acuerdo con su propio programa de reforzamiento. Las aproximaciones recientes al estudio de la conducta de elección utilizan cajas de Skinner equipadas con dos manipulandos, como dos teclas. En el experimento típico, responder en cada tecla es reforzado según algún programa de reforzamiento. Los dos programas funcionan al mismo tiempo, y el sujeto es libre de cambiar de una tecla de respuesta a la otra. Este tipo de procedimiento se denomina Programa Concurrente. MEDIDAS DE LA CONDUCTA DE ELECCIÓN La conducta de elección de un individuo en un programa concurrente se refleja en la distribución de su conducta entre dos respuestas alternativas. Esto se puede medir de varias formas. Una técnica común es calcular la Tasa Relativa de Respuesta de cada alternativa. La tasa relativa de respuesta en la tecla A, por ejemplo, se calcula dividiendo la tasa de respuesta en la tecla A por la tasa total de respuesta, donde RA es la tasa de respuesta en la tecla A y RB es la tasa en la tecla B. RA/(RA + RB) 2ER SEMESTRE Miguel Ángel Llamas Romero Página 4 http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta La tasa relativa de reforzamiento conseguido para cada alternativa de respuesta pude calcularse de una manera semejante a la tasa relativa de respuesta. Por ejemplo, la tasa relativa de reforzamiento para la alternativa A es la tasa de reforzamiento de la respuesta A dividida por la tasa total de reforzamiento (la suma de la tasa de recompensa conseguida en el lado A más la tasa de recompensa conseguida en el lado B), donde rA y rB representan las tasas de reforzamiento obtenidas en cada alternativa de respuesta. rA/(rA + rB) LA LEY DE LA IGUALACIÓN La tasa relativa de respuesta en una alternativa se iguala con la tasa relativa de reforzamiento en esa alternativa. Herrnstein estableció la Ley de la Igualación. Hay dos expresiones matemáticas comunes de la ley de la igualación. En una formulación, las tasas de respuesta y de reforzamiento en una alternativa se expresan como una proporción de las tasas de respuesta y de reforzamiento totales, como sigue: RA/(RA + RB) = rA/(rA + rB) Como antes, RA y RB en esta ecuación representan las tasas de respuesta en las teclas A y B, y rA y rB representan las tasas de reforzamiento conseguidas en cada alternativa de respuesta. La segunda formulación de la ley de la igualación es más simple, las tasas de respuesta y de reforzamiento en una alternativa se expresan como una proporción de las tasas de respuesta y reforzamiento en la otra alternativa, como sigue: RA/RB = rA/rB Ambas expresiones matemáticas representan el mismo principio básico, que las tasas relativas de respuesta se igualan con las tasas relativas de reforzamiento. Infraigualación, Supraigualación y Sesgo de Respuesta La ley de igualación indica que las elecciones son una función ordenada de las tasas de reforzamiento. Las tasas relativas de respuesta no siempre se igualan exactamente con las tasas relativas de reforzamiento. La mayoría de los ejemplos en los que la conducta de elección no se corresponde perfectamente con la relación de igualación pueden acomodarse añadiendo los parámetros, b y s. RA/RB = b (rA/rB)s El parámetro s representa la sensibilidad de la conducta de elección a las tasas relativas de reforzamiento para las alternativas de respuesta. Cuando ocurre una igualación perfecta, s es igual a 1,0, en cuyo caso las tasas relativas de respuesta son una función directa de las tasas relativas de reforzamiento. Un tipo de desviación de la igualación perfecta incluye una sensibilidad reducida de la conducta de elección a las tasas relativas de reforzamiento. Estos resultados se refieren a la 2ER SEMESTRE Miguel Ángel Llamas Romero Página 5 http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta Infraigualación y pueden acomodarse mediante la ecuación anterior dotando al exponente s de un valor menor que 1,0. En otros ejemplos, la tasa relativa de respuesta es más sensible a la tasa relativa de reforzamiento de lo que se predice para una igualación perfecta. Éstos resultados se denominan Supraigualación y pueden acomodarse en la ecuación anterior dotando al exponente de un valor mayor que 1,0. Es más probable que las elecciones muestren sensibilidad reducida a las tasas relativas de reforzamiento que sensibilidad elevada las mismas. En consecuencia, la infraigualación se encuentra más a menudo que la supraigualación. El parámetro de sensibilidad puede estar influido por numerosas variables, incluyendo la especie animal, el esfuerzo o la dificultad incluida en el cambio de una alternativa a la otra, y los detalles de cómo se construyen las alternativas del programa. En general, hacer más difícil el cambio de una alternativa de respuesta a la otra incrementa el parámetro de sensibilidad; cuando cambiar es más difícil, los organismos son más sensibles a las tasas relativas de reforzamiento para las alternativas de respuesta. El parámetro b de la ecuación anterior representa el sesgo de respuesta. En el experimento original de Herrnstein, los animales eligen entre dos respuestas del mismo tipo (picotear una tecla de respuesta), y cada respuesta se refuerza con el mismo tipo de reforzador (un corto periodo de acceso a la comida). Los sesgos de respuesta influyen en la elección cuando las alternativas de respuesta son diferentes (por ejemplo, picotear una tecla y presionar con la pata en un pedal). El parámetro b es también importante cuando el reforzador proporcionado para las dos respuestas es diferente. Una preferencia (o sesgo) por una respuesta o un reforzador sobre la otra influye en el parámetro del sesgo b. En ausencia de sesgos, b es igual a 1,0. La Ley de la Igualación y el Valor del Reforzador Se ha encontrado que la tasa relativa de respuesta es una función de la cantidad relativa de cada reforzador, así como la demora relativa de reforzamiento. También se ha hallado que las tasas relativas de respuesta están determinadas por la patabilidad de los reforzadores. La Ley de la Igualación en los Programas Simples de Reforzamiento ¿Cómo puede una ley que describe la distribución de respuesta entre varias alternativas ser aplicada una sola respuesta? Incluso las situaciones de respuesta única pueden involucrar una elección. En un programa simple, el sujeto recibe no sólo reforzamiento explícito por realizar una respuesta operante específica, sino también recompensas intrínsecas de las otras actividades que puede realizar. Por tanto, el reforzamiento total incluye las recompensas extrínsecas programadas tanto como las fuentes de reforzamiento no programadas. Este tipo de análisis permite la aplicación de la ley de la igualación a programas de reforzamiento de respuesta única. La tasa de respuesta estará directamente relacionada con la tasa de reforzamiento para esa respuesta de una forma negativamente acelerada. La tasa de respuesta disminuirá a medida que aumente la tasa de las otras fuentes de reforzamiento. Dos maneras de modificar la tasa de una respuesta son mediante el cambio de su tasa de reforzamiento o mediante el cambio de la tasa de las otras fuentes de reforzamiento. Es ampliamente aceptado que responder en una situación de respuesta única es una función negativamente acelerada de la tasa de reforzamiento para esa respuesta. La utilidad 2ER SEMESTRE Miguel Ángel Llamas Romero Página 6 http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta de la igualación como una teoría de la conducta en situaciones operantes de respuesta única se ha puesto recientemente en duda. MECANISMOS DE LA LEY DE LA IGUALACIÓN La ley de la igualación está establecida en función de las tasas de respuesta y de reforzamiento prometidas sobre la duración total de las sesiones experimentales. Ignora cuando se realizan las respuestas individuales. Igualmente, las teorías molares de la igualación ignoran qué podría ocurrir a nivel de las respuestas individuales. Las teorías molares explican agregados de respuesta y se relacionan con la distribución total de respuestas y reforzadores en las situaciones de elección. En contraste con las teorías molares, las teorías moleculares se centran en lo que ocurre a nivel de las respuestas individuales y consideran la relación de igualación como resultado neto de estas elecciones individuales. Otras teorías proporcionan caracterizaciones de la conducta que no son molares ni moleculares, sino algo intermedio entre ellas; una de estas teorías es el mejoramiento. Igualación y Maximización de las Tareas de Reforzamiento Los animales cambian una y otra vez entre las alternativas para recibir tantos reforzadores como le sea posible. La idea de que los organismos maximizan el reforzamiento ha sido utilizada para explicar la conducta de elección en los niveles de análisis tanto molecular como molar. Maximización Molecular: los organismos siempre eligen cualquier alternativa de respuesta con mejores probabilidades de que sea reforzada en ese momento. Consideremos, por ejemplo, una paloma. Cuanto más tiempo permanezca la paloma en la tecla A, más probabilidad habrá de que transcurra el requisito de intervalo para la tecla B, y que el reforzamiento esté disponible por el picoteo de B. Al alternar, la paloma puede obtener el reforzador en la tecla B. Ahora, cuanto más tiempo continué picoteando en la tecla B, más probable será que la tecla A esté lista para el reforzamiento. Shimp propuso que la relación de igualación es un subproducto de una alternancia prudente cuando la probabilidad de reforzamiento en la tecla de respuesta alternativa es mayor que la probabilidad de reforzamiento en la tecla de respuesta actual. Maximización Molar: las teorías molares de la maximización presuponen que el organismo distribuye sus respuestas entre las varias alternativas a fin de maximizar la cantidad de reforzamiento que consiguen a la larga. Las teorías molares se centran en agregados de conducta sobre algún período de tiempo más que en las respuestas de elección individual. La teoría de la maximización molar fue originalmente formulada para explicar la elección en programas concurrentes construidos con componentes de razón. En los programas concurrentes de razón, los animales responden exclusivamente en el componente de razón que requiere el menor número de respuestas. Debido a que otras distribuciones de respuesta pueden dar como resultado cantidades semejantes de recompensa, la maximización molar no puede explicar por qué la conducta de elección se distribuye de forma tan cercana la relación de igualación en los programas concurrentes IV-IV y no de otras formas igualmente efectivas. Otro desafío para la igualación molar lo proporcionan los resultados de estudios en los cuales hay una elección entre un programa de razón variable y uno de intervalo variable. En un programa de razón variable, el organismo puede obtener reforzamiento en cualquier momento realizando el número requerido de respuestas. Por contra, en un 2ER SEMESTRE Miguel Ángel Llamas Romero Página 7 http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta programa de intervalo variable, el sujeto tiene que responder sólo de vez en cuando para obtener casi el máximo número de recompensas posibles. Dadas estas diferencias, para el máximo beneficio de un programa concurrente RV-IV, los sujetos deberían concentrar sus respuestas en la alternativa de razón variable y responder sólo ocasionalmente en el componente de intervalo variable. La evidencia muestra que los animales favorecen el componente de RV pero no de forma tan fuerte como predice la maximización molar. Mejoramiento: los mecanismos de mejoramiento operan en una escala temporal que está entre la escala temporal de las teorías molar y molecular. Adviértase que el mejoramiento no se refiere a elegir la mejor alternativa en ese momento (maximización molecular) o hacer que a largo plazo algo sea tan bueno como se pueda (maximización molar). El mejoramiento se refiere a la meta más modesta (o "inocente") de sólo hacer que la situación sea mejor. Las teorías molares se centran en las tasas globales de respuesta y reforzamiento, calculadas sobre la duración total de una sesión experimental. Por contra, las tasas locales están calculadas sólo sobre el periodo de tiempo que un sujeto dedica a una alternativa particular de respuesta. Por ejemplo, si la situación incluye dos opciones, A y B, la tasa local de respuesta en A se calcula dividiendo la frecuencia de respuesta en A por el tiempo que el sujeto dedica a responder en A. La tasa local de una respuesta es siempre mayor que su tasa global. La teoría del mejoramiento asume que los organismos cambian de una alternativa de respuesta a otra para mejorar la tasa local de reforzamiento que están recibiendo. Se asume que los ajustes de la distribución de la conducta entre las alternativas continúan hasta que el organismo está obteniendo la misma tasa local de recompensa en todas las alternativas. 2ER SEMESTRE Miguel Ángel Llamas Romero Página 8