VOLUMEN: VIII  NÚMERO: 20-21

 

 

 

CONDICIONAMIENTO, EMOCIÓN Y MOTIVACIÓN

Aprendizaje de incentivo y regulación emocional de la conducta

 

 

Matías López y Raúl Cantora

Universidad de Oviedo

 

 

 

INTRODUCCIÓN

 

 

     El estudio en sujetos animales de las bases conductuales, cognitivas y neurobiológicas de los procesos de condicionamiento (aprendizaje asociativo) ha contribuido notablemente a determinar la participación de estos procesos en la regulación emocional y motivacional de la conducta. Son muchos los psicólogos actuales del aprendizaje que reconocen que los animales poseen mecanismos capaces de detectar y retener información acerca de los estímulos del ambiente y las consecuencias de su conducta, incluida su valoración afectiva, y que usan esa información en la satisfacción de sus necesidades primarias. Jerzy Konorski, un pionero en el estudio de la relación entre aprendizaje y motivación, resaltó con acierto en su obra de 1967 que los estímulos o señales del ambiente pueden adquirir a través del condicionamiento propiedades motivacionales de incentivo capaces de instigar la conducta. A este respecto, formuló la distinción entre conducta consumatorias y preparatoria para referirse, respectivamente, a las respuestas de un organismo que podrían reflejar los atributos sensoriales específicos de los acontecimientos con los que interactúa y sus cualidades afectivas o motivacionales. Recogiendo esta tradición, en este capítulo se revisa primero la naturaleza asociativa de las representaciones cognitivas formadas por los animales durante el condicionamiento clásico y el instrumental, prestando especial atención a la codificación de los atributos sensoriales y afectivos de los estímulos. Seguidamente se analiza el problema del control motivacional de la conducta instrumental partiendo de la noción de aprendizaje incentivo y su influencia reguladora sobre la conducta. Por último, se alude al papel relevante de la motivación de incentivo en la adicción a las drogas, problemática que refleja muy claramente la interacción entre procesos de aprendizaje, afectivos y motivacionales en el desarrollo y mantenimiento de las conductas adictivas.

 

 

REPRESENTACIÓN DE RELACIONES ASOCIATIVAS

 

 

    Uno de los aspectos más estudiados del condicionamiento a nivel cognitivo es el tipo de asociaciones formadas entre los elementos integrantes de la situación de aprendizaje (ver Hall, 2002). En el condicionamiento clásico los elementos componentes son un estímulo biológicamente relevante (el estímulo incondicionado, EI) que se presenta en conjunción temporal con un estímulo inicialmente neutro (el estímulo condicionado, EC). Definitorio en esta variedad de condicionamiento es que los estímulos se producen con independencia de cualquier actividad que el animal pueda realizar. En el condicionamiento instrumental, en cambio, el reforzador (o consecuencia) sigue a la ejecución de una conducta específica por parte del sujeto (respuesta instrumental, R). Sin restar importancia a los mecanismos que intervienen en la producción de los cambios conductuales adquiridos en estos paradigmas experimentales, lo que nos interesa aquí es comentar la naturaleza de las representaciones cognitivas que el animal posee de las relaciones asociativas que percibe entre los estímulos del ambiente y entre la conducta y sus consecuencias.

     Uno de los procedimientos experimentales más empleadas para estudiar la naturaleza de la representación interna en que se codifica la experiencia de aprendizaje es la técnica de devaluación del reforzador. Esta técnica, aplicada a una situación de condicionamiento clásico, consiste básicamente en reducir el valor hedónico o motivacional del EI (alimento, por ejemplo) una vez producido el condicionamiento. Para ello se empareja el alimento con una sustancia tóxica capaz de producir malestar gástrico hasta que deja de ser apetecible para el animal. Si el EC recupera algún recuerdo del EI (esto significa que el sujeto ha representado información sobre sus atributos específicos) perderá su capacidad de provocar la respuesta condicionada (RC) al adecuar el organismo su comportamiento al valor modificado del alimento. En el contexto del condicionamiento instrumental, una vez que el animal ha aprendido a realizar una respuesta particular para conseguir la recompensa alimenticia, se le inyecta la solución tóxica. Es obvio que si la ejecución de la respuesta está determinada por el conocimiento que el sujeto posee de las consecuencias de su conducta, su motivación para realizar la respuesta deberá disminuir.

 

 

    Condicionamiento clásico

 

    Una fructífera línea de investigación llevada a cabo por Holland y otros investigadores (ver Pickens y Holland, 2004) resulta muy demostrativa acerca de la capacidad de los animales para codificar información sobre las propiedades sensoriales específicas del EI en el condicionamiento clásico. En un experimento recogido en Holland (1990), presentaba a unas ratas por separado dos tonos de distinta frecuencia (ECs), cada uno asociado con una solución de sacarosa a la que incorporaba un sabor distintivo para diferenciarlos (EIs). Tras varias sesiones de condicionamiento, las ratas desarrollaron la habilidad de acercarse al comedero (la respuesta condicionada) donde se depositaban los fluidos (ver figura 1). En la segunda fase del experimento, ahora sin los sonidos, las ratas recibieron una de las soluciones gustativas seguida de una inyección de cloruro de litio (LiCl) para provocarles aversión a ese sabor en concreto y lo rechazaran. En la fase final de prueba presentaron de nuevo por separado los sonidos a las ratas, esta vez sin su correspondiente sabor, para evaluar si producían la respuesta condicionada de aproximación al comedero. Como se puede ver a la derecha de la figura 1, la conducta de acercarse al comedero en presencia del tono (T2) cuyo sabor había sido devaluado con LiCl fue menor que la tendencia a aproximarse al comedero cuando estaba el tono alternativo (T1), el estímulo asociado con el sabor no devaluado. Resultados como éste indican que durante el condicionamiento clásico los animales forman una asociación EC-EI entre las representaciones internas de los estímulos, de modo que la activación del recuerdo del EI (de sus propiedades sensoriales específicas) por el estímulo asociado tiene el mismo efecto conductual que su propia presentación. Esto es, aplicado a los datos de este experimento, las ratas evitan acercarse a la señal relacionada con el sabor devaluado como si fuese el mismo sabor una vez modificado su valor hedónico o motivacional.

 Respuestas de aproximación al comedero en presencia del tono (T1) asociado con el sabor devaluado con LiCl y del tono (T2)

asociado con el sabor sin devaluar, durante las fases de condicionamiento y de prueba. Adaptado de Holland (1990).

Figura 1

 

 

 

    Otro experimento del mismo autor resulta, si cabe, más convincente aún para apoyar la idea anterior. Esta vez, dos grupos de ratas recibieron varias presentaciones de un tono seguido de un sabor distintivo hasta que aprendieron a realizar la respuesta condicionada de aproximación al comedero. En una fase posterior, las ratas recibieron una nueva exposición al tono pero esta vez sin el sabor. En los animales asignados al grupo experimental, al tono le seguía de inmediato una inyección de LiCl para provocarles malestar gástrico, mientras que en los sujetos del grupo de control el litio se administraba varias horas después de la exposición al tono. Es importante recalcar que aquí, a diferencia del otro experimento, no se emparejó directamente el LiCl con el sabor sino con el tono (el EC) que lo representaba, de ahí el interés en citar este experimento. Holland argumentó que el recuerdo del sabor activado por el sonido llegaría a asociarse con el LiCl durante la fase de devaluación. De acuerdo con este argumento, en la prueba final, las ratas experimentales mostraron una fuerte aversión al sabor, lo cual indica que el tono fue capaz de activar su representación gracias a la asociación formada anteriormente entre esos dos acontecimientos.

 

    Condicionamiento instrumental

 

    La representación de relaciones asociativas no es exclusiva del condicionamiento clásico. En el condicionamiento instrumental el experimentador dispone una contingencia entre una conducta particular del sujeto y un reforzador, resultando en un aumento posterior de la conducta. Al indagar sobre la naturaleza asociativa de esta variedad de aprendizaje se ha sugerido que la asociación principal es la formada entre la respuesta del sujeto y sus consecuencias reforzantes (ver Colwill, 1994). Con la técnica de devaluación del reforzador se ha comprobado en muchos estudios de laboratorio que la ejecución instrumental se basa en la codificación de información sobre las consecuencias de la conducta. Como ejemplo, describiremos un experimento de Colwill y Rescorla (1985) sobre este cuestión. En este estudio enseñaron a unas ratas privadas de comida a realizar dos respuestas instrumentales distintas, una reforzada con una solución de sacarosa y la otra con bolitas de comida. Luego, en la fase de devaluación, proporcionaron a las ratas los dos reforzadores por separado, uno seguido de LiCl para hacer desagradable ese reforzador y el otro sin los efectos aversivos del litio. Al final hicieron una prueba de elección donde las ratas podían realizar cualquiera de las dos respuestas pero sin obtener los reforzadores. Los resultados del experimento mostraron que las ratas preferían realizar la respuesta cuyo reforzador conservaba el valor afectivo o motivacional inicial, a expensas de la respuesta cuyo reforzador había sido devaluado. El mismo efecto obtuvieron estos autores cuando saciaban a los animales con uno de los reforzadores antes de realizar la prueba. Con este procedimiento de saciación específica, comprobaron que las ratas realizaban menos la respuesta con la que habían obtenido durante el condicionamiento el reforzador del que luego se saciaron. Estos datos indican que los animales codifican o representan información acerca de las consecuencias de su conducta durante el aprendizaje instrumental. 

     Si bien lo expuesto hasta aquí nos lleva a concluir que las expectativas sobre el valor de las consecuencias de la conducta determinan en gran medida el comportamiento tardío del animal, a veces, la ejecución de una respuesta instrumental puede automatizarse como consecuencia de la práctica o repetición. Algunos autores (por ej., Dickinson y Balleine, 1993) han incorporado en su análisis de la conducta motivada la distinción entre acción instrumental para referirse a aquellos respuestas que resultan afectadas por la modificación del valor de sus consecuencias tras el condicionamiento y hábito en alusión a las respuestas cuya ejecución no depende del valor actual del reforzador. En estudios de laboratorio con ratas se ha constatado que variables como la magnitud del entrenamiento instrumental pueden hacer que la conducta controlada por sus consecuencias (asociación respuesta-consecuencia) se automatice tomando la forma de un hábito mecánico rígido (asociación estímulo-respuesta). Por ejemplo, Adams (1982), en un estudio de devaluación del reforzador, enseñó a dos grupos de ratas a presionar una palanca para obtener bolitas de sacarosa como recompensa. En un grupo limitó el entrenamiento a la realización de 100 respuestas reforzadas, mientras que en el otro prolongó el entrenamiento hasta que las ratas obtuvieron 500 reforzadores. Tras el entrenamiento, inyectó a la mitad de los sujetos de cada grupo con LiCl después de consumir las bolitas de sacarosa para modificar su valor motivacional, mientras que al resto de animales no inyectó el litio. En la prueba final observó que la devaluación del reforzador había reducido la frecuencia de la respuesta en los sujetos que tuvieron un entrenamiento breve en comparación con los sujetos que recibieron el entrenamiento prolongado y con los sujetos de control que no recibieron el tratamiento de devaluación. La conclusión que se extrae de este experimento es que la práctica prolongada resulta en una ejecución de la respuesta menos deliberada y exenta del control por sus consecuencias. En otras palabras, la acción instrumental que en principio parece orientada a la obtención de la recompensa se convierte en una respuesta automática. Según esta idea, las conductas compulsivas, como la búsqueda de drogas,  probablemente se basan en procesos y mecanismos de aprendizaje diferentes a los que intervienen en la fase inicial de adquisición de la respuesta, una cuestión que se tratará más adelante.

 

 

CODIFICACIÓN DE LOS ESTÍMULOS

 

 

     Los trabajos revisados en la sección anterior sugieren que los animales pueden formar representaciones internas de la estructura causal de su entorno y de las consecuencias de su conducta. Pero, ¿qué propiedades de los estímulos codifican en esas relaciones asociativas? En otras palabras, ¿qué atributos de un EI puede activar el EC en su ausencia? Como antes se mencionó, de acuerdo con Konorski, un EC podría recuperar información tanto de los atributos específicos del EI (modalidad sensorial, intensidad) como de sus propiedades afectivas o cualidad motivacional (sabor, valor nutritivo, en el caso del alimento). Muchos estudios conductuales con animales sugieren que el procesamiento de los estímulos tiene lugar tanto a nivel sensorial como afectivo. De hecho, algunos modelos teóricos actuales del condicionamiento (por ej., Wagner y Brandon, 1989) desarrollan en su explicación los argumentos inicialmente expuestos por Konorski.

 

     Propiedades sensoriales

 

     Una segunda prueba realizada al final del experimento de Holland (1990) descrito con anterioridad nos permite abordar esta cuestión. Esta prueba parte de la observación de que algunos mamíferos, como los roedores, muestran expresiones faciales específicas ante un fluido aplicado directamente en la cavidad oral dependiendo de su valor hedónico positivo o negativo (ver Berridge, 2000). Por ejemplo, la infusión de una solución de sacarosa en la cavidad bucal de la rata a través de una cánula provoca una reacción típica de ingestión que comprende movimientos rítmicos de la boca, sacar la lengua y lamerse de las patas, signos propios de una valoración hedónica positiva del fluido. Sin embargo, estas reacciones cambian cuando al fluido dulce le sigue una sustancia tóxica como el cloruro de litio (LiCl) que provoca malestar gástrico. Tras el condicionamiento aversivo de la solución con litio, las ratas muestran respuestas de rechazo como frotarse la barbilla, agitar la cabeza y las patas delanteras. Estas reacciones orofaciales reflejan una valoración hedónica negativa de la solución ingerida.

     Basándose en esta técnica, Holland registró mediante una videocámara las expresiones faciales de sus ratas cuando les infundía la solución de sacarosa (sin los sabores distintivos añadidos a la solución durante el condicionamiento) en presencia de los dos estímulos auditivos. El resultado fue que los animales efectuaron más respuestas de rechazo -como si la sacarosa les resultase desagradable al paladar- en presencia del tono (T2) asociado con el sabor que fue devaluado más tarde; en cambio, mostraron más reacciones orofaciales de ingesta en presencia del tono (T1) relacionado con el sabor que no se había devaluado (ver figura 2). Es importante señalar que cuando administraron la sacarosa en ausencia de los estímulos auditivos los animales no mostraron reacciones faciales de rechazo pero sí de ingesta. Una posible explicación de estos resultados es que los estímulos auditivos pudieron activar las propiedades sensoriales específicas de los sabores con los que se habían asociado durante la fase inicial de condicionamiento.

 

 

 

 

 

Respuestas de ingesta y de rechazo de la solución de sacarosa cuando se infunde

oralmente sola (Sac) o en presencia de los estímulos auditivos, T1 y T2. Adaptado de Holland (1990). 

Figura 2

 

 

 

Existen muchas pruebas empíricas de que también en el condicionamiento instrumental los animales codifica información sobre la naturaleza sensorial del reforzador obtenido. Los estudios de devaluación del reforzador con el procedimiento de saciedad sensorial antes citados (ej., Colwill y Rescorla, 1985) así lo atestiguan. En otros trabajos se ha estimado la transferencia de las propiedades adquiridas por un EC en el condicionamiento clásico al control de la conducta instrumental. Por ejemplo, Colwill y Rescorla (1988) presentaron a unas ratas dos estímulos (luz y tono) cada uno asociado con un reforzador diferente (bolitas de comida y una solución de sacarosa). Luego, en ausencia de los estímulos, enseñaron a las ratas por separado dos respuestas instrumentales, una reforzada con comida y la otra con sacarosa. En la prueba posterior de transferencia los animales pudieron realizar por vez primera las dos respuestas en presencia de los estímulos condicionados, constatándose que preferían realizar la respuesta que compartía el reforzador con el EC que estaba presente en ese momento. Es difícil explicar este dato apelando a las propiedades motivacionales de los estímulos, dado que son positivas en ambos casos; más bien, cada estímulo pudo activar las propiedades sensoriales específicas del reforzador con el que se asoció inicialmente. 

     La activación de la representación de las propiedades sensoriales o perceptivas de los estímulos vía mecanismos asociativos puede relacionarse con la codificación de imágenes mentales y otros aspectos de la cognición en humanos. Por ejemplo, recientemente se ha demostrdo aplicando técnicas de neuroimagen que las áreas cerebrales activadas al percibir determinados aspectos de una escena visual (movimiento, rostros, objetos) se activan también cuando se pide al sujeto que imagine esos aspectos de la escena visual. Asimismo, se ha comprobado en humanos que la exposición repetida a una secuencia de estímulos formada por una clave auditiva y otra visual hace que el estímulo auditivo active por sí mismo las regiones cerebrales activadas en un principio por la clave visual (ver O´Craven y Kanwisher, 2000). Estos hallazgos muestran un claro paralelismo entre la evocación de las propiedades sensoriales de un estímulo en tareas de imaginación mental en el hombre y la representación generada asociativamente durante el condicionamiento clásico en animales. 

 

     Propiedades afectivas

 

    Aunque algunos psicólogos rehuyen hablar de procesamiento afectivo y emocional en los animales, actualmente podemos emplear diversas medidas fisiológicas (presión sanguínea, tasa cardíaca, actividad neuroendocrina) y conductuales (actividad espontánea, respuestas faciales) como indicadores de sus estados afectivos (ver Berridge, 2000; Paul, Harding y Mendl, 2005). En el presente contexto, el término procesamiento afectivo se emplea para referirnos a la representación de las propiedades apetitivas o aversivas (valor hedónico) de los reforzadores primarios. A través del condicionamiento clásico, los estímulos o señales del ambiente pueden adquirir también propiedades hedóncias capaces de motivar y atraer hacia ellos la conducta, un aspecto, el de la motivación de incentivo, que será tratado en un apartado más adelante.

     La experimentación animal nos muestra que las representaciones formadas durante el aprendizaje asociativo incorporan también información sobre las propiedades afectivas de los estímulos. Como prueba de que un EC puede evocar una representación de los atributos afectivos del EI podemos considerar el fenómeno de bloqueo del condicionamiento. En el bloqueo un animal no logra aprender una asociación EC-EI, ni producir la respuesta condicionada, cuando está presente otro estímulo asociado anteriormente con el mismo EI. Este efecto se puede atenuar (desbloqueo) cuando se modifican algunas propiedades del EI, como su cantidad, entre las dos fases del procedimiento. Sin embargo, se ha demostrado tanto en el condicionamiento clásico como en un paradigma instrumental que el bloqueo del condicionamiento se mantiene cuando se cambian las características cualitativas del EI entre las fases del experimento, por ejemplo de agua a comida (Williams, 1994). Puesto que estos dos reforzadores poseen cualidades sensoriales muy diferentes, la conclusión derivada de estos trabajos es que el bloqueo será efectivo cuando las propiedades afectivas generales del EI se mantienen constantes. En suma, sugieren que los animales procesan información sobre la cualidad afectiva de los estímulos.

    Otros fenómenos conductuales, como la aversión condicionada al sabor o el desarrollo de preferencias alimenticias, denotan fuertemente que mediante el condicionamiento se puede modificar el valor afectivo de un estímulo. Como antes se señaló, la técnica de devaluación del reforzador supone la asociación de un estímulo gustativo con  una sustancia tóxica. Como resultado de esta experiencia, el animal evita consumir el fluido pero, además, cambian sus reacciones orofaciales de un patrón de ingesta a otro de rechazo cuando se le fuerza a probar el fluido, un aspecto considerado anteriormente. Algunos autores como Garcia (1989) han sugerido que el condicionamiento con sustancias eméticas como el LiCl hace que el sabor adquiera un valor hedónico negativo como muestran las reacciones orofaciales del animal (frotarse la barbilla, agitar la cabeza). En apoyo de esta idea, se ha observado que la administración de fármacos bloqueadores de las respuestas de náusea antes del tratamiento aversivo hace que los animales no manifiesten respuestas orofaciales de rechazo -indicativo de que el sabor preserva sus cualidades afectivas positivas originales- si bien evitan consumir el fluido de modo voluntario. En cambio, si el tratamiento aversivo se realiza con drogas reforzantes como las anfetaminas, los animales también evitan consumir la solución gustativa pero muestran las reacciones orofaciales de ingestión (movimientos rítmicos de boca, lamerse las patas) características de la valoración hedónica positiva del fluido (Limebeer y Parker, 2000; Parker, 2003).

    En un estudio reciente de nuestro laboratorio (Cantora, López, Aguado, Rana y Parker, 2005), hemos podido comprobar que en la adquisición de una aversión gustativa actúan dos procesos de aprendizaje diferentes, de un lado, la evitación del fluido por la anticipación de las consecuencias gástricas negativas de la ingesta y, de otro, un cambio en la valoración hedónica o afectiva de la solución gustativa. Concretamente, en una fase primera de nuestro estudio, dimos a unas ratas a beber una solución de sacarina seguido de la administración de LiCl para provocar aversión. Otros animales, de control, recibieron el litio varias horas después de la exposición al fluido. En una segunda fase de extinción, que duró varios días, obligamos a la mitad de las ratas de cada condición experimental a probar la sacarina infundiéndola a través de una cánula implantada en la cavidad bucal; el resto de animales tuvo acceso a la sacarina en botellas de cristal sin forzarlos a beber. El resultado fue que la supresión de las reacciones faciales de ingesta provocadas por la aversión desaparecieron en dos ensayos de extinción, mientras que la conducta de evitación del fluido se mantuvo durante cuatro o cinco sesiones más. Esto indica que el tratamiento aversivo modificó las propiedades hedónicas del fluido, un proceso que se produce de forma independiente del  aprendizaje acerca de las consecuencias gástricas negativas de la ingesta.

    De igual modo que un sabor agradable verá reducido su valor hedónico cuando se asocia con malestar gástrico, sabores poco apetecibles pueden volverse preferidos al relacionarse con consecuencias altamente nutritivas o con otros fluidos de valor hedónico positivo. La adquisición de preferencias por determinados tipos de alimentos se atribuye a la modificación de sus propiedades afectivas vía procesos de condicionamiento clásico. Por ejemplo, en una larga serie de estudios Sclafani y colaboradores (ver Sclafani, 2004) han comprobado que cuando dan de beber a las ratas una solución de sacarina seguido de una infusión intragástrica de una solución líquida rica en carbohidratos o en grasas desarrollan una preferencia por la sacarina en comparación con otro sabor asociado con una infusión de agua. También las ratas pueden desarrollar preferencias por soluciones escasamente atractivas hedónicamente hablando (como la quinina) cuando se asocian con una solución de sacarosa de alto valor calórico, lo que provoca un aumento del consumo del animal y la aparición de reacciones orofaciales de ingesta propias de los fluidos percibidos como hedónicamente positivos.

 

    Bases cerebrales

 

    La investigación neurobiológica con técnicas de lesión cerebral, estimulación eléctrica, inmunohistoquímicas o de neuroimagen, ha contribuido notablemente a desentrañar las áreas cerebrales implicadas en el control emocional y motivacional de la conducta (ver Berridge, 2004; Cardinal, Parkinson, Hall y Everitt, 2002). No se pretende aquí ofrecer una visión completa de los circuitos cerebrales de la emoción y la motivación sino simplemente mencionar algunas estructuras particularmente relevantes en el procesamiento afectivo de los estímulos, como la amígdala  (AMG) y la corteza orbitofrontal  (COF).

    La AMG es probablemente la estructura más implicada en la experiencia emocional. En el caso humano, su lesión provoca alteraciones del aprendizaje evaluativo, déficits de la percepción emocional de expresiones faciles y en el recuerdo de acontecimientos emotivos (McGaugh, 2004). Neuroanatómicamente, la AMG posee diversos subnúcleos, dos de ellos críticos en el procesamiento emocional, el núcleo central (AC) y el basolateral (ABL). A este último núcleo alcanza información sensorial tanto subcortical (procedente de los núcleos sensoriales del tálamo) y cortical (áreas sensoriales primarias de la corteza cerebral). Además de centro de recepción información, la amígdala, a través del núcleo central, AC, envía proyecciones a diversas áreas del hipotálamo, el hipocampo y las áreas corticales de asociación (como la corteza orbitofrontal) que controlan la producción de respuestas motoras, autonómicas y endocrinas características del condicionamiento clásico de estados emocionales. El daño cerebral en estas estructuras ocasiona severas alteraciones en la expresión de diferentes respuestas emocionales. Por ejemplo, en el aprendizaje del miedo, las lesiones experimentales en las áreas basolateral y central de la AMG impiden que se condicionen dos respuestas propias de la rata en situaciones de peligro, la respuesta de paralización motora y la reacción de sobresalto (ver LeDoux, 2000; Maren, 2001, 2005).

 

 

Respuestas de aproximación al comedero ante el EC en ratas con lesión en la amígdala

basolateral (ABL) y en ratas de control no lesionadas durante la prueba realizada tras la

devaluación del EI. Adaptado de Hatfield y col. (1996).

 

Figura 3

 

 

     Diversas fuentes señalan el núcleo basolateral de la amígdala, ABL, como el centro responsable de la adquisición de significado emocional o motivacional por los estímulos neutros tanto en el condicionamiento clásico aversivo como en el apetitivo (ver Holland y Gallagher, 2004). Como se señaló anteriormente al referirnos a la técnica de devaluación del reforzador, la producción de la RC a un estímulo condicionado se ve afectada por la modificación del valor motivacional del EI tras el condicionamiento. Sin embargo, este efecto de deterioro de la RC no se produce tras la lesión neurotóxica de la ABL. Empleando esta técnica, Hatfield, Han, Conley, Gallagher y Holland (1996) presentaron a dos grupos de ratas lesionadas y a otros dos de control (sin lesión) una luz (EC) seguido de comida. Tanto los sujetos lesionados como los de control adquirieron con normalidad la RC de aproximarse al comedero en presencia de la luz, lo que indica que la lesión en la ABL no impidió la formación de la asociación EC-EI. Luego, procedieron a provocar aversión a la comida con LiCl en uno de los grupos lesionados y en otro de control. La lesión en la ABL tampoco interfirió con el condicionamiento aversivo gustativo. Lo novedoso fue que en una prueba posterior con la luz sola las ratas del grupo lesionado y devaluado realizaron la RC normalmente, es decir, no adaptaron su conducta al nuevo valor del EI, como sí lo hicieron los sujetos de control no lesionados que sólo recibieron el tratamiento de devaluación (ver figura 3). Esto significa que la lesión en la ABL impide la representación del valor afectivo del EI en el condicionamiento clásico y afecta a la capacidad del EC para acceder a esa representación. Por el contrario, el núcleo central de amígdala, AC, no parece intervenir en la atribución de significado afectivo o motivacional al EC durante el condicionamiento clásico. Hatfield y sus colaboradores, con un diseño análogo al anterior, apreciaron una disminución grande de la RC tanto en animales lesionados en la AC como en sujetos de control no lesionados que habían tenido el tratamiento de aversión.

     En otra serie de estudios recientes realizados con esta misma técnica se ha evaluado el efecto de una lesión neurotóxica en la corteza orbitofrontal, COF, sobre la adquisición de propiedades de incentivo por parte de un EC. Esta estructura tiene conexiones con la ABL y se activa igualmente por la exposición a una recompensa primaria y sus estímulos relacionados. Sin embargo, se piensa que la ABL y la COF desempeñan distintas funciones -si bien complementarias- en la representación de información en el condicionamiento clásico. Concretamente, como sugieren los resultados recién expuestos, se precisa la ABL para la formación de la asociación EC-EI y el acceso a la representación del valor afectivo del EI. En cambio, de la COF dependería el mantenimiento de la información sobre la asociación formada durante el condicionamiento y su uso para la realización de la respuesta adecuada. Por ejemplo Pickens, Sadoris, Gallagher y Holland (2005) han podido comprobar que una lesión neurotóxica en la COF deteriora la ejecución de la RC sólo cuando se produce tras el condicionamiento aversivo. De mediar la representación de la asociación EC-EI y del valor afectivo del EI, la lesión en tal caso no debería influir en la ejecución de la RC cuando se realiza una vez producida la aversión.

 

 

CONTROL MOTIVACIONAL DE LA CONDUCTA

 

 

    En la sección anterior se ha visto que a través del condicionamiento clásico los estímulos pueden adquirir nuevas propiedades hedónicas o afectivas. Ahora se trata de explicar cómo influyen esas propiedades en la ejecución de la conducta aprendida. El término motivación de incentivo alude precisamente a la motivación basada en la expectativa o anticipación de las propiedades afectivas de los reforzadores. Gracias a su asociación con una recompensa, los estímulos pueden adquirir propiedades condicionadas de incentivo y generar estados motivacionales capaces de instigar la conducta, una idea presente en los analistas más representativos del campo de la motivación (ej., Toates, 1986). Con la técnica del registro de las reacciones orofaciales del animal se puede ejemplificar muy bien esta noción de motivación de incentivo. Por ejemplo, en ratas, la presentación de un ruido (EC) seguido de sacarosa provoca una respuesta condicionada de aproximación al bebedero y la conducta consumatoria de ingesta del fluido. Pero, cuando más tarde se da agua al animal a través de una cánula implantada en la cavidad oral en presencia del ruido, se producen las reacciones orofaciales de ingesta propias de las sustancia dulces, indicativo de que el EC ha adquirido la valencia afectiva de la sacarosa. Por el contrario, si el ruido se asocia con una sustancia desagradable (quinina), la rata manifiesta reacciones orofaciales de rechazo al infundirle agua en presencia del ruido, esto es, evoca un estado afectivo similar al que produce la sustancia amarga (Delamater, LoLordo y Berridge, 1986).

     La influencia motivadora en la conducta de las propiedades de incentivo adquiridas por un EC (incentivo condicionado) puede examinarse con el procedimiento de transferencia clásico-instrumental. En este paradigma de laboratorio se evalúa la influencia de una señal de incentivo sobre la ejecución de una conducta instrumental. Como ejemplo, un trabajo de Lovibond (1983). En una primera fase, este autor presentó a unos conejos dos estímulos, una luz y un ruido, el primero seguido de sacarosa -infundida directamente en la cavidad oral- y el segundo sin consecuencias reforzantes. Luego enseñó a los conejos a realizar una respuesta instrumental (presionar una tecla) para obtener la solución de sacarosa y, por último, evaluó la propensión de los animales a realizar esa respuesta ante los dos estímulos por separado sin recompensa. Lovibond comprobó que los animales preferían realizar la respuesta cuando estaba presente la luz, esto es, ante la señal que había adquirido propiedades de incentivo. Como prueba este tipo de estudios, el condicionamiento clásico hace que los estímulos neutros adquieran propiedades condicionadas de incentivo capaces de motivar la conducta. Sin embargo, el valor apetitivo o aversivo adquirido por un reforzador (su valor afectivo o hedónico) constituye también una fuente de motivación de la conducta. El término aprendizaje de incentivo refiere al proceso de aprendizaje responsable de que el valor afectivo o motivacional de una recompensa cambie con la experiencia.

 

    Aprendizaje de incentivo

 

    La teoría de incentivo desarrollada por Dickinson y sus colaboradores (ver Dickinson y Balleine, 1994, 2002) sostiene que la ejecución de una respuesta instrumental requiere la integración del conocimiento adquirido a través de dos procesos de aprendizaje diferentes. Por un lado, el conocimiento de las consecuencias de la conducta codificado en la forma de una asociación respuesta-reforzador, una cuestión analizada en un apartado anterior; por otro lado, el aprendizaje acerca de las propiedades hedónicas o afectivas del reforzador. La ejecución de la respuesta requiere la activación de las representaciones cognitivas de estos dos tipos de conocimiento. En una larga serie de estudios, Dickinson se propuso evaluar la naturaleza de este proceso de aprendizaje de incentivo. En esencia, revitaliza la vieja idea expuesta por Tolman (1949) según la cual los estados motivacionales modifican el valor de incentivo de los reforzadores primarios. Para Tolman, consumir un alimento en un estado de alta motivación (hambre) aumenta su valoración afectiva, mientras que consumirlo en un estado de saciedad reduce su valor atractivo. El aprendizaje sobre las propiedades de incentivo de un reforzador depende, según esta noción, del consumo o interacción directa con el reforzador en la condición de motivación relevante. Este proceso de aprendizaje de incentivo se ha explorado en animales con dos procedimientos, la técnica de devaluación del reforzador y modificando el estado o nivel de motivación del animal durante el proceso de aprendizaje.

    Antes se comentó un experimento de Colwill y Rescorla (1985) realizado con la técnica de devaluación del reforzador. Tras enseñar a unas ratas a presionar una tecla para obtener sacarosa como recompensa, condicionaron una aversión a la sacarosa asociándola varias veces con LiCl. Con este experiencia repetida, los animales pudieron aprender acerca de las nuevas propiedades de incentivo (negativas) del reforzador antes de realizarse la prueba. Según la noción de aprendizaje de incentivo, el tratamiento aversivo no debería afectar a la ejecución de la respuesta instrumental sin una experiencia consumatoria previa con el reforzador devaluado. Balleine y Dickinson (1991) realizaron un experimento parecido para evaluar esta hipótesis. Concretamente, estos autores enseñaron primero a sus ratas a realizar una respuesta instrumental para obtener sacarosa como recompensa. Realizaron una sola sesión de entrenamiento para evitar que una experiencia masiva con el reforzador atenuase el efecto de la devaluación (como se recordará, la conducta puede automatizarse debido a la repetición). Nada mas concluir esta sesión, unos animales fueron inyectados con LiCl para provocarles aversión a la sacarosa, mientras que otros fueron inyectados varias horas más tarde para que no desarrollaran aversión. Al día siguiente, proporcionaron la sacarosa a la mitad de los sujetos de cada grupo a fin de que la bebiesen, esta vez sin que tuviesen que realizar la respuesta instrumental para obtenerla. Los otros sujetos recibieron agua durante esta sesión para igualar su nivel de privación. Por último, efectuaron una prueba donde todos las ratas podían realizar la respuesta instrumental sin acceder a la sacarosa. En esta prueba (ver figura 4) realizaron menos la respuesta instrumental las ratas que recibieron el tratamiento aversivo y luego fueron reexpuestos a la sacarosa, es decir, los que tuvieron la experiencia de aprendizaje de incentivo. En cambio, la devaluación no afectó a la conducta instrumental en los animales que no probaron la sacarosa tras la devaluación. La conclusión final del experimento es que la experiencia consumatoria con el reforzador tras  la devaluación permitió a los animales aprender su nuevo valor de incentivo negativo. Sin esta experiencia, la ejecución de la respuesta instrumental sigue estando determinada por el valor hedónico inicial de la recompensa. En coherencia con este resultado, se ha demostrado que si se inyecta un fármaco antiemético (ondansetron) a las ratas justo antes de la exposición al reforzador devaluado, no aprenden el valor de incentivo negativo del reforzador y continúan realizando la respuesta a pesar del tratamiento de aversión (Balleine, Garner y Dickinson, 1995).

 

. Respuestas instrumentales de presión de palanca de las ratas del grupo devaluado con LiCl y

del grupo de control durante la prueba de extinción. La mitad de los animales de cada grupo

tuvo experiencia consumatoria -aprendizaje de incentivo- con el reforzador devaluado antes

de la prueba. Adaptado de Balleine y Dickinson (1991).

Figura 4

 

 

     La misma conclusión se extrae de los estudios donde se modifica el nivel de motivación de los animales en distintas fases del experimento. Por ejemplo, en nuestro laboratorio hemos visto el efecto que tiene aumentar o disminuir el nivel de sed de unos animales entre el entrenamiento instrumental y la prueba. Cuando se enseña a los animales a realizar la respuesta estando saciados de agua y la prueba se realiza bajo sed, no se aprecia incremento alguno en la tasa de respuesta. Su conducta no difiere de la de sujetos de control que están saciados durante el condicionamiento y en la prueba. Sin embargo, si las ratas consumen el reforzador mientras están sedientas (22,5 horas sin beber agua) antes del condicionamiento, aumenta su tasa de respuesta durante la prueba. Este hecho se explica asumiendo que los animales asignan al reforzador un alto valor de incentivo al consumirlo en el estado de alta motivación (López y Paredes, 1999). El patrón inverso se observa al reducir el nivel de motivación de las ratas entre las fases de entrenamiento y de prueba. En ese caso, disminuye la tasa de respuesta de los animales sólo si tienen la oportunidad de probar el reforzador estando saciados antes de la prueba (López, Balleine y Dickinson, 1992). La manipulación mediante fármacos del estado motivacional de los animales tiene los mismos efectos. Por ejemplo, se sabe que la colecistoquinina -un péptido asociado con la saciedad a corto plazo- hace disminuir el valor de incentivo positivo del alimento. Bajo la influencia de esta sustancia, aumentar el nivel de privación de comida de las ratas no influye en su conducta incluso después de probar la comida estando altamente motivados (Balleine, Davies y Dickinson, 1995). En conjunto, estos hallazgos indican que el estado motivacional de un animal no influye directamente en la ejecución de la respuesta instrumental sino a través del aprendizaje de las propiedades de incentivo de la recompensa.

    Una mención aparte requiere el hecho de que modificar el valor del reforzador a través de una experiencia de aprendizaje de incentivo no influye en la ejecución de la conducta instrumental tras un entrenamiento prolongado. Como se dijo antes, en estas circunstancias, la conducta se automatiza (adopta la forma de un hábito E-R) y se vuelve relativamente independiente del valor actual de sus consecuencias. Dickinson, Balleine, Watt, González y Boakes (1995) examinaron esta posibilidad en ratas que habían aprendido a presionar una palanca para obtener comida estando con hambre. El entrenamiento instrumental constó de 4 sesiones en unos sujetos y de 12 sesiones en otros. Luego dieron la comida a la mitad de los sujetos de cada condición mientras estaban saciados, el estado de motivación en el que se realizaría la prueba posteriormente. El resultado fue una reducción apreciable de la tasa de respuesta en los sujetos que probaron la comida cuando estaban saciados, esto es, los que aprendieron acerca de su bajo valor de incentivo en ese estado motivacional, pero -lo importante aquí- es que este efecto sólo se produjo en los sujetos con un entrenamiento restringido. Con un entrenamiento más prolongado la conducta de los animales no se dejó influir por los cambios en el nivel de motivación o por la experiencia consumatoria previa.

   

 Bases cerebrales

 

    La investigación neurobiológica ha identificado diferentes sistemas cerebrales para los procesos de motivación de incentivo dependientes del condicionamiento clásico (incentivo condicionado) y para el control motivacional de la ejecución instrumental. La adquisición de propiedades de incentivo condicionado por las claves ambientales parece depender del sistema dopaminérgico mesolímbico, formado por fibras nerviosas que emplean dopamina (DA) como neurotransmisor y las áreas o estructuras cerebrales a las que proyectan, en particular el núcleo accumbens (NAc). Por su parte, en el control motivacional de la conducta instrumental intervienen estructuras corticales como la corteza prefrontal (CPF) y la gustatoria (CG), la primera mediando la anticipación de las consecuencias reforzantes de la respuesta y la segunda en el proceso de aprendizaje acerca de las propiedades de incentivo del reforzador. 

    El sistema dopaminérgico mesolímbico lo conforman fibras nerviosas que parten del tronco cerebral (el área tegmento ventral) y proyectan sus axones al núcleo accumbens, la amígdala y la corteza prefrontal, entre otras estructuras del sistema límbico. De ellas, el núcleo accumbens (NAc) parece desempeñar una función crítica en los procesos de recompensa mediados por reforzadores naturales y por drogas adictivas como la cocaína o la anfetamina. Diversos estudios indican que la actividad funcional de las neuronas del sistema mesolímbico dopaminérgico se corresponde con la motivación de incentivo, esto es, con la capacidad de un EC para instigar la conducta. Un procedimiento que ha permitido analizar esta cuestión es la técnica de transferencia clásico-instrumental. Como ya se dijo, esta técnica permite medir la influencia de un estímulo condicionado clásicamente sobre la ejecución de una respuesta instrumental que comparte el mismo reforzador. Por ejemplo, Dickinson, Smith y Mirenowicz, (2000) han comprobado que la administración de drogas que bloquean los receptores de dopamina impide la adquisición de propiedades de incentivo por los estímulos o señales ambientales. Concretamente, estos autores inyectaron a unas ratas un fármaco antagonista de la dopamina (pimocida) antes de condicionar una luz (EC) con comida como EI. Las ratas habían aprendido por separado a presionar una palanca para conseguir bolitas de comida como recompensa. En la prueba de transferencia posterior, observaron que la luz no facilitaba la ejecución de la respuesta en comparación con otros sujetos que no habían sido inyectados con la droga. Lo mismo sucede cuando el fármaco antagonista se administra a los animales justo antes de la prueba de transferencia, que no promueve la ejecución de la respuesta instrumental cuando está presente el EC. Esto indica que la supresión de la dopamina impide tanto la adquisición como la expresión de las propiedades motivacionales de incentivo por un EC. Un resultado similar se ha obtenido en estudios que emplean técnicas citotóxicas de lesión cerebral; una lesión específica del NAc parece anular la influencia motivadora sobre la conducta de un incentivo condicionado (Hall, Parkinson, Connor, Dickinson y Everitt, 2001).

    Sin embargo, las estructuras dopaminérgicas y en particular el NAc no parecen determinates en la representación cognitiva del valor hedónico o afectivo del reforzador. Por ejemplo, Balleine y Killcross (1994) vieron que unas ratas lesionadas en el NAc adecuaban su conducta apropiadamente al valor modificado de la recompensa producido por un cambio en el nivel de motivación. Las ratas aprendieron perfectamente a presionar una palanca para obtener comida mientras estaban con hambre. Sin embargo, una vez saciadas de cara a la prueba, dejaron de responder sólo si habían probado la comida en el estado de baja motivación, el mismo resultado que se observa en animales no lesionados. Esto indica que su conducta es sensible a los cambios que se producen en el valor de la recompensa a pesar de la lesión en el NAc. Es de interés señalar que en este estudio la lesión del NAc perjudicó las respuestas de aproximación al comedero de los animales, lo que indica que sí alteró el valor de incentivo condicionado de las señales ambientales asociadas con la comida.

         En cuanto a los sistemas cerebrales implicados en la motivación de la conducta instrumental, varias líneas de investigación sugieren que la anticipación de la recompensa depende de la corteza prefrontal (CPF), concretamente la región orbitofrontal. Por ejemplo, Balleine y Dickinson (1998) realizaron una lesión neurotóxica en la CPF de unas ratas antes de enseñarles a realizar dos respuestas instrumentales cada una reforzada con un reforzador distinto. La lesión cerebral no impidió que los animales aprendiesen ambas respuestas. De hecho, sus tasas fueron similares a las de otros sujetos de control sin lesionar. Concluido el entrenamiento instrumental, devaluaron uno de los reforzadores con el procedimiento de saciedad específica sensorial que, como se recordará, consiste en proporcionar a las ratas una cantidad ilimitada del reforzador hasta que se sacian. En una prueba posterior de elección entre las dos respuestas, los sujetos de control no lesionados realizaron menos la respuesta cuyo reforzador había sido devaluado, un resultado coherente con la propuesta de que los sujetos codifican información sobre las consecuencias de la conducta. Lo destacable del estudio fue que las ratas lesionadas en la CPF realizaron ambas respuestas por igual, lo que indica que esta estructura interviene en la detección y codificación de la contingencia instrumental, esto es, en la capacidad del animal para anticipar las consecuencias de su conducta.

 

 

 

 

. Número de respuestas instrumentales realizadas por las ratas lesionadas en la corteza gustatoria (CG)

y por las ratas de control durante la prueba de elección del estudio de Balleine y Dickinson (1998).

Figura 5

 

 

 

En cuanto al sistema cerebral responsable del aprendizaje de las propiedades hedónicas o afectivas del reforzador (aprendizaje de incentivo), parece depender de la integridad de la corteza gustatoria (CG), una estructura que participa en el desarrollo de aversiones gustativas y de preferencias alimenticias. Por ejemplo, Balleine y Dickinson (2000) han analizado el efecto que produce una lesión en la región insular de esta estructura sobre la conducta instrumental. El procedimiento que emplearon es similar al descrito antes. Enseñaron primero a unas ratas privadas de comida a realizar dos respuestas, una reforzada con comida y la otra con una solución de almidón. Luego proporcionaron a las ratas uno de los reforzadores (comida) mientras se encontraban saciadas para que aprendiesen su bajo valor de incentivo en ese estado de motivación. El efecto de esta experiencia se evaluó en una prueba posterior donde los animales, saciados, podían elegir entre las dos respuestas. En las ratas de control sin lesión apareció el efecto de aprendizaje de incentivo esperado, realizaron en menor medida la respuesta cuyo reforzador había sido devaluado antes de realizar la prueba. En cambio, los sujetos lesionados realizaron ambas conductas con la misma frecuencia (ver figura 5). La interpretación de estos resultados es que la lesión en la CG alteró la capacidad de las ratas para codificar el nuevo valor de incentivo del reforzador sobre la base de su experiencia consumatoria en el estado de motivación relevante. Esto es, la corteza insular gustatoria parece consituir el sustrato neuronal del proceso de aprendizaje de incentivo que media el control motivacional de la conducta instrumental.

 

 

ADICCIÓN A LAS DROGAS E INCENTIVO

 

    El consumo repetido de sustancias adictivas como la morfina, la cocaína o el alcohol produce modificaciones en la organización cerebral que desencadenan la dependencia fisiológica y conductual de la droga. Una parte importante del estudio experimental sobre las conductas adictivas deriva del interés por determinar la contribución de los mecanismos asociativos del condicionamiento (reforzamiento y motivación de incentivo principalmente) en la adquisición de la adicción a las drogas. La explicación más convencional es que las personas adictas consumen la droga para experimentar sus consecuencias positivas (placer) y evitar los efectos desagradables de su retirada (el síndrome de abstinencia). Los modelos animales de la adicción a las drogas intentan reflejar en sus explicaciones las propiedades más notorias de las conductas adictivas, como el deseo irrefrenable de tomar droga, la pérdida del autocontrol o la recaída tras un período de abstinencia y desintoxicación (ver Cardinal y Everitt, 2004; Shalev, Grimm y Shaham, 2002). Una cuestión central es conocer las razones por las que la experiencia repetida con una droga adictiva deriva en patrones de búsqueda y consumo compulsivos. La investigación recogida en los apartados anteriores indica que los estímulos ambientales relacionados con la administración de la droga y sus consecuencias placenteras adquieren propiedades de incentivo positivo que generan estados motivacionales y expectativas de recompensa que pueden contribuir a la adquisición y mantenimiento  de la adicción.

 

    Acciones y hábitos

 

     La característica conductual que mejor define la dependencia de una droga adictiva en el ser humano es la pérdida de la capacidad para controlar su uso debido al consumo repetido de la droga. Como se expuso en un apartado anterior, algunos modelos del aprendizaje han sugerido que las respuestas instrumentales puede automatizarse como consecuencia de la práctica y el reforzamiento prolongado. La distinción entre acciones y hábitos propuesta por Dickinson y Balleine (1993) alude precisamente al grado en que la conducta responde a la anticipación de sus consecuencias reforzantes o al aprendizaje estímulo-respuesta. Esta distinción es análoga a la efectuada por Tifffany (1990) en su influyente análisis de las conductas adictivas cuando se refiere a la transición desde una fase inicial de consumo ocasional y deliberado de la droga (procesos cognitivos) a su búsqueda compulsiva y la pérdida de control (procesos automáticos).

      El paradigma de devaluación del reforzador instrumental es pertinente para evaluar en animales si la conducta reforzada con sustancias adictivas responde a un proceso de tipo automático o controlado. Como se recordará, con recompensas naturales (comida, bebida) se ha visto repetidas veces que la devaluación del reforzador con sustancias tóxicas o mediante procedimientos de saciación específica produce un deterioro en la ejecución de la respuesta instrumental, lo que evidencia su carácter controlado o la dependencia del valor motivacional actual del reforzador. Varios estudios han llegado recientemente a esta misma conclusión para el caso de conductas reforzadas con drogas adictivas. Por ejemplo, Samson, Cunningham, Czachowski, Chappell, Legg y Shannon (2004) entrenaron a unas ratas a presionar una palanca para obtener etanol como recompensa. Tras el entrenamiento proporcionaron a parte de los animales la solución de tanol seguido de una inyección de LiCl para devaluar sus propiedades reforzantes, mientras que otros animales no recibieron el tratamiento aversivo. El resultado que obtuvieron es comparable al que se produce con los reforzadores primarios, esto es, una disminución significativa de la tendencia de los animales a realizar la respuesta de presión de palanca tras la devaluación del valor reforzante del etanol. Con una técnica de devaluación diferente y empleando cocaína como recompensa, Olmstead, Lafond, Everitt y Dickinson (2001) han obtenido un resultado análogo. Estos autores enseñaron a sus ratas a presionar una palanca (respuesta inicial) para poder realizar una segunda acción (respuesta final) que tenía como consecuencia reforzante una infusión intravenosa de cocaína. Esta secuencia de dos respuestas es equivalente a la distinción entre la conducta de búsqueda de la droga y el acceso final a la misma. Después del aprendizaje, extinguieron la respuesta final haciendo que su ejecución no produjese la droga. Este tratamiento de devaluación provocó en los animales una disminución de la conducta inicial de búsqueda de la droga cuando realizaron una prueba posterior con esa respuesta sola. Este resultado puede interpretarse dicendo que la ejecución de la respuesta depende del conocimiento del animal la relación existente entre la conducta de búsqueda de la droga y la posibilidad de obtenerla. Es decir, sería un proceso controlado en la medida en que la ejecución instrumental depende de la representación cognitiva de las consecuencias reforzantes de la conducta. Otros estudios, en cambio, han aportado pruebas en contra de esta interpretación. Es el caso de Miles, Everitt y Dickinson (2003) que observaron que la devaluación con litio producía una disminución de una respuesta reforzada con sacarosa, pero no afectaba a la ejecución de una conducta reforzada con cocaína. Estos datos los interpretaron como una prueba de que los animales desarrollan un fuerte hábito E-R que podría explicar la persistencia de la conducta encaminada a la obtención de la droga.,

     Con todo, los estudios mencionados no han evaluado qué influencia ejerce la magnitud del entrenamiento sobre la ejecución de una respuesta instrumental reforzada con drogas adictivas. En nuestro laboratorio hemos realizado recientemente un estudio sin publicar aún con esta finalidad. Concretamente, enseñamos a unas ratas a realizar la respuesta de presión de palanca reforzándola con una solución de etanol. Unos animales tuvieron dos sesiones de entrenamiento instrumental con el alcohol, mientras que otros recibieron un total de ocho sesiones de entrenamiento. Luego se devaluó el alcohol con LiCl en la mitad de las ratas de cada condición de entrenamiento (limitado o prolongado) y se comprobó su efecto sobre la ejecución de la respuesta en extinción. El resultado fue una disminución apreciable de la respuesta en los animales que recibieron el tratamiento de devaluación, pero lo más importante fue que este efecto no dependió del nivel de entrenamiento recibido. Estos resultados los interpretamos en el sentido de que la conducta refleja la anticipación del valor reforzante del etanol y que el entrenamiento prolongado no convirtió esta acción en un hábito rígido. Parece por tanto que el reforzamiento sistemático no es un principio que explique el carácter compulsivo de las conductas de búsqueda y consumo de drogas. Los mecanismos de la motivación de incentivo pueden, como seguidamente se verá, responder a este interrogante.

 

     Sensibilización del incentivo

 

     La explicación más conocida de la adicción a las drogas es la hipótesis hedónica. En sus diferentes versiones (placer-dolor, reforzamiento positivo-negativo, procesos oponentes), esta teoría propone que la experiencia inicial con una droga conlleva efectos placenteros (reforzamiento positivo) pero su uso continuado provoca tolerancia y dependencia física de la droga, y su retirada los síntomas desagradables de la abstinencia. La evitación de los síntomas de abstinencia actuaría como fuente de reforzamiento negativo de las conductas de búsqueda y consumo de la droga (ver Baker, Piper y Fiore, 2004). La versión de los procesos oponentes de la hipótesis hedónica analiza todos los aspectos relacionados con la adicción en términos de procesos afectivos opuestos. Según esta teoría, la administración de una droga adictiva provoca en el organismo una respuesta afectiva primaria intensa y de signo positivo, pero su retirada produce una reacción secundaria débil de signo negativo. El uso repetido de la droga modifica este patrón afectivo, reduciendo la intensidad del componente positivo e intensificando la reacción opuesta que se traduce en la tolerancia a la droga y la intensificación de los síntomas de abstinencia (Solomon, 1977). Sin embargo, como reflejan los estudios más recientes, el estado desagradable derivado de la retirada de la droga no parece tan determinante en la motivación de la conducta adictiva como las propiedades reforzadoras o de incentivo positivo de la droga. De hecho, algunas drogas de abuso no producen síndrome de retirada, como las anfetaminas o la cocaina. Por ejemplo, en animales privados de cocaína durante un período de abstinencia se observa un fuerte incremento de la conducta de búsqueda de la droga bajo extinción cuando reciben una pequeña dosis (priming) inmediatamente antes de la prueba; sin embargo, la administración de fármacos como naltrexona que bloquean los receptores opiáceos y presumiblemente precipitan el síndrome de retirada no parece reactivar la conducta instrumental de búsqueda de la droga. La teoría hedónica tampoco logra explicar por qué algunas personas recaen en la droga tras un período de abstinencia prolongado habiendo desaparecido ya los síntomas aversivos de su retirada.

       Desde una orientación psicobiológica, la hipótesis dopaminérgica ha ganado peso entre las explicaciones de la adicción a las drogas. El eje nuclear de este planteamiento es que las sustancias adictivas modifican los sistemas cerebrales –sistema dopaminérigo mesolímbico- que median las propiedades reforzantes de las recompensas naturales (Berridge y Robinson, 1998). La solidez de esta hipótesis procede de varias fuentes de investigación, conductual, farmacológica y neurobiológica. Por ejemplo, se sabe que la administración intracraneal de anfetamina o de cocaína incrementa los niveles de dopamina en el NAc que, como ya se dijo, es clave en la motivación de incentivo. De acuerdo con la hipótesis dopaminérgica, se ha visto que unas ratas entrenadas a presionar una palanca para autoadministrarse estas sustancias responden insistentemente incluso cuando se bloquea con fármacos antagonistas los receptores de dopamina. También se ha comprobado en ratas que la vuelta al contexto asociado con la administración repetida de la droga produce la recuperación de la respuesta instrumental tras su extinción. Sin embargo, este efecto de recuperación de la respuesta se atenúa al bloquear los receptores dopaminérgicos. Probablemente, la recaída en la droga por la exposición a las señales asociadas con su consumo se debe al incremento de la actividad en los circuitos cerebrales dopaminérgicos.

     Una de las principales nociones incorporadas en las versiones más recientes de la hipótesis dopaminérgica  es el concepto de motivación de incentivo. Se ha sugerido que la búsqueda y consumo compulsivo de sustancias adictivas se debe a la sensibilización de los sistemas cerebrales (actividad neuronal incrementada) en los que se basa la motivación de incentivo (ver Berridge, 2001, 2003; Robinson y Berridge, 2001, 2003). La idea central defendida es que la sensibilización de los circuitos cerebrales de la dopamina por la administración de drogas adictivas contribuye a incrementar el valor de incentivo positivo de las drogas y de los estímulos ambientales relacionados con su uso. Este proceso de sensibilización de incentivo dotaría a las claves ambientales relacionadas con la droga con la capacidad de desencadenar su búsqueda compulsiva y la recaída tras un período de abstinencia prolongado.

       Un aspecto muy llamativo de esta teoría es que distingue entre el impacto hedónico de la droga, relacionado con la experiencia subjectiva de placer, y la motivación para buscarla o deseo de la droga. La teoría supone que la sensibilización de las neuronas dopaminérgicas es reponsable del deseo obsesivo de la droga, pero no del placer que produce su consumo. De hecho, la teoría puede explicar algunos aspectos paradójicos de la adicción, como el hecho de que persista la búsqueda compulsiva de la droga a pesar de que no aumente el placer producido por ella. También puede explicar la recaída en la droga sin recurrir a los efectos reforzantes derivados de la reducción de las consecuencias desagradables de la abstinencia. Wyvell y Berridge (2000, 2001) han aportado pruebas convincentes de que deseo y placer son dos procesos psicológicos diferentes mediados por la actividad de distintos sistemas cerebrales. En el primero de estos estudios, emplearon un paradigma de transferencia clásico-instrumental para estudiar los efectos de la administración directa de anfetamina, un agonista de la dopamina, en el NAc. Comprobaron que la activación de la neurotransmisión dopaminérgica por la anfetamina incrementó las propiedades de incentivo de los estímulos asociados con el reforzador instrumental. Para ello, enseñaron primero a una ratas a presionar una palanca para obtener sacarosa como recompensa y, por separado, a asociar una luz (EC) con ese mismo reforzador. El día de la prueba, inyectaron a las ratas con anfetamina directamente en el NAc y vieron su influencia en la capacidad de la luz para facilitar la conducta instrumental. En esta prueba de transferencia la luz se presentaba a intervalos regulares. Observaron que la anfetamina provocaba un aumento importante de la respuesta instrumental cuando estaba presente la luz pero no en su ausencia (ver figura 6, parte superior). Esto significa que la estimulación de la neurotransmisión de dopamina en el NAc aumenta la eficacia incentivadora de los estímulos condicionados clásicamente sobre la conducta instrumental. También de interés, el experimento demostró que la inyección de anfetamina en el NAc no provoca en las ratas un aumento de las reacciones orofaciales de ingesta -indicativas del valor hedónico positivo de la sacarosa- cuando se les administraba esta solución directamente en la cavidad bucal. De hecho, la destrucción neurotóxica del sistema dopaminérgico mesolímbico no impide que las ratas manifiesten reacciones faciales de rechazo cuando se les provoca una aversión gustativa, lo que demuestra que aprenden el valor de incentivo negativo del sabor condicionado. De acuerdo con lo expuesto antes, estos resultados permiten concluir que las alteraciones duraderas de la actividad neuronal del sistema dopaminérgico producidas por el consumo repetido de una sustancia adictiva aumentan la saliencia de las señales ambientales de incentivo y su influencia motivadora en las conductas de búsqueda compulsiva y consumo de la droga. En cambio, este mecanismo de sensibilización neuronal no determinan el impacto hedónico de la droga o el placer que produce su consumo en el organismo.  

 

 

Sensibilización del incentivo y facilitación de la conducta instrumental por un EC asociado con la

recompensa. Arriba: Efecto de la administración intracraneal de anfetamina en el núcleo accumbens

 (NAc), adaptado de Wyvell y Berridge (2000). Abajo: Efecto de la administración intraperitoneal

de anfetamina, adaptado de Wyvell y Berridge (2001).  

Figura 6

 

 

 

     Muy relevante también para el análisis de las conductas adictivas, y en especial de la recaida en la droga, es el hallazgo de Wyvell y Berridge (2001) de que la administración repetida de anfetamina a las ratas por vía intraperitoneal aumenta la saliencia de las señales de incentivo y su influencia facilitadora sobre la conducta de búsqueda de la droga incluso cuando los animales no están bajo sus efectos. En este experimento unas ratas aprendieron, en sesiones separadas, a presionar una palanca para obtener una solución de sacarosa y a asociar un tono (EC+) con ese mismo reforzador; otro estímulo auditivo diferente (EC-) se presentaba intercalado con el primero pero sin sacarosa. Tras esta fase de entrenamiento, inyectaron a la mitad de los sujetos con anfetamina durante seis días consecutivos y luego permanecieron diez días más en sus jaulas sin la droga. El resto de animales, de control, recibió inyecciones vehículo de salino. Finalmente, realizaron una prueba de transferencia clásico-instrumental donde se presentaban los dos ECs intercalados a intervalos regulares mientras las ratas realizaban la conducta instrumental en extinción. Inmediatamente antes de la prueba, la mitad de las ratas de cada condición (sensibilizados y controles) recibía una microinyección de anfetamina en el NAc, mientras que el resto de animales era inyectado con salino. El resultado (ver figura 6, parte inferior) fue que todas las ratas (sensibilizadas y controles) presionaron más la palanca en presencia del tono asociado con la recompensa, EC+, que ante el otro estímulo, lo que replica el efecto básico de facilitación de la respuesta por el incentivo condicionado descrito en el experimento anterior. Lo más relevante fue que en las ratas sensibilizadas ese efecto facilitador sobre la conducta instrumental fue muy superior al observado en los sujetos de control. En definitiva, se puede concluir de estos estudios que el tratamiento con anfetamina (sensibilización del sistema dopaminérgico) incrementa el poder de incentivo de los estímulos (ECs) asociados con la recompensa. En los términos expuestos por la teoría de la sensibilización del incentivo, este proceso podría dotar a las claves ambientales con la capacidad de provocar la búsqueda compulsiva de la droga o el deseo irrefrenable de obtenerla con independencia del placer derivado de su consumo. 

 

 

RESUMEN

 

 

     La revisión efectuada de la investigación experimental con animales sobre los procesos de condicionamiento nos lleva a reconocer que aprendizaje, emoción y motivación son tres aspectos fumdamentales y estrechamente relacionados del funcionamiento psicológico de los animales, resultando de alto valor heurístico para la comprensión de la conducta humana. En el primer apartado se mostró la complejidad y riqueza de las representaciones cognitivas formadas por los animales durante el condicionamiento y cómo retienen en esas representaciones asociativas información sobre los propiedades sensoriales y afectivas de los estímulos relevantes del entorno. El empleo de técnicas conductuales como el registro de las expresiones faciales de los animales y técnicas neurobiológicas de lesión cerebral han contribuido decidídamente a que conozcamos la dimensión afectiva y emocional de la conducta animal. En la segunda parte del capítulo se abordó la cuestión de la relación entre aprendizaje y motivación, particularmente la motivación basada en la expectativa o anticipación de las propiedades afectivas o hedónicas de los reforzadores y su influencia reguladora sobre la conducta. La teoría moderna del incentivo considera que la ejecución de la conducta instrumental requiere la interacción entre estados motivacionales y expectativas cognitivas. Concretamente, el control motivacional de la conducta está participado por el conocimiento cognitivo de las consecuencias de la conducta y el conocimiento acerca de su valor hedónico o afectivo. Por último se puso de relieve que el concepto de incentivo ocupa un puesto central en las teorías explicativas actuales de la adicción a las drogas. La motivación de incentivo se identifica con la actividad del sistema cerebral dopaminérgico relacionado con los procesos de recompensa. La sensibilización del sistema de incentivo por la estimulación continuada con drogas adictivas aumenta el poder de incentivo de las señales asociadas con su administración provocando el deseo compulsivo de la droga con independencia del placer que produzca su consumo.  

 

 

 

REFERENCIAS

 

 

Adams, C.D. (1982). Variations in the sensitivity of instrumental responding to reinforcer devaluation. Quarterly Journal of Experimental Psychology, 34B, 77-98.

Baker, T., Piper, M. y Fiore, M. (2004). Addiction motivation reformulated: an affective processing model of negative reinforcement. Psychological Review, 111, 33-51.

Balleine, B., Davis, A. y Dickinson, A. (1995). Cholecystokinin attenuates incentive learning in rats. Behavioral Neuroscience, 109, 312-319.

Balleine, B. y Dickinson, A. (1991). Instrumental performance following reinforcer devaluation depends upon incentive learning. Quarterly Journal of Experimental Psychology, 43B, 279-296.

Balleine, B. y Dickinson, A. (1998). Goal-directed instrumental action: contingency and incentive learning and their cortical substrates. Neuropharmacology, 37, 407-419.

Balleine, B. y Dickinson, A. (2000). The effect of lesions of the insular cortex on instrumental conditioning: evidence for a role in incentive memory. The Journal of Neuroscience, 20, 8954-8964.

Balleine, B., Garner, C. y Dickinson, A. (1995). Instrumental outcome-devaluation is attenuated by the anti-emetic ondansetron. Quarterly Journal of Experimental Psychology, 48B, 235-251.

Balleine, B. y Killcross, S. (1994). Effects of ibotenic acid lesions of the nucleus accumbens on instrumental action. Behavioral Brain Research, 15, 181-193.

Berridge, K.C. (2000). Measuring hedonic impact in animals and infants: Microstructure of affective taste reactivity patterns. Neuroscience and Biobehavioral Reviews, 24, 173-198.

Berridge, K.C. (2001). Reward learning: reinforcement, incentives, and expectations. En D.L. Medin (ed.), The Psychology of Learning and Motivation, vol. 40 (págs. 223-278). New York: Academic Press.

Berridge, K.C. (2003). Pleasures of the brain. Brain and Cognition, 52, 106-128.

Berridge, K.C. (2004). Motivation concepts in behavioral neuroscience. Physiology and Behavior, 81, 179-209.

Berridge, K.C. y Robinson, T.E. (1998). What is the role of dopamine in reward: hedonic impact, reward learning, or incentive salience? Brain Research Reviews, 28, 309-369.

Cantora, R., López, M., Aguado, L., Rana, S. y Parker, L. (2005). Extinction of a saccharin-lithium association: Assessment by consumption and taste reactivity. Learning and Behavior (en prensa).

Cardinal, R.N., y Everitt, B.J. (2004). Neural and psychological mechanisms underlying appetitive learning: links to drug addiction. Current Opinion in Neurobiology, 14, 3156-162.

Cardinal, R.N., Parkinson, J.A., Hall, J. y Everitt, B.J. (2002). Emotion and motivation: the role of the amygdale, ventral striatum, and prefrontal cortex. Neuroscience and Biobehavioral Reviews, 26, 321-352.

Colwill, R.M. (1994). Associative representations in instrumental contingencies. En D.L. Medin (Ed.), The psychology of learning and motivation, (vol. 31, págs. 1-72). San Diego: Academic Press.

Colwill, R.M. y Rescorla, R.A. (1985). Post-conditioning devaluation of a reinforcer affects instrumental responding. Journal of Experimental Psychology: Animal Behavior Processes, 11, 120-132.

Colwill, R.M. y Rescorla, R.A. (1988). Associations between the discriminative stimulus and the reinforcer in instrumental learning. Journal of Experimental Psychology: Animal Behavior Processes, 14, 155-164.

Delamater, A.R., LoLordo, V.M. y Berridge, K.C. (1986). Control of fluid palatability by exteroceptive pavlovian signals. Journal of Experimental Psychology: Animal Behavior Processes, 12, 143-152.

Dickinson, A. y Balleine, B. (1993). Actions and responses: The dual psychology of behavior. En N. Eilan, R.A. McCarthy y M.R. Brewer (Eds.), Spatial representation: problems in phylosophy and psychology  (págs. 277-293). Oxford: Blackwell.

Dickinson, A. y Balleine, B. (1994). Motivational control of goal-directed action. Animal Learning and Behavior, 22, 1-18.

Dickinson, A. y Balleine, B. (2002). The role of learning in the operation of motivational systems. En R. Gallistel (Ed.), Steven´s handbook of experimental psychology. Vol. 3. Learning, motivation, and emotion. (págs. 497-533). NY: John Wiley.

Dickinson, A. y Balleine, B., Watt, A., González, F. y Boakes, R.A. (1995). Motivational control after extended instrumental training. Animal Learning & Behavior, 23, 197-216.

Dickinson, A., Smith, J. y Mirenowicz, J. (2000). Dissociation of Pavlovian and instrumental incentive learning under dopamine antagonists. Behavioral Neuroscience, 114, 468-483.

García, J. (1989). Food for Tolman: Cognition and cathexis in concert. En T. Archer y L.-G. Nilsson (Eds.), Aversion, avoidance, and anxiety (págs. 45-85). Hillsdale, NJ: Erlbaum.

Hall, G. (2002). Associative structures in Pavlovian and instrumental conditioning. En R. Gallistel (Ed.), Steven´s handbook of experimental psychology. Vol. 3. Learning, motivation, and emotion. (págs. 1-45). NY: John Wiley.

Hall, J., Parkinson, J.A., Connor, T.M., Dickinson, A. y Everitt, B.J. (2001). Involvement of the central nucleus of the amygdala and nucleus accumbens core in mediating Pavlovian influences on instrumental behaviour. European Journal of Neuroscience, 13, 1984-1992.

Hatfield, T., Han, J.S., Conley, M., Gallagher, M. y Holland, P. (1996). Neurotoxic lesion of the basolateral but not central amygdala interfere with Pavlovian second-order conditioning and reinforcer-devaluation effects. Journal of Neuroscience, 16, 5256-5265.

Holland, P.C. (1990). Event representation in Pavlovian conditioning: image and action. Cognition, 37, 105-131.

Holland, P.C., y Gallagher, M. (2004). Amygdala-frontal interactions and reward expectancy. Current Opinion in Neurobiology, 14, 148-155.

Konorski, J. (1967). Integrative activity of the brain. Chicago: University of Chicago Press.

LeDoux, J.E. (2000). Emotions circuits in the brain. Annual Review of Neuroscience, 23, 155-184.

Limebeer y Parkr. L.A. (2000). The antiemetic drug ondansetron interferes with lithium-induced conditioned rejection reactions, but not lithium-induced taste avoidance in rats. Journal of Experimental Psychology: Animal Behavior Processes, 26, 371-384.

López, M., Balleine, B. y Dickinson, A. (1992). Incentive learning and the motivational control of instrumental performance by thirst. Animal Learning and Behavior, 20, 322-328.

López, M. y Paredes, C. (1999). Sensitivity of instrumental responses to an upshift in water deprivation. Animal Learning & Behavior, 27, 280-287.

Lovibond, P.F. (1983). Facilitation of instrumental behavior by a Pavlovian appetitive conditioned stimulus. Journal of Experimental Psychology: Animal Behavior Processes, 9, 225-247.

Maren, S. (2001). Neurobiology of Pavlovian fear conditioning. Annual Review of Neuroscience, 24, 897-931.

Maren, S. (2005). Synaptic mechanisms of associative memory in the amygdala. Neuron, 47, 783-786.

McGaugh, J.L. (2004). The amygdala modulates the consolidation of emotionally arousing experiences.  Annual Review of Neuroscience, 27, 1-28.

Miles, F.J., Everitt, B.J. y Dickinson, A. (2003). Oral cocaine seeking by rats: action or habit? Behavioral Neuroscience, 117, 927-938.

O´Craven, K.M., y Kanwisher, N. (2000). Mental imagery of faces and places activates corresponding stimulus-specific brain regions. Journal of Cognitive Neuroscience, 12, 1013-1023.

Olmstead, M.C., Lafond, M.V., Everitt, B.J. y Dickinson, A. (2001). Cocaine seeking by rats is a goal-directed action. Behavioral Neuroscience, 115,  394-402.

Paul, E.S., Harding, E. y Mendl, M. (2005). Measuring emotional processes in animals: the utility of a cognitive approach. Neuroscience and Biobehavioral Reviews, 29, 469-491.

Parker, L.A. (2003). Taste avoidance and taste aversion: Evidence for two different processes. Learning and Behavior, 31, 165-172.

Pickens, C.L. y Holland, P.C. (2004). Conditioning and cognition. Neuroscience and Biobehavioral Reviews, 28, 651-661.

Pickens, C.L., Saddoris, M.P., Gallagher, M. y Holland, P.C. (2005). Orbitofrontal lesions impair use of cue-outcome associations in a devaluation task. Behavioral Neuroscience, 119, 317-322.

Robinson, T.E. y Berridge, K.C. (2001). Incentive-sensitization and addiction. Addiction, 96, 103-114.

Robinson, T. y Berridge, K.C. (2003). Addiction. Annual Review of Psychology, 54, 25-53.

Samson, H.H., Cunningham, C.L., Czachowski, C.L., Chappell, A., Legg, B. y Shannon, E. (2004). Devaluation of ethanol reinforcement. Alcohol, 32, 203-212.

Sclafani, A. (2004). Oral and postoral determinants of food rewards. Physiology and Behavior, 81, 773-779.

Shalev, U., Grimm, J.W. y Shaham, Y. (2002). Neurobiology of relapse to heroin and cocaine seeking: a review. Pharmacological Reviews, 54, 1-42.

Solomon, R.L. (1977). Addiction: an opponent-process theory of acquired motivation: the affective dynamics of addiction. En J.D. Maser (Ed.), Psychopathology: Experimental models (págs. 66-103). San Francisco: Freeman.

Tiffany, S.T. (1990). A cognitive model of drug urges and drug-use behavior: role of automatic and nonautomatic processes. Psychological Review, 97, 147-168.

Toates, F. (1986). Motivational systems. Cambridge, UK: Cambridge University Press.

Tolman, E.C. (1949). The nature and functioning of wants. Psychological Review, 56, 357-369.

Wagner, A.R. y Brandon, S.E. (1989). Evolution of a structured connectionist model of Pavlovian conditioning (AESOP). En S.B. Klein y R.R. Mowrer (Eds.), Contemporary learning theories: Pavlovian conditioning and the status of traditional learning theory (págs. 149-189). Hillsdale, NJ: Erlbaum.

Williams, B.A. (1994). Blocking despite changes in reinforcer identity. Animal Learning and Behavior, 22, 442-457.

Wyvell, C.L. y Berridge, K.C. (2000). Intra-accumbens amphetamine increases the conditioned incentive salience of sucrose reward: enhancement of reward “wanting” without enhanced “liking” or response reinforcement. The Journal of neuroscience, 20, 8122-8130.

 Wyvell, C.L. y Berridge, K.C. (2001). Incentive sensitization by previous amphetamine exposure: increased cue-triggered “wanting” for sucrose reward. The Journal of Neuroscience, 21, 7831-7840.


 

 [Indice]