Aller au contenuAller au menuAller à la recherche

Plaisir et décision, Vincent David....

Mathieu Baudonnat, Anna Huber, Vincent David and Mark E. Walton

Le 21 octobre 2013

"Heads for learning, tails for memory: reward, reinforcement and a role of dopamine in determining behavioral relevance across multiple timescales"
Baudonnat M, Huber A, David V, Walton ME.
Front Neurosci. 2013 Oct 11;7:175. Review.

 

Racontez-nous comment cette revue a commencée ?
La section « Decision Neuroscience » de Frontiers in Neuroscience a contacté Mark Walton (Oxford) qui m’a proposé de contribuer à une revue originale dans le cadre du topic « Dopamine and behavioral flexibility, the question of updating learned behavior ». Nous avons accepté le défi avec plaisir, une évidence pour la dopamine ! Deux jeunes chercheurs, Mathieu Baudonnat et Anna Huber, ont aussi relevé les manches.

Quel était votre objectif, en quoi cette revue est-elle originale ?
L’idée que la libération phasique de DA mésolimbique correspond à un signal de récompense est confortée par un grand nombre de résultats expérimentaux. Roy Wise a beaucoup insisté sur la dimension affective, hédonique de la récompense : DA= plaisir. Sa libération semble en fait associé à tout apprentissage basé sur la surprise, surtout quand la surprise est bonne (Rescorla et Wagner, W. Schulz). Avec l’apprentissage, il y a transfert du codage de la récompense à ce qui la prédit. La distinction entre neurones DA des groupes A10 (aire tegmentale ventrale) et A9 (substance noire) est ici moins nette qu’on ne le pensait. Le succès de l’hypothèse hédonique est aussi du à son côté simplificateur, mais il ne faut pas oublier que le concept de récompense recouvre en fait différents processus comme la captation de l’attention, la répétition de l’action, le maintient de l’information, la motivation et le rapport coût/bénéfice, la prise de décision. Dès la fin des années 60, notamment grâce aux travaux à Bordeaux de M. Le Moal, H. Simon, L. Stinus puis M. Cador, on savait que l’aire tegmentale ventrale est impliquée dans une grande variété de fonctions, qui va de pair avec la divergence anatomique des projections DA. La cible, donc le processus / la région anatomique qui sont modulés, compte autant que le signal modulateur. Plus récemment a été mis à jour une diversité inattendue des signaux DA et de leur organisation temporelle: différents signaux interviennent à différents moments. L’objet de notre revue était de proposer une synthèse sur la façon dont ces signaux participent aux processus adaptatifs associés à la DA (plaisir, récompense, renforcement, choix) et comment les expériences passées, la mémoire va à son tour les moduler.


Que ressort-il de cette synthèse ?

Certains outils (voltammétrie, électrophysiologie, optogénétique) offrent aujourd’hui une grille de lecture beaucoup plus précise, de l’ordre de la milliseconde. Mais multiplier les signaux multiplie aussi les questions. Beaucoup de nouvelles idées ont émergées ces dix dernières années. Par exemple, certains signaux précoces (ms) sont impliqués dans l’attention/attraction bien avant toute phase consciente de plaisir. Après le signal phasique, une libération plus longue de DA semble coder l’incertitude, « l’espoir » de la récompense (P=0.5). La structure des signaux (« bursts ») permet de prédire le succès de certains apprentissages. Le timing de la libération dicte même le type de plasticité synaptique qui sera mise en place. Inversement la mémoire module la surprise : tout nouveau tout beau, oui mais pas trop nouveau quand même sinon l’anxiété remplace le plaisir. Le rapport entre signaux phasique et tonique permet de mieux comprendre le niveau de motivation et l’évaluation cout-bénéfice. Enfin, on commence à voir comment la modulation DA de sous réseaux cortico- et hippocampo-striataux influence les stratégies d’apprentissage et la prise de décision.

La prochaine étape ?
ll me semble qu’on entre dans une phase particulièrement « stimulante » où la mesure de ces signaux avec une grande précision temporelle et spatiale chez l’animal libre va accélérer notre compréhension de l’adaptation normale du comportement à un environnement incertain. Parallèlement, l’étude de l’effet des drogues sur ces différents signaux devrait fournir des informations importantes sur ce qui est modifié dans les comportements addictifs. Par ailleurs l’apprentissage par récompense bénéficie depuis longtemps de modèles formels qui permettent une formulation précise des hypothèses fonctionnelles. En retour ces nouvelles données réinterrogent les modèles, ce qui pourrait faire aussi l’objet d’une autre revue intéressante. Nous avons d’ailleurs à Bordeaux des spécialistes qui j’espère pourront s’en charger…

 

Abstract
Dopamine has long been tightly associated with aspects of reinforcement learning and motivation in simple situations where there are a limited number of stimuli to guide behavior and constrained range of outcomes. In naturalistic situations, however, there are many potential cues and foraging strategies that could be adopted, and it is critical that animals determine what might be behaviorally relevant in such complex environments. This requires not only detecting discrepancies with what they have recently experienced, but also identifying similarities with past experiences stored in memory. Here, we review what role dopamine might play in determining how and when to learn about the world, and how to develop choice policies appropriate to the situation faced. We discuss evidence that dopamine is shaped by motivation and memory and in turn shapes reward-based memory formation. In particular, we suggest that hippocampal-striatal-dopamine networks may interact to determine how surprising the world is and to either inhibit or promote actions at time of behavioral uncertainty. 

Post it

David Vincent
Ph.D.CR CNRS

Equipe : Interactions entre émotions et systèmes de mémoire : du vieillissement normal au pathologique
(D. Béracochéa) 
Institut de Neurosciences Cognitives & Intégratives d'Aquitaine (INCIA)
CNRS UMR 5287/Université Bordeaux 1 Avenue des facultés
33405 Talence 

 

Mathieu Baudonnat
Postdoctoral Research Fellow
Walton Laboratory
Department of Experimental Psychology
University of Oxford
South Parks Road
Oxford OX1 3UD
U.K.