Aller au contenuAller au menuAller à la recherche

E.Coutureau, A.Marchand et al.dans PLoS Biol

Un nouveau mécanisme pour les différences inter-individuelles d’apprentissage

Le 23 octobre 2018

Manipulating the revision of reward value during the intertrial interval increases sign tracking and dopamine release. Lee B, Gentry RN, Bissonette GB, Herman RJ, Mallon JJ, Bryden DW, Calu DJ, Schoenbaum G, Coutureau E, Marchand AR, Khamassi M, Roesch MR. PLoS Biol. 2018 Sep 26;16(9):e2004015. doi: 10.1371/journal.pbio.2004015. eCollection 2018  Sep

Department of Psychology, University of Maryland, College Park, Maryland, United States of America, Neuroscience and Cognitive Science Program, University of Maryland, College Park, Maryland, United States of America. CNRS, Institut de Neurosciences Cognitives et Intégratives d'Aquitaine (INCIA, UMR 5287), Bordeaux, France. Université de Bordeaux, INCIA, Bordeaux, France. 
Institute of Intelligent Systems and Robotics, Sorbonne Université, CNRS, Paris, France.




 Tous les individus n’attribuent pas de la même manière une valeur motivationnelle aux objets de leur environnement. Certains sont attirés vers un stimulus, d’autres vers la récompense associée à ce stimulus.  Ces comportements correspondent à des signaux différents dans les neurones dopaminergiques du tronc cérébral. A partir des prédictions d’un modèle computationnel, une équipe franco-américaine vient de caractériser expérimentalement les mécanismes de ces différences inter-individuelles. Cette étude a été publiée dans la revue PLOS Biology. (Source CNRS communications)
Photo gauche: Etienne  Coutureau, droite: Alain Marchand

Abstract PubMed
Recent computational models of sign tracking (ST) and goal tracking (GT) have accounted for observations that dopamine (DA) is not necessary for all forms of learning and have provided a set of predictions to further their validity. Among these, a central prediction is that manipulating the intertrial interval (ITI) during autoshaping should change the relative ST-GT proportion as well as DA phasic responses. Here, we tested these predictions and found that lengthening the ITI increased ST, i.e., behavioral engagement with conditioned stimuli (CS) and cue-induced phasic DA release. Importantly, DA release was also present at the time of reward delivery, even after learning, and DA release was correlated with time spent in the food cup during the ITI. During conditioning with shorter ITIs, GT was prominent (i.e., engagement with food cup), and DA release responded to the CS while being absent at the time of reward delivery after learning. Hence, shorter ITIs restored the classical DA reward prediction error (RPE) pattern. These results validate the computational hypotheses, opening new perspectives on the understanding of individual differences in Pavlovian conditioning and DA signaling.

Apprendre la valeur des objets et événements de notre environnement est une fonction essentielle à la survie.Un stimulus associé à une récompense acquiert une valeur motivationnelle chez certains individus, dits « sign-trackers ». Chez l’humain, les individus sign-trackers pourraient être plus sensibles aux stimuli et contextes associés à une prise de drogue et vulnérables à la rechute après sevrage. Comprendre l’origine de ces différences inter-individuelles peut donc avoir des impacts importants en matière de santé publique.

Par opposition aux sign-trackers, des animaux goal-trackers se désintéressent du stimulus conditionné lui-même et apprennent selon des principes différents. Chez les sign-trackers, les réponses des neurones dopaminergiques ont les caractéristiques attendues de signaux d’erreur de prédiction (reward prediction error, RPE): en début d'apprentissage elles correspondent à des récompenses inattendues (erreur de prédiction positive), puis diminuent lorsque la récompense devient prévisible (erreur de prédiction nulle). Mais chez les goal-trackers ces réponses persistent alors même que la récompense est parfaitement prévisible, et leur apprentissage semble indépendant de la dopamine.

Afin d’expliquer ces différences comportementales et neurobiologiques, les chercheurs ont récemment proposé un modèle computationnel "STGT" (pour sign-trackers / goal-trackers) qui repose sur l’équilibre entre deux formes d’apprentissage, l’une appelée model-free dépendante de la RPE et l’autre appelée model-based, plus flexible, qui permet une anticipation explicite des événements et des actions. Seul le premier de ces deux systèmes est supposé dépendre de la dopamine. La valeur calculée par les deux systèmes serait combinée sous la forme d’une somme pondérée. Différents individus pourraient donc utiliser davantage l'un des deux apprentissages plutôt que l'autre, et attribuer ainsi des valeurs indépendantes au levier et à la mangeoire (Figure 1)....


 Figure 1: Le modèle computationnel STGT prédit que chez les individus sign-trackers, un poids plus important est donné au système d’apprentissage dopamine-dépendant « model-free », résultant en un transfert de la réponse dopaminergique de la récompense au stimulus (« cue ») qui la précède. A l’inverse les individus « goal-trackers » ont un poids plus important donné au système d’apprentissage dopamine-indépendant « model-based », et une absence de transfert de la réponse dopaminergique. Le modèle STGT prédit toutefois que les différences inter-individuelles d’apprentissage ne soient pas absolues, puisque des manipulations paramétriques de la tâche pourraient modifier la manière dont les individus attribuent une valeur prédictive aux stimuli de l'environnement. Le modèle prédit ainsi qu’il suffit d’augmenter l’intervalle entre les essais (intertrial interval, ITI) pour faire apparaître dans la population une plus grande proportion de comportements de type sign-tracker et de signaux dopaminergiques de type RPE. A l'inverse, un ITI plus court induirait une plus grande proportion de comportements de type goal-tracker et des signaux dopaminergiques ressemblant moins à une RPE (Figure 2).

© Eshel & Steinberg (2018) PLOS Biology, Creative Commons Attribution (CC BY)

Lire la suite sur : http://www.cnrs.fr/insb/recherche/parutions/articles2018/m-khamassi.html 

Etienne Coutureau & Alain Marchand / Institut des Neurosciences Cognitives et Intégratives d’Aquitaine UMR 5287 (CNRS/Université de Bordeaux) 146 rue Léo Saignat 33076 Bordeaux Tél. +33 5 57 57 15 51 (etienne.coutureau @ u-bordeaux.fr)
Dernière mise à jour le 28.11.2018