Humains et rats partagent les mêmes biais face aux récompenses

Shauna Parkes & Stefano Palminteri via Biorender

Lorsque nous apprenons de nos expériences, nous ne sommes pas toujours rationnels : nous avons tendance à surévaluer une option parce qu’elle était la meilleure dans son contexte d’origine, même si elle n’est objectivement pas la plus avantageuse. Une étude publiée dans Nature Communications et menée chez l’Humain et le rat montre que ce biais d’évaluation relative est partagé par les deux espèces et repose sur un même mécanisme d’apprentissage. Ces travaux révèlent l’existence d’un processus cognitif ancien, probablement conservé au cours de l’évolution, qui pourrait jouer un rôle dans certaines pathologies comme l’addiction.

Imaginons que vous deviez choisir entre deux plats dans un restaurant. L’un vous avait semblé excellent lors d’un dîner médiocre, l’autre plutôt décevant lors d’un repas gastronomique. Objectivement, les deux plats se valent et pourtant, vous aurez probablement tendance à préférer le premier. Ce biais, lié à notre façon d’encoder la valeur des expériences en fonction du contexte dans lequel nous les avons vécues, est bien documenté chez l’être humain. Mais est-il partagé par d’autres espèces ? Et surtout, repose-t-il sur le même mécanisme cognitif ?

Une nouvelle étude, publiée dans la revue Nature Communications, montre que ce mode d’évaluation n’est pas propre à l’espèce humaine : les rats présentent le même biais et semblent s’appuyer sur un mécanisme cognitif très similaire.

Un même protocole pour comparer humains et rats

Pour comparer directement humains et rats, les chercheurs ont conçu une tâche d’apprentissage par renforcement au protocole quasi identique pour les deux espèces. Les participants devaient apprendre, par essais et erreurs, quelles images étaient les plus souvent associées à une récompense :de l’argent pour les humains, des pastilles de sucre pour les rongeurs. Ces options étaient présentées par paires dans des contextes distincts : un contexte « riche », où les récompenses étaient globalement fréquentes, et un contexte « pauvre », où elles étaient plus rares.

Après cette phase d’apprentissage, les options étaient recombinées en nouvelles paires lors d’un test de transfert. L’enjeu clé : que choisiraient les sujets lorsqu’on leur présenterait ensemble la « moins bonne » option du contexte riche et la « meilleure » option du contexte pauvre – deux options objectivement équivalentes en termes de probabilité de récompense ?

Un biais partagé entre les deux espèces

Le résultat est frappant : Humains et rats préfèrent majoritairement l’option issue du contexte pauvre.

Autrement dit, les deux espèces surévaluent une option qui était la meilleure de son contexte, même lorsqu’elle ne présente aucun avantage objectif. Ce biais peut même conduire à des choix « sous-optimaux », c’est-à-dire économiquement désavantageux, lorsque l’option préférée en valeur relative est en réalité moins souvent récompensée que l’alternative.

« Ce résultat montre que l’encodage relatif des récompenses (le fait d’évaluer un résultat non pas dans l’absolu, mais par rapport au contexte dans lequel il a été vécu) est un trait cognitif partagé entre l’humain et le rat », expliquent les scientifiques.

Un même algorithme d’apprentissage

Au-delà des similitudes comportementales, les scientifiques ont cherché à identifier le mécanisme sous-jacent à ce biais. Grâce à la modélisation computationnelle, ils montrent qu’un même modèle permet de rendre compte des performances observées dans les deux espèces.

Ce modèle, dit « à point de référence », repose sur l’idée que le cerveau estime progressivement la valeur moyenne des récompenses disponibles dans chaque contexte. Chaque résultat est ensuite évalué relativement à cette moyenne locale.

Les auteurs comparent ce processus à l’adaptation de la pupille à la luminosité ambiante : de la même façon que le système visuel ajuste sa sensibilité en fonction de l’environnement lumineux, le cerveau normalise la valeur des récompenses en fonction du contexte. Ce mécanisme améliore l’efficacité du traitement de l’information, mais génère en contrepartie les biais observés lors des prises de décision.

Des différences dans la correction des biais

Malgré ces similarités majeures, quelques différences apparaissent entre les deux espèces.

Les humains corrigent plus rapidement leur biais lors de la phase de test, probablement grâce à une implication plus importante du cortex préfrontal et de la mémoire de travail.

Les rats, quant à eux, semblent plus sensibles aux mauvais résultats, ne corrigeant leur préférence biaisée que lorsqu’elle entraîne une perte réelle de récompenses.

Un mécanisme ancien aux implications cliniques

Figure : Les rats et les humains ont été entraînés à la même tâche de prise de décision, dans laquelle ils devaient choisir entre des paires fixes de stimuli visuels (A–B et C–D), chacune associée à une probabilité de récompense spécifique (0–100 %). Ils ont ensuite été confrontés à de nouveaux choix, incluant une comparaison directe entre les options B et C. Bien que B ait une probabilité de récompense plus élevée que C, les deux espèces ont systématiquement préféré C. Cette préférence reflète un biais contextuel : C avait auparavant été la « meilleure » option de sa paire (C > D), tandis que B avait été la « pire » option (B < A). // Crédits : Shauna Parkes & Stefano Palminteri

Ces résultats suggèrent que l’évaluation relative des récompenses constitue un mécanisme cognitif ancien, conservé au cours de l’évolution chez des espèces ayant divergé il y a plusieurs dizaines de millions d’années.

Loin d’être une simple erreur de jugement, ce biais pourrait représenter une adaptation avantageuse dans des environnements naturels où les conditions changent constamment. Évaluer une récompense relativement à son contexte permettrait ainsi d’ajuster plus efficacement les comportements aux ressources disponibles.

La mise en évidence de ce mécanisme chez le rat ouvre également de nouvelles perspectives pour la recherche. Elle permettra notamment d’explorer les bases neurobiologiques de l’apprentissage contextuel grâce à des approches expérimentales impossibles à mettre en œuvre chez l’humain.

Les scientifiques envisagent déjà d’utiliser ce modèle pour étudier les altérations de ce processus dans certaines pathologies, en particulier les addictions. De premiers résultats obtenus chez des consommateurs d’opioïdes suggèrent en effet que l’apprentissage dépendant du contexte pourrait être perturbé dans ces situations.

Référence

Reference-point dependent reinforcement learning in humans and rats.
Lachlan A. Ferguson*, Magdalena Soukupova*, Sébastien Bouret, Stefano Palminteri# & Shauna L. Parkes#.
Nature Communications
https://doi.org/10.1038/s41467-026-73623-x

*These authors contributed equally

#These authors jointly supervised this work

Publication: 16/06/26
Mise à jour: 01/07/26