Mécanismes neurobiologiques de la régulation de l’exploration pendant l’apprentissage

07 mai 2019

Résultats scientifiques Informatique

L’exploration est un élément essentiel de l’apprentissage par essai et erreur. Il ne suffit pas de répéter des choix qui se sont révélés payants dans le passé (exploiter), il convient également de vérifier de temps en temps qu’une autre option n’est pas plus avantageuse (explorer). À chaque fois que les options que nous exploitons deviennent moins rentables, il devient particulièrement utile d’en explorer de nouvelles. Ce principe heuristique simple suggère que l’exploration ne devrait pas rester constante dans le temps.

Les mécanismes d’apprentissage dans le cerveau sont connus pour impliquer la dopamine, un neuromodulateur émis à chaque fois qu’une récompense inattendue est obtenue. Ce signal peut servir à faire ressortir les actions les plus rentables dans une situation donnée. Mais le rôle de la dopamine ne s’arrête pas là, et de nouveaux travaux réalisés en collaboration entre une équipe de neurosciences expérimentales à Bordeaux (Institut de neurosciences cognitives et intégratives d’Aquitaine (INCIA - CNRS/Université de Bordeaux), et une équipe de modélisation mathématique à Paris (Institut des systèmes intelligents et de robotique (ISIR - CNRS/Sorbonne Université)) montrent que la dopamine peut également réguler l’exploration au cours de l’apprentissage.

Les algorithmes issus de l’intelligence artificielle distinguent deux types d’exploration : d’une part une exploration dite « dirigée », très étudiée depuis une dizaine d’années, qui oriente notre curiosité vers des actions dont les conséquences sont incertaines ou mal connues ; et d’autre part une exploration dite « aléatoire » qui consiste à simplement essayer une action au hasard de temps en temps. Ce dernier type d’exploration est relativement simple à mettre en œuvre, mais moins étudié. Les chercheurs ont fait l’hypothèse que les niveaux de dopamine cérébrale pouvaient directement affecter le degré d’exploration aléatoire.

Pour tester cette hypothèse, ils ont atténué l’effet de la dopamine dans le cerveau de rats au cours d’une tâche de choix nécessitant de l’exploration. Les rats devaient trouver parmi trois leviers lequel était associé à une plus forte probabilité de récompense. Comme le meilleur levier changeait régulièrement, les rats devaient en permanence ré-explorer et ré-apprendre.

De façon frappante, les résultats montrent qu’une diminution de la dopamine cérébrale augmente le taux d’exploration des rats, conformément à l’hypothèse de départ. Ainsi, moins il y a de récompenses et donc de dopamine dans le cerveau, plus celui-ci pourrait l’interpréter comme un signe qu’il faut explorer de nouveaux choix. Les chercheurs ont analysé ces données comportementales au moyen de modèles mathématiques et de simulations, en comparant en particulier des modèles utilisant de l’exploration aléatoire ou de l’exploration dirigée. Quel que soit le modèle testé, c’était systématiquement le paramètre régulant le taux d’exploration aléatoire qui était impacté par la dopamine, et pas le taux d’exploration dirigée ni la vitesse d’apprentissage.

Ces résultats montrent que des heuristiques simples pour réguler l’apprentissage ont pu être sélectionnées au cours de l’évolution chez les mammifères. Elles permettent une adaptation comportementale efficace sans nécessiter de calculs coûteux pour évaluer explicitement l’incertitude liée à chaque action, comme ce serait le cas dans l’exploration dirigée.

Dopamine blockade impairs the exploration-exploitation trade-off in rats, François Cinotti1 , Virginie Fresno2 , Nassim Aklil1 , Étienne Coutureau2 , Benoît Girard1 , Alain R. Marchand2 & Mehdi Khamassi1 . Scientific Reports volume 9, Article number: 6770 (2019)

Notes

Institut des systèmes intelligents et de robotique (ISIR - CNRS/Sorbonne Université)
Institut de neurosciences cognitives et intégratives d’Aquitaine (INCIA - CNRS/Université de Bordeaux)