Pour trouver du nectar, des chauves-souris utilisent l’apprentissage par renforcement

Résultats scientifiques Informatique

Sans conflit ni communication, certaines chauves-souris américaines se partagent leurs sources de nourriture sur de vastes territoires désertiques. Des chercheurs de l’IRIF (CNRS/Université de Paris), d’Israël et du Mexique ont montré que ces mammifères volants emploient une stratégie d’apprentissage quasiment optimale, qui ne leur demande que de retenir la position de quelques cactus. Publiés dans la revue Current Biology, ces travaux mêlent avec succès biologie et algorithmique.

Aucune autre chauve-souris ne se démène autant pour ses petits : Leptonycteris yerbabuenae parcourt en effet 200 kilomètres chaque jour entre les grottes, où sa progéniture est à l’abri des températures extrêmes du désert, et les zones où elle se repaît du nectar et du pollen de fleurs de cactus. Cet animal d’Amérique centrale, qui vit en colonies de dizaines de milliers d’individus, réalise ses tournées nocturnes sans jamais se battre avec ses congénères, ce qui montre qu’aucune question de territoire n’est en jeu. Alors, comment de telles nuées de chauves-souris parviennent-elles à s’organiser pour récolter efficacement, et pacifiquement, sa subsistance dans un secteur aussi grand ?

Des chercheurs de l’Institut de recherche en informatique fondamentale (IRIF, CNRS/Université de Paris), de l’université de Tel-Aviv (Israël), de l’université nationale autonome du Mexique et de l’Institut de technologie d’Israël ont donc étudié en détail une colonie de Leptonycteris yerbabuenae, vivant dans le désert californien de Sonora. « Nous avons équipé trente chauves-souris avec des GPS et déployé des drones pour essayer de comprendre comment elles prennent des décisions pour récolter du nectar », explique Amos Korman, directeur de recherche CNRS à l’IRIF et spécialiste de l’algorithmique inspirée par la biologie, sujet pour lequel il bénéficie d’une bourse ERC Consolidator. La partie expérimentale de ces travaux a été menée par Yossi Yovel, de l’université de Tel-Aviv, et sa doctorante Aya Goldstein.

En biologie, les valeurs des paramètres sont souvent ajustées en fonction des données, mais ici nous avons d’abord établi ces valeurs avec des simulations évolutionnistes, puis vérifié qu’elles correspondent bien.

Les relevés ont montré que les femelles retournent auprès de cactus qu’elles ont identifiés comme étant plus riches en nourriture, l’équipe a été étonnée que les chauves-souris parviennent à se les répartir sans communiquer ni se battre. Chaque chauve-souris suit une séquence, en allant voir des cactus les uns après les autres, mais sans le faire selon un ordre qui minimiserait les distances à parcourir. « Nous avons alors pensé que la répartition du territoire était en fait basée sur un processus aléatoire : la chauve-souris cherche au hasard jusqu’à trouver un “bon” cactus, puis mémorise sa position, poursuit Amos Korman. Si le cactus n’offre pas beaucoup à manger, elle ne va pas le retenir. »

Selon cette hypothèse, les femelles commencent par chercher au hasard, puis mémorisent les meilleurs cactus, une notion qui va changer selon les individus. En effet, un même cactus va sembler bon à la première chauve-souris qui l’inspecte, mais celles d’après risquent de ne pas le garder en mémoire s’il n’y a plus assez de nectar. Les femelles n’empiètent donc pas sur les cactus déjà repérés par ses congénères et, ainsi, elles se les divisent.

Groupe de Leptonycteris yerbabuenae © Jens Rydell

Un algorithme assez simple suffit pour modéliser cette hypothèse : la chauve-souris ne retient que quelques cactus et y retourne selon la probabilité d’y dénicher de la nourriture. Elle continue ensuite de chercher de nouveaux cactus et, si elle en trouve un meilleur, elle va le privilégier aux autres. On parle d’apprentissage par renforcement, dont le seul paramètre se résume à la répartition du temps entre revenir aux mêmes cactus et en chercher d’autres.

La stratégie de renforcer un comportement est courante en neurosciences et en machine learning. C’est d’ailleurs comme ça que notre cerveau apprend.

Pour vérifier leur hypothèse, les chercheurs ont construit un modèle de simulation où les chauve-souris sont représentées par des agents qui évoluent en fonction du principe d'apprentissage par renforcement. Les caractéristiques du modèle étaient basées sur les observations de terrain : le nombre de chauve-souris et de cactus, la vitesse en vol, les distances à parcourir… Le modèle est construit de telle sorte que les individus qui ne boivent pas assez de nectar sont tués. Au bout de plusieurs générations, le comportement des agents simulés par le modèle s’est rapproché du comportement réel des chauves-souris, ce qui se traduit par des trajets similaires et la bonne probabilité pour qu’une chauve-souris revienne à un bon cactus.

Les chercheurs ont ensuite poussé leurs études théoriques pour savoir si l’algorithme ne pouvait pas être amélioré, en regardant par exemple ce qu’il se passerait si les chauves-souris avaient une meilleure mémoire et pouvaient se souvenir de davantage de cactus. Résultat, cela ne changerait pas grand-chose et la tactique actuelle est déjà presque optimale. En effet, des séquences plus longues de cactus augmentent le risque que d’autres chauves-souris les visitent avant, et il est beaucoup plus efficace de trouver quelques bons cactus que beaucoup de médiocres. Ces travaux pluridisciplinaires nous éclairent sur la richesse des stratégies de partage de ressources dans le règne animal.

 

Référence

Aya Goldshtein, Michal Handel, Ofri Eitan, Afrine Bonstein, Talia Shaler, Simon Collet, Stefan Greif, Rodrigo A. Medellin, Yuval Emek, Amos Korman & Yossi Yovel. Reinforcement Learning Enables Resource Partitioning in Foraging Bats. Current Biology, 2020.

Contact

Amos Korman
Directeur de recherche CNRS à l'IRIF