Prudence au volant, même pour les véhicules autonomes
Comment un véhicule autonome peut-il interagir avec des conducteurs humains, dont les comportements sont incertains ? Edouard Leurent a étudié des algorithmes d’apprentissage averses au risque, qui prennent des décisions prudentes en présence d’incertitude : ses travaux ont été distingués par le prix de thèse du Groupement de Recherche (GdR) MACS et du Club EEA en 2021.
Pour conduire, un véhicule autonome doit en permanence prendre une série de décisions : quand faut-il changer de voie, dépasser un véhicule trop lent, quand peut-on s’insérer dans le trafic ou doit-on au contraire céder le passage ? Ces décisions sont particulièrement difficiles à trancher lorsqu’elles font intervenir des conducteurs humains, dont les comportements ne peuvent être prédits avec certitude. Dans ce contexte, un algorithme peut-il apprendre de ses expériences et s’améliorer, tout en garantissant la sûreté ?
C’est le problème étudié par Edouard Leurent dans sa thèse « Apprentissage par renforcement sûr et efficace pour la prise de décision comportementale en conduite autonome », effectuée dans les équipes communes Inria SequeL et Valse au sein du Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL - CNRS/Université de Lille/Centrale Lille), et en partenariat industriel (CIFRE) avec le groupe Renault. Ses travaux viennent d’être récompensés par le prix de thèse du GdR MACS et de la section Automatique du Club EEA.
Pour assurer la sûreté, même sous incertitude, il s’est intéressé à la théorie de la prise de décision robuste, qui préconise de ne pas considérer uniquement le futur le plus probable, mais plutôt la pire issue possible parmi un ensemble de scénarios jugés crédibles d’après les observations dont on dispose.
Cette démarche théorique est cependant difficile à mettre en pratique, à cause de l’explosion du nombre de scénarios à considérer et de l’accumulation rapide de l’incertitude. Pour en proposer une implémentation efficace, et qui soit accompagnée de garanties théoriques, les travaux d’Edouard Leurent combinent des techniques issues des théories l’automatique et de l’apprentissage automatique.
Mais la prise de décision robuste a également ses faiblesses : très pessimiste, elle tend à adopter un comportement excessivement précautionneux. Par exemple, elle interdirait de dépasser un véhicule lent sur l’autoroute, arguant que ce dernier pourrait très bien décider de changer de voie au dernier moment, provoquant un accident.
Plus généralement, on observe un conflit entre deux objectifs contradictoires : sûreté et efficacité. Une seconde partie de ses travaux consiste donc à estimer ce compromis, afin de pouvoir contrôler en temps réel le niveau de risque assumé par un véhicule autonome.
« L’apprentissage par renforcement est une technique prometteuse car très générale, mais dont les applications réelles restent aujourd’hui très limitées, explique Edouard Leurent à la suite de l’annonce de l’obtention du prix de thèse. À l’inverse, l’automatique est largement utilisée dans de nombreuses industries, mais repose sur des modèles parfois simplistes. À l’avenir, j’aimerais contribuer à combiner ces deux disciplines, afin de les rendre plus fiables, plus efficaces, et davantage applicables aux problématiques industrielles. Je suis très fier de cette distinction, qui me permettra de m’engager avec confiance dans mes prochains projets. »