VeriDream : renforcer l’apprentissage des robots par le rêve

Distinctions Innovation International Robotique

L’intelligence artificielle aide les robots à accomplir des tâches par eux-mêmes. Ces derniers peuvent apprendre et s’entraîner tout en étant déconnectés, en passant par des simulations à l’instar d’un rêve. Les écarts avec le réel et l’infinité de choix disponibles dans la vraie vie limitent cependant l’efficacité de ces méthodes. Un problème que le projet VeriDream, soutenu par le Conseil européen de l’innovation, compte bien atténuer.

Nul ne sait si des moutons électriques sont impliqués dans l’affaire, mais un nouveau projet européen veut faire rêver les robots. Côté français c’est Stéphane Doncieux, professeur à Sorbonne Université et directeur adjoint de l’Institut des systèmes intelligents et de robotique (ISIR, CNRS/Sorbonne Université) qui est impliqué dans VeriDream1 . Ce projet d’envergure a reçu le soutien du Conseil européen de l’innovation (EIC). « Nous aidons les robots à apprendre grâce à des phases de simulation, explique Stéphane Doncieux. Cette consolidation déconnectée du réel joue un rôle attribué, chez les humains, au sommeil et aux rêves. »

VeriDream fait suite au projet Dream2 , qui s’est déroulé de 2015 à 2018 et utilisait des méthodes d’apprentissage ouvert pour faciliter l’adaptation des robots à différentes situations. « On dit au robot ce qu’il doit faire, mais sans préciser comment, détaille Stéphane Doncieux, qui coordonnait ce projet initial. C’est à lui de trouver une solution en explorant les séquences d’actions les plus appropriées. » Ce système repose sur le principe d’une récompense, qui valide les bons choix du robot, afin d’établir progressivement une politique.

  • 1Vertical innovation in the domain of robotics enabled by artificial intelligence methods, innovation verticale dans le domaine de la robotique grâce à des méthodes d’intelligence artificielle
  • 2Deferred restructuring of experience in autonomous machines, restructuration différée de l’expérience dans les machines autonomes
Une politique est une fonction qui dicte au robot quoi faire quand il se retrouve dans une certaine situation. 
Le robot Baxter issu du projet DREAM Crédit photo : Philippe Gauthier / ISIR

L’efficacité du comportement du robot dépend cependant de la qualité des représentations de son système, c’est-à-dire des informations qu’il tire de son environnement. Ensuite, chaque machine a des limitations propres en termes d’actions qu’elle peut physiquement effectuer. De plus, lorsqu’il est confronté à un trop grand nombre de possibilités, le robot peine à faire des choix et à les ajuster.

Le projet Dream s’est donc inspiré du développement humain et animal, en ajoutant une phase de renforcement de l’apprentissage avec des simulations. Le programme s’entraîne sans que le robot soit activé, ce qui apporte un gain de temps et d’argent considérable sans user les machines. Les tâches données aux robots dotés de bras consistaient en des manipulations simples d’objets : lancer, pousser…

Audiodescription

VeriDream reprend ce principe, mais en l’appliquant au contexte industriel. « L’apprentissage se fait toujours dans un environnement particulier : la simulation ne correspond pas forcément aux conditions réelles où le robot évoluera », précise Stéphane Doncieux. Pour y remédier, les chercheurs vont tenter de détecter automatiquement les défaillances de politiques définies manuellement avant même que le robot y soit confronté.

Nous décomposons l’apprentissage en simulation en plusieurs étapes, avec des interactions avec le monde réel. 

« On teste une politique générée au préalable, puis on se déconnecte du réel pour analyser ce qu’il s’est passé et explorer de nouvelles alternatives, » poursuit Stéphane Doncieux. Ces travaux s’appuient sur des méthodes évolutionnistes, qui testent le comportement d’un réseau de neurones sans connaître la solution idéale. Les algorithmes génèrent des variations d’une politique et en sélectionnent les plus intéressantes. Un fonctionnement bien différent de l’apprentissage supervisé, très en vogue, où l’on sait ce que le réseau doit répondre et où on le corrige en fonction.

Le projet est coordonné par le DLR3 de Munich et rassemble des partenaires académiques de Sorbonne Université et de l’ENSTA4 , ainsi que les entreprises internationales Magazino, Synesis et GoodAI.

  • 3Deutsches Zentrum für Luft- und Raumfahrt, centre allemand pour l’aéronautique et l’astronautique.
  • 4École nationale supérieure de techniques avancées (Paris-Saclay)
Le robot mobile de Magazino sélectionne, transporte et range de manière autonome des articles comme des boîtes à chaussures dans les entrepôts.Crédit photo : Magazino GmbH

Contact

Stéphane Doncieux
Professeur à Sorbonne Université, membre de l'ISIR