VeriDream : renforcer l’apprentissage des robots par le rêve
L’intelligence artificielle aide les robots à accomplir des tâches par eux-mêmes. Ces derniers peuvent apprendre et s’entraîner tout en étant déconnectés, en passant par des simulations à l’instar d’un rêve. Les écarts avec le réel et l’infinité de choix disponibles dans la vraie vie limitent cependant l’efficacité de ces méthodes. Un problème que le projet VeriDream, soutenu par le Conseil européen de l’innovation, compte bien atténuer.
Nul ne sait si des moutons électriques sont impliqués dans l’affaire, mais un nouveau projet européen veut faire rêver les robots. Côté français c’est Stéphane Doncieux, professeur à Sorbonne Université et directeur adjoint de l’Institut des systèmes intelligents et de robotique (ISIR, CNRS/Sorbonne Université) qui est impliqué dans VeriDream
VeriDream fait suite au projet Dream
L’efficacité du comportement du robot dépend cependant de la qualité des représentations de son système, c’est-à-dire des informations qu’il tire de son environnement. Ensuite, chaque machine a des limitations propres en termes d’actions qu’elle peut physiquement effectuer. De plus, lorsqu’il est confronté à un trop grand nombre de possibilités, le robot peine à faire des choix et à les ajuster.
Le projet Dream s’est donc inspiré du développement humain et animal, en ajoutant une phase de renforcement de l’apprentissage avec des simulations. Le programme s’entraîne sans que le robot soit activé, ce qui apporte un gain de temps et d’argent considérable sans user les machines. Les tâches données aux robots dotés de bras consistaient en des manipulations simples d’objets : lancer, pousser…
Des robots qui apprennent (projet DREAM)
Audiodescription
VeriDream reprend ce principe, mais en l’appliquant au contexte industriel. « L’apprentissage se fait toujours dans un environnement particulier : la simulation ne correspond pas forcément aux conditions réelles où le robot évoluera », précise Stéphane Doncieux. Pour y remédier, les chercheurs vont tenter de détecter automatiquement les défaillances de politiques définies manuellement avant même que le robot y soit confronté.
« On teste une politique générée au préalable, puis on se déconnecte du réel pour analyser ce qu’il s’est passé et explorer de nouvelles alternatives, » poursuit Stéphane Doncieux. Ces travaux s’appuient sur des méthodes évolutionnistes, qui testent le comportement d’un réseau de neurones sans connaître la solution idéale. Les algorithmes génèrent des variations d’une politique et en sélectionnent les plus intéressantes. Un fonctionnement bien différent de l’apprentissage supervisé, très en vogue, où l’on sait ce que le réseau doit répondre et où on le corrige en fonction.
Le projet est coordonné par le DLR