Olivier Pietquin : « Apprendre de façon plus globale aux machines pour mieux interagir avec elles »
Olivier Pietquin rejoint l’Institut Universitaire de France en tant que membre junior au 1er octobre 2014. Ses travaux sont à la croisée de l’apprentissage automatique, essentiellement par renforcement, et de l’interaction humain-machine. Il vise ainsi à ce que les interactions soient intégrées par les machines comme des processus de décisions séquentiels. Jusqu’à donner à ces machines les caractéristiques les plus humaines qui soient… comme le rire par exemple.
Une partie importante de vos travaux concerne la modélisation des processus de décision séquentiels. En quoi est-ce important en interaction humain-machine ?
Olivier Pietquin : Quand on interagit avec une machine, elle doit décider ce qu’elle va faire ensuite et prendre cette décision en compte dans le futur, une interaction se construisant avec le temps. Il faut lui faire intégrer que son action maintenant a une conséquence sur le futur. Contrairement à l’apprentissage automatique standard, la machine doit apprendre au fur et à mesure, en interagissant. Tout notre problème est de lui faire apprendre des séquences de décision pour prendre en compte la suite. Le but est de modéliser la séquence et non pas chaque action individuellement.
De plus, lorsqu’une machine interagit avec un humain, elle ne perçoit pas complètement ce que l’humain veut lui transmettre comme information, les données arrivent par des capteurs, un enregistrement vocal… La machine estime, à raison, que les informations qui lui parviennent sont imparfaites. Il lui faut prendre en compte les conséquences de ces incertitudes sur les décisions qui vont suivre. Grâce à des modèles stochastiques, la machine peut deviner ce qui a été dit, rendre moins ambigües les informations en les recoupant ou les confirmant. Notre but est de monter en abstraction, au niveau des intentions plutôt que du signal de parole, pour faire en sorte que la machine comprenne mieux en participant activement à la conversation. C’est un apprentissage au niveau le plus élevé, en espérant qu’en prenant en compte tout le système, cela va permettre d’améliorer l’interaction.
Vous utilisez pour cela, je crois, une méthode d’apprentissage assez originale…
O. P. : Tout à fait, nous utilisons un apprentissage particulier, l’apprentissage par renforcement, qui est d’ailleurs le thème de l’équipe dans laquelle je travaille. Ainsi, nous ne disons pas à la machine quoi faire, mais nous la récompensons si elle fait bien. En effet, un utilisateur peut souvent donner son avis (positif ou négatif) sur une interaction sans pour autant indiquer ce qui aurait dû être fait pour améliorer les choses. La machine essaie alors de maximiser le cumul de récompenses sur chaque session. Elle va essayer de maximiser sur la séquence entière de décisions et pas seulement une décision instantanée, ce qui permet une optimisation globale du comportement. C’est une forme d’apprentissage qui peut se décliner dans différentes applications, dès que se pose un problème de contrôle en boucle fermée, comme par exemple l’assistance à la conduite de véhicules.
L’intérêt de mon positionnement thématique est que le fait de s’intéresser à l’interaction humain-machine permet de s’intéresser à des problèmes en apprentissage et en automatique qui ne se poseraient pas autrement, si l’humain n’était pas dans la boucle. Nous devons gérer des situations en pire-cas, et ne pas partir de la base d’un comportement en moyenne satisfaisant : une personne peut changer d’avis, ou de comportement. Nous ne sommes plus dans une situation stable, avec un comportement optimal moyen : il faut s’adapter en permanence, l’optimum change avec le temps.
Acquisition de données pour le projet ILHAIRE (sur le rire). L’avatar à l’écran participe à un jeu de "ni oui ni non" avec deux personnes.
Quels sont vos projets en cours ?
O. P. : Je m’occupe depuis longtemps de dialogue humain-machine avec Orange Labs. Quand quelqu’un parle au téléphone, la machine ne comprend pas tout, mais il est nécessaire d’automatiser le plus possible les actions classiques, pour ne transmettre aux conseillers techniques que les vrais problèmes. L’apport des processus de décision séquentiels est important pour la prise en compte des réponses précédentes.
Depuis deux ans je coordonne le projet ANR MaRDi (Man Robot Dialogue), qui étudie l’interaction humain-machine sous l’angle de la mise en situation. Dans un contexte physique, lorsque l’on manipule des objets, que l’on montre des documents par exemple, l’interaction devient compliquée entre humain et machine qui se ne comprennent pas bien. Nous travaillons à améliorer ça pour que l’interaction puisse être ancrée dans le monde réel.
Enfin, un projet original est le projet européen ILHAIRE. Nous cherchons en effet à introduire le rire dans l’interaction humain-machine. Nous savons depuis un moment qu’un humain s’exprime de façon particulière face à une machine par rapport à un humain, et que cela biaise l’interaction. Notre objectif est d’essayer de rendre plus naturelles les interactions humain-machine. Comme sans expression d’émotions les machines ne nous paraissent pas naturelles, voire pas intelligentes, nous essayons d’utiliser le sourire ou le rire côté machine… pour les rendre plus proches de nous et ainsi fluidifier l’interaction.