Élisa Fromont : mieux comprendre les systèmes de décision des algorithmes

Distinctions Informatique

Élisa Fromont est professeure à l’Université de Rennes 1 depuis 2017. Ses travaux de recherche à  l’ Institut de recherche en informatique et systèmes aléatoires (IRISA - CNRS/ENS Rennes/Inria/INSA Rennes/Institut Mines-Télécom/Université de Bretagne Sud/Université de Rennes 1) sur l’interprétabilité des résultats dans l’apprentissage automatique et la fouille de données lui ont valu d’être nommée membre junior de l’institut universitaire de France en octobre 2019.

Quels liens existe-t-il entre la fouille de données et l’apprentissage automatique ?

Élisa Fromont : Je m’intéresse particulièrement aux thématiques liées à l’apprentissage automatique (machine learning) et à la fouille de données. Je travaille en lien étroit avec un grand nombre d’entreprises ce qui rend mes travaux, en pratique, très appliqués. Ma recherche porte sur la mise au point de nouveaux algorithmes (d’apprentissage ou de fouille) qui permettent de résoudre des problèmes concrets qui n’ont pas de solution « sur l’étagère ».

L’apprentissage automatique et la fouille de données sont des sous-domaines de l’Intelligence Artificielle (IA) qui se démarquent comme axes transversaux entre informatique et les mathématiques appliquées. Le but de l’apprentissage automatique est d’acquérir de la connaissance à partir des données. Cette connaissance se traduit, la plupart du temps, comme une fonction mathématique, appelée modèle, pour laquelle nous cherchons à estimer des paramètres. Une fois cette fonction « apprise », elle peut être utilisée pour « prédire » de nouvelles informations sur de nouvelles données. La fouille de données cherche également à extraire de la connaissance à partir de données mais, les modèles appris, sont de nature descriptive. Ce sont des sous parties des données : des motifs, des régularités ou des ressemblances (clusters) que l’on a pu identifier automatiquement grâce aux algorithmes mis au point. Ces deux sous-domaines de l’IA, qui sont des maillons de la « science des données » me semblent complémentaires. C’est pourquoi mes recherches portent indifféremment sur l’un ou l’autre de ses aspects de l’IA.

Dans l’apprentissage automatique comme dans la fouille de données, je cherche à donner du sens à la donnée.

Quels sont pour vous les enjeux de vos travaux de recherche ?

É. F. : Il y a actuellement un engouement pour le deep learning (apprentissage profond), ce que l’on appelait auparavant « les réseaux de neurones ». Cette technique fonctionne très bien et a un grand intérêt pour certains domaines d’application comme le traitement d’images (reconnaissance de formes, etc.), de la parole ou du texte. Cependant, les résultats ne sont pas toujours interprétables ou le sont difficilement et une question essentielle persiste : savoir pourquoi une décision est prise par le système. Ce problème d’interprétabilité/explicabilité se retrouve également dans la fouille de données dont les algorithmes fournissent souvent un déluge de modèles qui ne sont pas utilisables en pratique.

C’est un sujet d’autant plus intéressant qu’il soulève de nombreux questionnements : est-ce qu’il existe des biais dans les prises de décisions des algorithmes, par exemple dans les fonctions apprises par un réseau de neurones ? Il faut savoir qu’apprendre un réseau de neurones profond équivaut à estimer plusieurs millions de paramètres, donc il n’est vraiment pas évident de déterminer quel paramètre a influencé la prise de décision et déterminé le choix fait par le système. Pour illustrer cela, on peut donner l’exemple d’un réseau de neurones capable de reconnaitre tous les animaux, mais si l’on place une vache sur une plage, il ne sera plus en mesure d’identifier de quelle espèce il s’agit puisque la fonction s’est concentrée sur l’arrière-plan et peu sur l’animal. À ce jour, il existe peu de résultats qui évaluent et permettent de se protéger des biais d’un modèle appris. Cette quête vers une absence de biais est également un problème que l’on retrouve lorsqu’on produit ou que l’on met à disposition des données. Mon projet principal projet de recherche pour les cinq années à venir porte donc sur l’interprétabilité des modèles « opaques » que ce soit en apprentissage ou en fouille de données.

Dans les années à venir, les enjeux seront surtout liés à la définition des critères d’explicabilité des modèles et à quantifier cela.

Il existe aussi un enjeu pour le développement de nouveaux algorithmes afin d’obtenir des modèles qui soient à la fois précis (en termes d’efficacité et de performance), « transparents » mais aussi capable de s’adapter à tous types et quantités de données. Le deep learning n’est pas la panacée. En raison des lois européennes liées aux données, il y a fort à parier que ce sujet se retrouvera au cœur des préoccupations des chercheurs travaillant sur ce domaine et qu’il pourra donner lieu à de nombreuses coopérations.

Quelles applications existe-t-il dans ces domaines ?

É. F. : Ces recherches s’appliquent à tous les domaines pour lesquels des algorithmes sont employés pour aider à prendre des décisions sensibles (voiture autonome, loi, sécurité, consommation d’énergie) mais également tous les domaines ou l’humain doit rester au cœur du processus de décision. Dans ce deuxième cas, l’humain doit pouvoir disposer d’outils pour mettre en question les recommandations de la machine (c’est le cas pour l’agriculture, la médecine mais également la vente). Je travaille par exemple sur l’analyse de séries temporelles issues de capteurs dans des réseaux de télécommunications (pourquoi observe-t-on par moments des arrêts ou des baisses du service ?), de consommation électrique (qu’est-ce qu’une journée « type » ? Peut-on prédire des consommations électriques ?), de fermes intelligentes (« quel sera le poids du veau à naitre ? Cette vache peut-elle être fécondée ?) … Autre exemple pour illustrer ces travaux, les systèmes de recommandation sur des sites de vente, qui dépendent de l’historique du visiteur (son profil), ou des articles qu’il a déjà consultés. Il faut être capable d’expliquer pourquoi l’algorithme a fait telle ou telle recommandation. C’est un travail de compréhension du modèle produit par l’algorithme.

Contact

Élisa Fromont
Professeure à l'Université Rennes 1, membre de l'IRISA