Marie-Christine Rousset : « Enrichir et relier les données pour mieux les interroger »
Membre senior de l’Institut Universitaire de France depuis 2011, Marie-Christine Rousset vient d’être renouvelée en octobre 2016 pour une nouvelle période de cinq ans. Ses recherches portent sur l’accès aux connaissances à l’heure du Big Data, pour permettre d’exploiter des bases de données en ligne et obtenir des réponses adaptées, que l’on soit expert ou simple curieux. En donnant une réponse synthétique à une question précise, sa thématique va dans le sens de la création d’un nouveau moteur de recherche.
Comment interroger des données aussi nombreuses et hétérogènes que celles du web ?
Marie-Christine Rousset : En essayant d’y mettre de l’ordre, du liant et du sens grâce à des méta-données et des ontologies. Tout le monde a pu constater que l’on croule actuellement sous les données, certaines de bas niveau, d’autres de bonne qualité, venant de sources différentes, et il est très difficile pour un utilisateur d’obtenir des réponses précises à ses demandes d’information. Pour éviter à l’utilisateur ce travail ingrat de recherche d’information, mon but est de créer une infrastructure de médiation « intelligente » entre les données du Web et les utilisateurs leur permettant d’exprimer des requêtes à un niveau d’abstraction adapté à leurs besoins et à leurs compétences. Pour rendre cela possible, il faut décrire les données relativement à des ontologies, qui fournissent des vocabulaires structurés compréhensibles par des humains et traitables par des machines. Si on prend l’exemple de la médecine, on expliciterait en premier lieu les différents domaines de médecine, puis les sous-domaines, les grandes familles de maladie et de symptômes qu’on spécialiserait ensuite en éléments de plus en plus précis et qu’on lierait avec les différents organes du corps humain. Il est important d’avoir un vocabulaire suffisamment riche pour satisfaire à l’expressivité des requêtes des utilisateurs. On pourrait ainsi déterminer le niveau de réponse à apporter à une requête par rapport à la précision du terme employé dans l’ontologie.
Mais on imagine aisément que ce travail de création d’ontologies serait extrêmement fastidieux s’il devait être fait manuellement, pour l’ensemble des connaissances présentes sur le web. Notre but est qu’il y ait uniquement un noyau défini par un expert d’un domaine, pour construire le premier niveau, et que le reste de l’ontologie se structure grâce à des algorithmes d’enrichissement automatique à partir de fouille de données. J’utilise pour cela des méthodologies qui sont à la croisée de techniques de représentation de connaissances et de techniques de bases de données, en utilisant des standards (linked data et web sémantique) afin de favoriser l’échange et le partage de connaissances.
Répondre à des requêtes posées par le biais d’ontologies repose sur des algorithmes de raisonnement automatique permettant d’inférer, à partir des connaissances formalisées dans l’ontologie, quels sont les éléments de réponses qui satisfont la requête. Compte tenu de la taille très importante des données, garantir des temps de réponses raisonnables pour l’évaluation des requêtes est un problème central au cœur de mes travaux. Il s’agit de trouver des restrictions sur l’expressivité du langage de requêtes et du langage d’expression des ontologies permettant de garantir une complexité algorithmique du calcul des réponses qui soit inférieure dans tous les cas à un polynôme de la taille des données.
Comment se présenteraient ces réponses ? Et quelles applications imaginez-vous ?
M.C. R. : Avec l’approche que je mène, l’utilisateur pourra poser une question précise, et obtenir des réponses structurées sous forme de tableaux. Il pourra par exemple demander quels sont les scientifiques qui sont nés en Europe et qui ont eu un Prix Nobel. Il y a une nécessité de définir un langage de requête assez sophistiqué pour exprimer les demandes qui ne sont pas exprimables par des requêtes mots-clés. Et puis, comme expliqué précédemment, un gros travail sur les algorithmes d’inférence, pour permettre aux algorithmes de faire des corrélations entre des faits précis et des choses abstraites par exemple, ou pour gommer une granularité d’informations qui n’intéresserait pas l’utilisateur. Il peut être utile d’afficher comme réponse qu’Einstein est né à Ulm en Allemagne, mais sans avoir à demander avant à l’utilisateur si c’était bien ce niveau d’informations qu’il recherchait.
Au niveau des applications, il y en a une qui me tient particulièrement à cœur, c’est la gestion et le partage des données ouvertes de la recherche. De plus en plus les chercheurs sont incités à publier sur quelles données de recherches ils se sont appuyés, à diffuser leurs articles scientifiques évidemment, mais aussi leurs jeux de données, protocoles expérimentaux, algorithmes… Il y a là énormément de données qui sont en jeu. Mon but est de construire une infrastructure support pour une vraie science participative et collaborative. Je cherche à fournir des outils avancés de représentation des connaissances pour permettre aux chercheurs de partager et de retrouver facilement des jeux de données issus de la recherche. En extrayant, partageant, croisant les données scientifiques de différents supports, il devient ainsi possible plus facilement de confronter les hypothèses et de comparer les protocoles expérimentaux, tout cela dans un but de reproductibilité des résultats. Dans le cadre du Labex PERSYVAL-lab que je dirige, nous avons d’ailleurs mis en place sur ces principes la plate-forme de partage de données de recherche PerSCiDo.
En suivant les mêmes principes, on peut construire des plateformes de e-learning offrant des services à haute valeur ajoutée pour les étudiants mais aussi pour les enseignants ainsi que pour les chercheurs en sciences de l’éducation. Dans le projet SIDES 3.0, pour lequel un financement vient d’être obtenu dans le cadre du Développement d’Universités Numériques Expérimentales (DUNE), nous proposons une architecture basée sur les technologies du Web sémantique pour la construction d’un Système Intelligent d’Enseignement en Santé visant la formation et le suivi personnalisé de l’ensemble des étudiants en Médecine de France. On pourra ainsi qualifier de façon automatique leur niveau, mettre en place un système de recommandation personnalisée (attention à tel point en psychiatrie, retravailler la pédiatrie…), proposer aux étudiants de voir comment ils évoluent dans le temps et de se comparer par rapport à différents groupes d’étudiants. Les enseignants pourront être guidés sur les contenus qui manquent ou les points à éclaircir, et auront à leur disposition un environnement numérique normalisé de partage du savoir, ainsi qu’un outil d’expérimentation in situ pour la pédagogie et la recherche en sciences de l’éducation.
Parcours
Marie-Christine Rousset est professeur de classe exceptionnelle à l’Université Grenoble Alpes, et membre du Laboratoire d’Informatique de Grenoble (LIG, CNRS/Inria/Grenoble INP/Université Grenoble Alpes). Normalienne (ENS Fontenay aux Roses, promotion 1977) en mathématiques, puis agrégée de mathématiques en 1980, elle se reconvertit vers l’informatique avec un DEA puis une thèse de 3e cycle en informatique en 1983 à l’Université Paris-Sud. Elle y devient assistante, maître de conférences, puis professeur en informatique. Elle obtient un CRCT en 1994 qui lui permet de séjourner à l’Université Technique de Berlin et à AT&T Bell Labs aux États-Unis, et d’infléchir ses travaux vers l’application de techniques de représentation de connaissances à l’intégration de données et le Web sémantique. Elle part à l’Université de Grenoble en 2005 où elle est promue professeur de classe exceptionnelle en 2006. Elle est, depuis 2012, responsable du Labex Persyval-lab qui regroupe 800 chercheurs, et fédère les sciences du numérique à Grenoble.