Pierre Senellart : pour une meilleure extraction et mise en contexte des résultats scientifiques

Distinctions Informatique

Spécialiste de l’extraction et de la gestion de données sur le web, Pierre Senellart, Professeur à l'ENS et membre du Département informatique de l’École normale supérieure (DI ENS - CNRS/ENS Paris/Inria), s’attaque à présent aux publications scientifiques. Il a ainsi été nommé pour cinq ans membre de l’Institut universitaire de France afin de développer des solutions pour traiter ces textes directement au niveau des démonstrations mathématiques qu’ils utilisent et des résultats qu’ils présentent. Les liens entre les différents articles seraient ainsi plus faciles à remonter.

La gestion des articles scientifiques s’opère généralement d’un point de vue très bibliographique. Malgré un résumé et quelques mots-clés mis en avant, les raisonnements et les résultats ne sont pas directement accessibles. Afin de naviguer plus finement dans ces articles, Pierre Senellart a été nommé pour cinq ans membre junior de l’Institut universitaire de France. Professeur des universités et directeur adjoint du Département informatique de l’École normale supérieure (DI ENS - CNRS/ENS Paris/Inria), ses travaux concernent surtout la gestion de grands volumes de données sur le web. Il s’agit en particulier de les extraire et de les archiver le plus efficacement possible, grâce à l’organisation et la structuration de ces masses d’information.

Pierre Senellart compte adapter ses compétences au cadre très spécifique des corpus d’articles scientifiques. « Je souhaite aller au-delà d’une simple accumulation de travaux au format PDF, explique le chercheur. Les résumés nous donnent le contexte de ces travaux, mais pas leur structure. » Avec en tête des articles en mathématiques, informatique théorique ou encore physique mathématique, il vise le développement d’outils pour en isoler les résultats, les théorèmes et les preuves.

« J’aimerais transformer cette partie de la littérature scientifique en une base de connaissances liées entre elles, poursuit Pierre Senellart. On aurait ainsi un accès plus direct à la manière dont les résultats et les preuves d’un texte sont utilisés par d’autres. » Cela permettrait d’aller bien au-delà du système actuel de mots-clés et de remonter le fil d’un raisonnement plus rapidement qu’en se cantonnant aux références bibliographiques.

Un article scientifique n’est pas un monolithe, on peut faire mieux qu’en extraire seulement les métadonnées et la bibliographie.
,

« J’essaye de descendre aux niveaux les plus granulaires de l’information scientifique : les théorèmes, les définitions… ajoute Pierre Senellart. Cette tâche ne demande pas forcément de comprendre de manière fine ce dont parle une démonstration, le but est de mieux indexer les théorèmes mathématiques sans avoir trop besoin d’interpréter leurs résultats. »

Ce projet nécessite ainsi de travailler sur l’expression de l’information, pour transformer une information sous forme de texte brut en un système plus organisé. Avec des sujets aussi pointus, des experts devront intervenir en parallèle des outils informatiques afin d’annoter certaines parties du corpus scientifique. Les auteurs des articles pourraient eux-mêmes joindre quelques éléments afin de faciliter ces opérations.

Il faut également garder la trace d’une certaine forme d’incertitude et de la provenance des informations. En effet, les articles scientifiques ne sont pas des systèmes parfaits et infaillibles : changements, ajouts et corrections doivent donc pouvoir s’insérer aisément dans l’ensemble. Pour son projet, Pierre Senellart pourra compter sur son expertise dans l’indexation de contenus web.

Nous voulons donc entraîner les robots qui parcourent le web à récupérer automatiquement les données que l’on souhaite.
,

Toutes les parties d’un site web ne sont en effet pas forcément utiles, et un tri doit être effectué afin d’en tirer la substantifique moëlle. « Sur un forum, ce sont les messages qui nous intéressent, pas le reste », prend en exemple le chercheur.

À bien plus long terme, et dans le cadre des publications scientifiques, l’objectif serait de transformer toutes les données produites par les chercheurs en résultats formels compréhensibles par les machines. Pierre Senellart espère également dégager quelques pistes d’application pour ses travaux les plus fondamentaux sur les bases de données probabilistes où les informations, au lieu d’être clairement établies, sont soumises à des distributions probabilistes. Un domaine encore très exploratoire, Pierre Senellart sera donc bien occupé à l’IUF.

Contact

Pierre Senellart
Professeur à l'École normale supérieure, membre du DI ENS