Un ERC face au challenge du big data

Distinctions International Image

À cause d’un phénomène appelé « malédiction de la dimension », de nombreux outils mathématiques et informatiques ne fonctionnent plus face aux grandes masses de données. Fort d’une bourse ERC Consolidator, Julien Tierny du LIP6 conçoit des algorithmes adaptés à un tel flot d’informations. Ses travaux, toujours sous le sceau de l’open source, seront optimisés pour les supercalculateurs et offriront des outils topologiques pour l’analyse de vastes bases de données.

Difficile d’échapper au big data, un terme sur toutes les lèvres pour désigner l’explosion de la quantité de données disponibles. Comme la hausse continue de la puissance des ordinateurs ne suffit pas à maîtriser le phénomène, des scientifiques comme Julien Tierny conçoivent des programmes spécifiquement pour gérer ce flot. Chargé de recherche CNRS au LIP6 (LIP6, CNRS/Sorbonne Université), ses travaux viennent d’atteindre un nouveau palier avec l’attribution d’une bourse ERC Consolidator pour son projet TORI1

Celui-ci s’inscrit dans la droite lignée des travaux reconnus de Julien Tierny sur la topologie des données, ou comment retrouver de la structure au sein de grands jeux de données, pour faciliter leur visualisation, leur analyse et leur interprétation. Cet objectif trouve des applications dans tous les domaines où l’on manipule de grandes quantités de données, mais Julien Tierny se focalise sur les bases de données scientifiques obtenues par des simulations numériques ou des collectes d’information. Il aide par exemple des chimistes à mieux comprendre les interactions entre molécules. À une tout autre échelle, cela sert également en astrophysique, où les chercheurs scrutent les connexions entre clusters de galaxies au sein de la toile cosmique. Enfin, ces travaux peuvent s’appliquer à la mécanique des fluides, aux sciences du climat, à la physique des solides, la géologie… Des entreprises comme EDF ou Total font aussi appel à ses talents.

  • 1In-situ Topological Reduction of Scientific 3D Data, réduction topologique in situ de données scientifiques 3D.
« Je conçois des algorithmes qui extraient des informations sur la structure implicite des jeux de données, afin d’aider les utilisateurs à en tirer la substantifique moelle. »

Au-delà d’une simple question de puissance de calcul qui ferait défaut, l’enjeu est d’autant plus important que rôde l’ombre de la malédiction de la dimension. Identifié par le mathématicien américain Richard E. Bellman (1920 – 1984), cet ensemble de problèmes apparaît lorsque l’on manipule des données dans des domaines de trop grandes dimensions. En particulier, la masse d’information finit par faire perdre tout sens aux outils mathématiques classiques.

« Quand on compare deux images, le plus simple consiste à mesurer la différence entre tous les pixels, explique Julien Tierny. Cela revient à mesurer la distance euclidienne entre deux points dans un espace qui aurait autant de dimensions qu’il y a de pixels dans chaque image. À force d’augmenter la taille des images, la dimension augmente et la distance euclidienne traditionnelle dans de tels espaces n’est plus suffisamment discriminante pour être informative. »

L’analyse topologique de données ouvre de nouvelles perspectives en cherchant d’autres types de distances, opérant sur des signatures topologiques des données, qui capturent particulièrement bien leur structure principale. Ces objets topologiques, comme le diagramme de persistance (Figure 1) ou le graphe de Reeb (Figure 2) ou le complexe de Morse-Smale, sont des représentations plus concises que les données brutes, et donc plus pratiques à manipuler pour des algorithmes. Elles décrivent cependant bien l’information structurelle intrinsèque des données, dont elles forment la substantifique moelle.

 La plupart des jeux de données (par exemple un tableau de valeurs (a)) peuvent être interprétés comme un nuage de points (b) décrivant de manière sommaire la “forme” sous-jacente des données. L’analyse topologique permet de retrouver une structure supplémentaire au delà de cette information brute. Elle propose de représenter les données sous la forme de signatures concises (comme le diagramme de persistence (c)). Ces signatures représentent les structures saillantes cachées dans les données, comme des parties indépendantes (ou “composantes connexes” en vert (d)) ou des structures circulaires (en bleu(e)) typiquement retrouvées dans des jeux de données capturant un phénomène périodique.
La plupart des jeux de données (par exemple un tableau de valeurs (a)) peuvent être interprétés comme un nuage de points (b) décrivant de manière sommaire la “forme” sous-jacente des données. L’analyse topologique permet de retrouver une structure supplémentaire au delà de cette information brute. Elle propose de représenter les données sous la forme de signatures concises (comme le diagramme de persistence (c)). Ces signatures représentent les structures saillantes cachées dans les données, comme des parties indépendantes (ou “composantes connexes” en vert (d)) ou des structures circulaires (en bleu(e)) typiquement retrouvées dans des jeux de données capturant un phénomène périodique.

Dans le projet TORI, l’enjeu n’est plus d’utiliser ces outils topologiques pour l’analyse d’un seul jeu de données, mais pour l’analyse statistique d’ensembles de jeux de données. Cela dans le but de comprendre les structures récurrentes au sein de grandes bases de données scientifiques typiquement générées aujourd’hui, ou au contraire, d’identifier des anomalies.

 

« TORI tourne autour de deux aspects : développer des outils pour l’analyse statistique de collections de signatures topologiques et développer des algorithmes à hautes performances, capables de mener en pratique ces analyses sur de vastes bases de données. »

Les algorithmes développés depuis une vingtaine d’années ont donc besoin d’être réécrits pour faire face à cette nouvelle réalité. Mieux, TORI vise à offrir des méthodes informatiques pour produire des statistiques sur la structure d’ensembles de bases de données, parfois complètement indépendantes. Ces différents outils seront également adaptés au contexte haute performance, c’est-à-dire qu’ils seront optimisés pour fonctionner sur des supercalculateurs.

 « J’ai d’abord cru à une erreur lorsque la bourse ERC m’a été confirmée, s’amuse Julien Tierny. Passé l’effet de surprise, je me suis rendu compte que c’est une opportunité unique de monter une petite équipe pour faire progresser significativement ces sujets. J’ai l’impression de monter une start-up ! » Le financement européen assure un changement d’échelle du projet, mais le chercheur ne perd pas de vue sa vision première de l’informatique.

L’ensemble des travaux issus de TORI sera implémenté dans des logiciels open source, dans une démarche de science ouverte à 100 %. Un Topology ToolKit est déjà disponible et sera continuellement amélioré, le « réceptacle et la vitrine » du projet selon Julien Tierny. « Les retombées du projet doivent être utilisables par tout le monde, rapidement et facilement. »

 

Schéma illustrant une famille paramétrée de tori (objets classiques en topologie, formes 3D en gris), représentée par un espace de graphes de Reeb (squelettes en blanc). TORI permettra de calculer ce type de signatures efficacement sur de grandes banques de données, mais également de mener des études statistiques avancées sur ces espaces d’objets topologiques. En pratique, ces avancées permettront aux utilisateurs de déceler rapidement des anomalies dans leurs banques de données ou au contraire d’identifier et de comprendre les motifs structurels récurrents.
Schéma illustrant une famille paramétrée de tori (objets classiques en topologie, formes 3D en gris), représentée par un espace de graphes de Reeb (squelettes en blanc). TORI permettra de calculer ce type de signatures efficacement sur de grandes banques de données, mais également de mener des études statistiques avancées sur ces espaces d’objets topologiques. En pratique, ces avancées permettront aux utilisateurs de déceler rapidement des anomalies dans leurs banques de données ou au contraire d’identifier et de comprendre les motifs structurels récurrents.

 

En savoir plus sur les travaux de recherche de Julien Tierny

Contact

Julien Tierny
Directeur de recherche CNRS au LIP6