Nicolas Keriven : compresser des données et des graphes pour mieux les étudier

Distinctions Signal

À la manière d’une image, les jeux de données peuvent être compressés si l’on en a auparavant identifié les principales structures. Nicolas Keriven, chercheur au laboratoire Grenoble Image, Parole, Signal, Automatique (GIPSA-lab - CNRS/Université Grenoble Alpes), compresse ainsi des graphes afin de faciliter leur exploration par des algorithmes d’apprentissage. Il a été récompensé par le SIAM Activity Group on Imaging Science Early Career Prize à la conférence SIAM 2022, qui s’est tenue en édition virtuelle au mois de mars dernier.

Avec l’explosion de la masse des données manipulées par des algorithmes, les besoins en approches nouvelles et originales n’ont jamais été aussi importants. De nombreux outils mathématiques peuvent ainsi être adaptés à l’analyse des données. Nicolas Keriven, chargé de recherche CNRS au GIPSA-lab, s’en est fait une spécialité.

« Mon bagage est en traitement de signal, mais je m’oriente de plus en plus vers l’apprentissage statistique, avec une forte composante théorique, explique Nicolas Keriven. Je m’intéresse en particulier à établir et utiliser les structures qui apparaîtraient dans les jeux de données. Les principes généraux de ces questions remontent à quelques décennies et concernent à l’origine surtout les signaux naturels, comme les images ou les sons. »

Illustration des théorèmes décrivant la performance de différents modèles de réseaux de neurones sur graphes pour une tâche de détection de communauté. / Crédit image : Nicolas Keriven

Considérons que chaque pixel d’une photographie représente une donnée. Ces pixels ne sont pas répartis de manière aléatoire, mais façonnent au contraire des structures telles que des plages de couleurs ou des contours aux formes continues. La présence de ces éléments a permis de développer de nombreuses méthodes de compression des images, pour en réduire la taille en mémoire tout en en diminuant le moins possible la qualité.

Dans ma thèse, j’ai montré que la notion de parcimonie pouvait s’étendre à des objets plus variés et complexes que les images.

« La notion de parcimonie est cruciale, souligne Nicolas Keriven. Elle concernait à l’origine des cas où des objets représentés dans un espace de grande dimension pouvaient en fait, grâce à des structures d’une complexité limitée, se tenir dans un sous-espace bien plus réduit. Appliqué aux images, ce concept permet de les compresser et de les représenter à des dimensions bien inférieures à leur nombre réel de pixels. »

Nicolas Keriven applique notamment ce principe aux graphes. Composés de nœuds reliés par des arêtes, les graphes sont particulièrement prisés pour structurer et représenter des données issues de l’Internet et des réseaux sociaux. Ils sont cependant difficiles à lire et à interpréter à l’œil nu, et l’on fait souvent appel à des algorithmes d’intelligence artificielle pour les manipuler. Une compression efficace des données facilite les phases d’apprentissage en réduisant l’espace à étudier et en mettant en avant les structures essentielles, le tout sans dénaturer les données afin d’offrir d’importantes économies de temps et de ressources.

Si l’on compresse les données de manière intelligente, on élimine du bruit sans perte d’informations.

Étrangement, la meilleure manière de compresser les données est parfois de laisser faire le hasard. Nicolas Keriven utilise ainsi des probabilités pour traiter ses graphes, ce qui lui permet d’identifier des structures cachées sur lesquelles appuyer la compression. Supposer que des graphes présentent des modèles aléatoires est une approche courante en statistiques, mais souvent ignorée en intelligence artificielle alors que cette approche aide les algorithmes et facilite les études théoriques tout à la fois.

Ces travaux ont récemment été soutenus par le biais d’un projet ANR jeune chercheur appelé GRandMa : Random graphs in machine learning, graphes aléatoires en apprentissage statistique. Nicolas Keriven y étudie principalement des graphes de grande taille en exploitant la structure des modèles de graphes aléatoires. La classification des nœuds de tels graphes en communauté est notamment utilisée par les systèmes de recommandation que l’on retrouve sur les réseaux sociaux ou les sites marchands.

Illustration des théorèmes décrivant la capacité d'approximation des réseaux de neurones sur graphes aléatoires. / Crédit image : Nicolas Keriven

Signe de l’intérêt grandissant pour les travaux de Nicolas Keriven, la société américaine pour les mathématiques industrielles et appliquées (SIAM), qui comporte environ 14 000 membres, lui a attribué le prix Early Career Prize dans la catégorie du jeune chercheur en sciences de l’image.

« Je suis honoré car ce prix, remis tous les deux ans, est très prestigieux, se réjouit Nicolas Keriven. C’est d’autant plus gratifiant que j’ai été recruté au CNRS juste avant la pandémie. Mon début de carrière n’a ainsi pas pu bénéficier d’autant de collaborations et de rencontres, avec des collègues comme avec des étudiants, que je l’aurais souhaité. La conférence SIAM a été l’occasion de pouvoir présenter mes travaux à la communauté. »

Calcul de métriques de transport optimal entre différentes parties d'un graphe aléatoire. / Crédit image : Nicolas Keriven

Contact

Nicolas Keriven
Chargé de recherche CNRS à l'IRISA