Nicolas Keriven, un projet ERC pour réinventer l'apprentissage statistique sur des graphes

Distinctions Informatique

Lauréat de l’ERC Starting Grant 2024, Nicolas Keriven s’attaque au développement de nouvelles théories en apprentissage statistique dédiées aux données graphes. Le chargé de recherche CNRS à l’Institut de recherche en informatique et systèmes aléatoires (IRISA - CNRS/Université de Rennes) va s’intéresser à différents types de graphes informatiques et biologiques. Son projet MALAGA débutera en 2025.

Les graphes représentent des réseaux d’objets et les interactions qui les relient entre eux. Il s’agit par exemple des personnes d’un réseau social, des protéines d’un réseau biologique ou encore des intersections d’un réseau routier. Afin de mieux exploiter les relations et les structures complexes présentes dans ces graphes, la recherche applique des méthodes d'apprentissage statistique. Sur un graphe de réseau social, cela aide notamment à répondre à des questions de recommandation, d’identification des communautés ou d’influence.

Toutefois, les méthodes d'apprentissage statistique classique, conçues principalement pour des données tabulaires ou vectorielles, rencontrent plusieurs limites lorsqu'elles sont appliquées à des données de type graphe. De plus, les chercheurs ont du mal à savoir pourquoi et quand certaines approches fonctionnent ou non. « Une des limites est que la théorie classique n’a pas été conçue pour prendre en compte la structure relationnelle inhérente aux graphes. De nombreuses hypothèses faites habituellement, comme par exemple l’indépendance des données, sont caduques pour des graphes où les nœuds sont liés entre eux », explique Nicolas Keriven, chargé de recherche CNRS à l’IRISA.

Nous allons chercher à déterminer à quel point nous pouvons adapter les méthodes d’apprentissage statistique actuelles ou bien si nous devons totalement les réinventer pour les appliquer aux graphes.

Dans le cadre de son projet ERC Starting Grant MALAGA (Reinventing the Theory of Machine Learning on Large Graphs), le jeune chercheur souhaite en ce sens développer une théorie fondamentale d’apprentissage statistique dédiée aux graphes. Il s’appuie pour cela sur un point de vue original mêlant des expertises sur les graphes et sur l’apprentissage statistique qui se conjuguent encore peu dans les approches actuelles. À compter de 2025, son projet se concentrera sur l’adaptation d’outils fondamentaux en théorie de l’apprentissage, afin de mieux comprendre leurs limites. De nouvelles méthodes de traitement des données seront ensuite mises au point.

Un des enjeux majeurs sera de mieux caractériser les liens de dépendance entre les nœuds des graphes. Surtout, il s’agira de comprendre comment ces liens varient d’un graphe à l’autre et comment ils influencent l’efficacité des méthodes d’apprentissage profond. En ce sens, le chercheur testera ses méthodes sur trois types de graphes répandus : les graphes biologiques, les graphes informatiques et les graphes de connaissances comme Wikipédia. « En apparence, ces derniers pourraient sembler similaires, mais nous avons démontré que les méthodes de machine learning qu’on leur applique se comportent de manières très différentes sans que l’on ne sache encore pourquoi », décrit Nicolas Keriven. Le chercheur espère aboutir à des théories qui, selon les variations de différents paramètres des graphes, permettront de mieux comprendre les phénomènes à l’origine des disparités dans les réponses des algorithmes d’apprentissage statistique aux graphes traités.

La théorie des graphes doit rester proche des données réelles, car elles ont des caractéristiques si particulières qu’on ne peut pas se permettre de les ignorer dans nos développements fondamentaux.

Bien que ses recherches portent sur des développements fondamentaux, Nicolas Keriven a conscience de l’étendue potentielle de la portée qu’elles pourront avoir à l’issue des cinq ans de son projet ERC. « Les graphes sont omniprésents en informatique, mais aussi dans d’autres sciences comme la biologie, la chimie et la physique qui sont en demande de nouveaux outils d’analyse mieux adaptés à l’exploitation de leurs données ». De quoi favoriser les liens entre les sciences informatiques et les autres domaines de recherche.

En savoir plus

Contact

Nicolas Keriven
Chargé de recherche CNRS à l'IRISA