Nicolas Keriven, un projet ERC pour réinventer l'apprentissage statistique sur des graphes
Lauréat de l’ERC Starting Grant 2024, Nicolas Keriven s’attaque au développement de nouvelles théories en apprentissage statistique dédiées aux données graphes. Le chargé de recherche CNRS à l’Institut de recherche en informatique et systèmes aléatoires (IRISA - CNRS/Université de Rennes) va s’intéresser à différents types de graphes informatiques et biologiques. Son projet MALAGA débutera en 2025.
Les graphes représentent des réseaux d’objets et les interactions qui les relient entre eux. Il s’agit par exemple des personnes d’un réseau social, des protéines d’un réseau biologique ou encore des intersections d’un réseau routier. Afin de mieux exploiter les relations et les structures complexes présentes dans ces graphes, la recherche applique des méthodes d'apprentissage statistique. Sur un graphe de réseau social, cela aide notamment à répondre à des questions de recommandation, d’identification des communautés ou d’influence.
Toutefois, les méthodes d'apprentissage statistique classique, conçues principalement pour des données tabulaires ou vectorielles, rencontrent plusieurs limites lorsqu'elles sont appliquées à des données de type graphe. De plus, les chercheurs ont du mal à savoir pourquoi et quand certaines approches fonctionnent ou non. « Une des limites est que la théorie classique n’a pas été conçue pour prendre en compte la structure relationnelle inhérente aux graphes. De nombreuses hypothèses faites habituellement, comme par exemple l’indépendance des données, sont caduques pour des graphes où les nœuds sont liés entre eux », explique Nicolas Keriven, chargé de recherche CNRS à l’IRISA.
Dans le cadre de son projet ERC Starting Grant MALAGA (Reinventing the Theory of Machine Learning on Large Graphs), le jeune chercheur souhaite en ce sens développer une théorie fondamentale d’apprentissage statistique dédiée aux graphes. Il s’appuie pour cela sur un point de vue original mêlant des expertises sur les graphes et sur l’apprentissage statistique qui se conjuguent encore peu dans les approches actuelles. À compter de 2025, son projet se concentrera sur l’adaptation d’outils fondamentaux en théorie de l’apprentissage, afin de mieux comprendre leurs limites. De nouvelles méthodes de traitement des données seront ensuite mises au point.
Un des enjeux majeurs sera de mieux caractériser les liens de dépendance entre les nœuds des graphes. Surtout, il s’agira de comprendre comment ces liens varient d’un graphe à l’autre et comment ils influencent l’efficacité des méthodes d’apprentissage profond. En ce sens, le chercheur testera ses méthodes sur trois types de graphes répandus : les graphes biologiques, les graphes informatiques et les graphes de connaissances comme Wikipédia. « En apparence, ces derniers pourraient sembler similaires, mais nous avons démontré que les méthodes de machine learning qu’on leur applique se comportent de manières très différentes sans que l’on ne sache encore pourquoi », décrit Nicolas Keriven. Le chercheur espère aboutir à des théories qui, selon les variations de différents paramètres des graphes, permettront de mieux comprendre les phénomènes à l’origine des disparités dans les réponses des algorithmes d’apprentissage statistique aux graphes traités.
Bien que ses recherches portent sur des développements fondamentaux, Nicolas Keriven a conscience de l’étendue potentielle de la portée qu’elles pourront avoir à l’issue des cinq ans de son projet ERC. « Les graphes sont omniprésents en informatique, mais aussi dans d’autres sciences comme la biologie, la chimie et la physique qui sont en demande de nouveaux outils d’analyse mieux adaptés à l’exploitation de leurs données ». De quoi favoriser les liens entre les sciences informatiques et les autres domaines de recherche.
En savoir plus
- Portrait de Nicolas Keriven : réalisé à l'occasion de sa bourse ERC Starting Grant par la délégation Bretagne et Pays de la Loire (05/09/2024)
- Nicolas Keriven : compresser des données et des graphes pour mieux les étudier : actualité réalisée à l'occasion du prix SIAM Activity Group on Imaging Science Early Career Prize de la conférence SIAM 2022 (22/06/2022)