Conception d’algorithmes pour un meilleur traitement de l’ADN avec Garance Gourdel
Garance Gourdel, doctorante à l’Institut de recherche en informatique et systèmes aléatoires (IRISA – CNRS/Université de Rennes), développe des algorithmes d’analyse de chaînes de caractères en vue d’améliorer le traitement et le stockage de grandes quantités de données. Elle est récompensée pour ses travaux appliqués aux données de l’ADN par le prix Jeunes Talents France 2023 de l’Oréal-UNESCO pour les Femmes et la Science.
La plongée dans le monde de la recherche de Garance Gourdel, aujourd'hui doctorants à l'IRISA, s’est faite à la croisée des chemins entre passion personnelle et opportunité professionnelle. « Ma fascination pour les mathématiques a trouvé ses racines au lycée où les enseignants nous ont lancé des défis de plus en plus complexes. J'aimais me creuser la tête et ce sentiment de satisfaction lorsque j’arrivais à résoudre un problème. C’est une sensation que je retrouve aujourd’hui dans mes recherches », confie-t-elle.
Lors de sa classe préparatoire en mathématiques, Garance Gourdel découvre l’informatique. Elle en fait sa spécialité lors de ses études à l'ENS Paris-Saclay, puis dans le cadre de sa thèse qu’elle réalise à l’IRISA. Son domaine ? L’algorithmique des chaînes de caractères. Ce pan de l’informatique étudie des textes - non pas en langage naturel - mais sous forme de suites de lettres comparables à des codes. L’ADN en est un parfait exemple : il se compose de séries de lettres A-T-C-G représentant les bases nucléiques qui codent notre patrimoine génétique. En pratique, un génome complet pèse environ 3 gigaoctets sur un ordinateur. Un volume suffisamment vaste pour rechercher des séquences, des motifs dans l’ADN, comparer des génomes ou toute autre tâche de bio-informatique qui requiert des algorithmes spécifiques. « Mon travail consiste donc à développer des modèles qui se démarquent en termes de rapidité d'exécution et d'efficacité afin de résoudre ces problèmes », explique Garance Gourdel.
En ce sens, Garance Gourdel utilise plusieurs méthodes, dont la compression de données. « Les génomes humains sont assez similaires ou redondants. Je peux, par exemple, les traiter de manière astucieuse en décrivant un génome par rapport à un autre. Avec cette approche, il est notamment possible de stocker ce deuxième génome presque gratuitement plutôt que de doubler l’espace nécessaire » explique-t-elle. Au cours de sa thèse, elle s’est aussi intéressée à la détection d’expressions régulières, des chaînes de caractères ayant des propriétés communes. Elle les étudie dans un modèle dit de streaming au sein duquel les données défilent sans que l’on puisse revenir en arrière. L’information doit donc être traitée au fur et à mesure. « Nous avons démontré que nos algorithmes parvenaient à détecter des expressions régulières en utilisant moins d’espace que les autres techniques, ce qui a été une belle réussite », rapporte Garance Gourdel.
Ces travaux lui valent la réception du prix Jeunes Talents France 2023 pour les Femmes et la Science décerné par la Fondation l’Oréal et l’UNESCO. « Cette récompense revêt une signification particulière pour moi, car je m'engage activement à la promotion de la présence des femmes dans les sciences à travers des initiatives comme Girls Can Code!. Son objectif est d’initier les collégiennes et lycéennes à l'informatique », précise-t-elle. À long terme, les réflexions théoriques sur les performances des algorithmes auxquelles elle contribue permettront de garantir l’efficacité d’outils pour le traitement de grands volumes de données comme celles du génome, mais pas seulement. Les données astronomiques et les clés utilisées en cybersécurité sont deux autres domaines en demande. Après sa thèse, Garance Gourdel rejoindra d’ailleurs la start-up GitGuardian, spécialiste de la détection de secrets dans le code informatique à des fins de sécurité.