Cristal collectif du CNRS : la recherche face aux données du COVID-19
Dans le cadre de la médaille Cristal collectif du CNRS, neuf ingénieurs ont été récompensés pour leurs travaux sur le traitement des données du COVID-19. Parmi eux, Françoise Conil, ingénieure d’études CNRS au Laboratoire d'Informatique en Images et Systèmes d'Information (LIRIS - CNRS/INSA de Lyon/Université Claude Bernard Lyon 1), Maziyar Panahi, administrateur système et réseau à l'Institut des systèmes complexes de Paris Île-de-France (ISC-PIF - CNRS) et Cyril Grouin, ingénieur de recherche CNRS au Laboratoire Interdisciplinaire des Sciences du Numérique (LISN - CNRS/Université Paris-Saclay), répondent à nos questions.
Comment êtes-vous impliqués dans la gestion des données du COVID ?
Françoise Conil : Je me suis portée volontaire suite à l’appel à participation de Mokrane Bouzeghoub, directeur adjoint scientifique de l’INS2I, dans le cadre du projet COVID-NMA. Les chercheurs extrayaient et complétaient manuellement les synthèses de l’OMS sur les essais cliniques des traitements contre le COVID, mais l’explosion du nombre d’études a rendu le processus intenable. J’ai participé à l’automatisation de la récupération et de l’uniformisation des données manquantes dans les registres nationaux et internationaux. Malgré l’obligation de publier ces essais, certains registres ne sont pas facilement exploitables et nous avons parfois dû employer des techniques de Web scraping pour récupérer les données. Les données sont maintenant plus propres, plus faciles à analyser. Elles sont utilisées pour cartographier les traitements contre la pandémie, avec un outil qui fonctionne si bien que l’OMS le met en avant.
Cyril Grouin : Dans le cadre de COVID NMA, j’ai aidé à filtrer toute la masse de données en identifiant et distinguant automatiquement le nom des traitements. L’hydroxychloroquine peut aussi bien être mentionnée de cette manière que par ses initiales HCL ou son nom commercial de Plaquénil. J’ai aussi travaillé sur deux autres projets. Le premier concernait la pharmacovigilance, pour détecter sur les réseaux sociaux si les gens rapportaient qu’ils prenaient préventivement des médicaments non prévus contre le COVID. Le second consistait à extraire des informations de publications scientifiques, mais aussi d’articles de presse en différentes langues européennes.
Maziyar Panahi : Sur le projet lié à l’analyse de publications scientifiques, j’ai créé une interface qui rassemble et traite les résumés, les mots-clés et les institutions des publications scientifiques sur le COVID. Les chercheurs naviguent ainsi beaucoup mieux dans les plus de 700 000 textes disponibles, et peuvent non seulement accéder aux textes, mais aussi les lier en fonction de leurs points communs : symptômes décris, molécule testée, âge et sexe des patients… Nous avons également recensé 1,5 milliard de tweets sur la pandémie.
Quelles compétences vous ont aidés à participer à ces projets ?
M. P. : Nous nous sommes appuyés sur notre plateforme, qui contient 240 milliards de documents qui nous permettent de suivre les centres d’intérêt des internautes. Je trie en temps réel des millions de documents, surtout des tweets, en fonction de sujets comme la politique, le climat, la musique… Les équipes qui nous ont sollicités sur le COVID ont su répondre à nos questions pour que nous adaptions ce savoir-faire au contexte biomédical.
C. G. : J’étais déjà spécialisé dans le traitement automatique des langues dans le domaine biomédical, en particulier dans la désidentification qui repère et remplace les informations nominatives des patients.
F. C. : J’avais travaillé à la migration de publications scientifiques vers la plateforme HAL avec des technologies web, et sur le développement de plateformes de recherche. Je travaille actuellement à la reproductibilité des logiciels de recherche. Ces deux expertises ont été à la base de mon investissement dans COVID-NMA.
Quelle a été votre réaction à cette médaille ?
C. G. : Je suis fier d’avoir participé à ces projets, je n’imaginais pas qu’un jour mes travaux me vaudraient une médaille.
F. C. : J’étais déjà ravie que le CNRS me permette de m’éloigner de mes travaux pour contribuer à ce projet, puis décide en plus de me récompenser. Cette collaboration entre chercheurs et ingénieurs, issus de l’informatique et du secteur biomédical, a été très enrichissante.
M. P. : C’est super que le travail des ingénieurs soit ainsi valorisé ! Je suis content que nous ayons été suffisamment utiles pour être sélectionnés.
Sont récompensés par le Cristal collectif du CNRS pour leurs travaux sur les données du COVID : Alexandre Delanoë de l’ISC-PIF, Bastien Doreau du Laboratoire d’Informatique, de Modélisation et d’optimisation des Systèmes (LIMOS - CNRS/École des Mines de Saint-Étienne/Université Clermont Auvergne), Caroline Bligny du Laboratoire Jean Kuntzmann (LJK – CNRS/Grenoble INP/Université Grenoble Alpes), Cyril Grouin du LISN, Françoise Conil du LIRIS, Mathieu Leclaire de l’ISC-PIF, Maziyar Panahi de l'ISC-PIF, Patrick Paroubek du LISN et Ruben Martinez du LIMOS.