Un modèle ouvert de traitement du langage dédié au domaine biomédical

Résultats scientifiques Informatique

« DrBERT » est le premier modèle ouvert de traitement automatique des langues dédié au domaine biomédical et clinique français. Ces travaux réunissent des scientifiques du Laboratoire des Sciences du Numérique de Nantes (LS2N - CNRS/Centrale Nantes/Nantes Université), du Laboratoire informatique d’Avignon (LIA – Avignon Université) et du Centre Hospitalier Universitaire de Nantes, ainsi que l’entreprise Zenidoc. Leurs résultats ont bénéficié d’une mention honorable parmi les meilleurs papiers lors de leur présentation à la conférence de l'Association for Computational Linguistics (ACL) 2023.

Les modèles de traitement automatique des langues s’avèrent particulièrement prometteurs pour des applications en santé qui fourmillent de données textuelles. Ils ont ainsi vocation à être déployés sur les infrastructures informatiques des établissements de santé tout en garantissant le respect de la vie privée aux patients. En pratique, ces modèles peuvent, par exemple, extraire des informations de dossiers médicaux à la demande de médecins.

L’apprentissage de ces modèles requiert d’importantes quantités de données de santé sensibles dont l’accès est fortement limité. Ainsi, l’usage de tels outils en français est jusqu’à présent restreint au cadre d’un hôpital et de ses données. C’est là qu’intervient « DrBERT », le premier modèle ouvert de traitement automatique des langues dédié au domaine biomédical et clinique français. Celui-ci est notamment issu des travaux de thèse de Yanis Labrak, doctorant à Avignon Université et membre du LIA, et d’Adrien Bazoge, doctorant à Nantes Université et membre du LS2N, au cœur d’une collaboration réunissant des scientifiques du LS2N, du LIA et du CHU de Nantes.

De nombreuses questions éthiques sur la perception et l’intégration de nos modèles dans la société seront tout aussi cruciales à évaluer que les performances de nos algorithmes.

Le fonctionnement de « DrBERT » s’inscrit dans la continuité des modèles généralistes ayant appris le français à partir d’œuvres littéraires et d’autres ressources textuelles. « Toutefois, de précédentes recherches ont démontré qu’un modèle spécialisé comme DrBERT est plus efficace s’il apprend directement à modéliser la langue et le domaine d’application en même temps, grâce à du contenu spécifique », explique Richard Dufour, professeur en informatique à Nantes Université, membre du LS2N. Le modèle, qui exploite une architecture de réseau de neurones, a appris le français biomédical à partir de 1,1 milliard de mots issus de ressources en ligne vérifiées telles que celles fournies par la Haute Autorité de santé (HAS).

Pour réaliser cette phase d’apprentissage particulièrement gourmande en énergie et en données, les chercheurs ont bénéficié de l’accès au supercalculateur Jean Zay (CNRS/Genci), opéré par l'Institut du Développement et des Ressources en Informatique Scientifique (IDRIS - CNRS). « Grâce à la diffusion de notre modèle et à l'ouverture de ses données, les utilisateurs peuvent l'adapter au traitement de tâches qui les intéressent pour un coût de calcul largement inférieur au pré-entraînement complet du modèle. Nous nous plaçons aussi dans le cadre d'une recherche reproductible », précise Richard Dufour. Par exemple, DrBERT pourrait être adapté au classement de documents par spécialité médicale, à la structuration automatique des documents à l’aide de la catégorisation de mots ou encore à la traduction de documents médicaux.

L’ouverture de notre modèle et de ses données vise à faciliter l’adoption de ce type d’outils par les professionnels de santé et la reproduction de nos recherches par la communauté .

Malgré tout, les modèles existants présentent une limite. S’ils s’avèrent performants sur certaines tâches, ils ne le sont pas sur toutes les applications potentielles. De fait, l’évaluation globale de ces modèles, et notamment des tâches disponibles, sont un enjeu émergent. « C’est pourquoi, nous sommes en train de développer un jeu de données de référence pour une vingtaine de tâches qui permettront de mieux évaluer les capacités des modèles produits par la recherche et ainsi de comparer de façon plus large leurs performances », ajoute le chercheur.

À compter de la rentrée 2023, les chercheurs démarreront le projet MALADES, financé par l’Agence nationale de la recherche (ANR). L’objectif : mettre au point un modèle génératif de langue fiable, adaptable et dynamique pour les acteurs de la santé dans un contexte de ressources contraintes. Ces modèles fonctionneront sur un système de questions-réponses. Le projet s’intéressera également aux  aspects légaux et éthiques en France de leur développement et de leurs usages.

En savoir plus

Yanis Labrak, Adrien Bazoge, Richard Dufour, Mickael Rouvier, Emmanuel Morin, Béatrice Daille, Pierre-Antoine Gourraud. DrBERT: A Robust Pre-trained Model in French for Biomedical and Clinical domains. In Proceedings of the 61th Annual Meeting of the Association for Computational Linguistics (ACL'23), pp. 16207-16221, 2023, Toronto, Canada.

Contact

Richard Dufour
Professeur à Nantes Université, membre du LS2N