Des giga-modèles pour le traitement automatique du langage naturel et des données multimodales
Pour répondre aux enjeux scientifiques et sociétaux soulevés par l’émergence des grands modèles de langue, l’Agence nationale de la recherche (ANR) a lancé en février 2023 l’appel à projet Thématiques Spécifiques en Intelligence Artificielle (TSIA). Huit projets sont lauréats pour la thématique « Giga-modèles pour le traitement automatique du langage naturel et des données multimodales », dont le projet MALADES coordonné par Richard Dufour, professeur à Nantes Université, membre du Laboratoire des Sciences du Numérique de Nantes (LS2N - CNRS/Centrale Nantes/Nantes Université) et Pantagruel, coordonné par Didier Schwab, professeur à l’Université Grenoble Alpes, membre du Laboratoire d’Informatique de Grenoble (LIG - CNRS/Université Grenoble Alpes).
L'adoption par la société des outils issus du traitement automatique du langage naturel (TALN), comme ChatGPT d'OpenAI, Bard de Google ou de la solution open-source Alpaca de Stanford s'est accélérée ces dernières années. Cela est dû à leur amélioration constante : ils bénéficient de la rencontre d'approches statistiques par apprentissage profond (deep learning), de la disponibilité d'énormes quantité de données (Big Data) et de l'accès à d'importantes puissances de calcul.
Grâce à des milliards de documents textuels collectés et à des stratégies d'apprentissage non-supervisé efficaces, les derniers modèles, connus sous le nom de grands modèles de langue (Large Language Models ou LLM), intègrent notamment des capacités génératives. Cela signifie qu'ils sont aussi capables de générer du contenu textuel. Ils peuvent ainsi être adaptés pour traiter une multitude de tâches de TALN, comme de la traduction automatique, le résumé de documents, le dialogue humain-machine, etc. Bien qu'une nouvelle étape ait été franchie en TALN, ces modèles soulèvent encore d'importants enjeux scientifiques et sociétaux.
Dans ce contexte, l’Agence nationale de la recherche (ANR) a lancé début 2023 l’appel à projet Thématiques Spécifiques en Intelligence Artificielle (TSIA) intégrant les giga-modèles pour le traitement automatique du langage naturel et des données multimodales. Huit projets sont lauréats pour cette thématique, dont les projets Pantagruel et MALADES.
Pantagruel, coordonné par Didier Schwab, professeur à l’Université Grenoble Alpes, membre du LIG, considère pleinement la problématique multimodale, mais également inclusive, pour le français sous forme écrite, orale, ou de pictogrammes. Pantagruel vise à développer des modèles autosupervisés librement accessibles pour le français, comprenant une à trois des modalités pour les domaines généraux et cliniques. Le projet concevra également des bancs d’essais permettant d'évaluer la capacité de généralisation de ce type de modèles.
Le projet MALADES, quant à lui, coordonné par Richard Dufour, professeur à Nantes Université, membre du LS2N, vise la mise en place de grands modèles de langue adaptables et souverains pour le domaine médical français, tout en étudiant les aspects légaux et éthiques en France de ces nouveaux outils de TALN pour la santé.
Les outils développés seront en particulier destinés aux non-informaticiens tels que d’autres membres du consortium (sociologues, linguistes, médecins, orthophonistes). L’objectif est d’avoir un impact positif sur un large éventail de domaines appliqués, des soins de santé aux arts en passant par les sciences humaines et sociales.
Autres projets lauréats de l’appel à projets ANR TSIA
- Assistants Digitaux pour l'Accès Généralisé à l'Information : GUIDANCE, coordonné par Benjamin Piwowarski, chargé de recherche CNRS à l’Institut des systèmes intelligents et de robotique (ISIR - CNRS/Sorbonne Université)
- Evaluation intrinsèque et extrinsèque des biais dans les grands modèles de langue : InExtenso, coordonné par Karën Fort, maîtresse de conférences à Sorbonne Université et membre du Laboratoire lorrain de recherche en informatique et ses applications (Loria - CNRS/Inria/Université de Lorraine)
- LLM à jour pour tous : LLM4all, coordonné par Christophe Cerisara, chargé de recherche CNRS au Laboratoire lorrain de recherche en informatique et ses applications (Loria - CNRS/Inria/Université de Lorraine)