Le traitement automatique des langues au CNRS

Institutionnel Informatique

Ce 7 septembre 2023, le Groupement de recherche (GDR) Traitement automatique des langues (TAL) organise sa journée nationale sur le thème des « Modèles de langue aux domaines de spécialité ». L’objectif ? Rassembler les scientifiques et les industriels pour échanger sur les dernières avancées et problématiques dans le domaine. Pendant une semaine, (re)découvrez tous les jours des exemples de recherches en traitement automatique des langues.

Le Traitement automatique des langues (TAL) dans nos sociétés

Depuis 2018, les thématiques du TAL sont centrales dans le domaine de l’intelligence artificielle, en particulier avec l’émergence des très grands modèles de langue comme GPT3, puis GPT4, et BLOOM. Ce dernier est le résultat du projet BigScience impulsé par la société HuggingFace et rassemblant un large consortium de scientifiques. Ce modèle a été entraîné sur le supercalculateur Jean Zay (CNRS/Genci) grâce au soutien de l’équipe de l’Institut du développement et des ressources en informatique scientifique (IDRIS – CNRS). Ces modèles ont un fort écho dans les mondes académique et socio-économique et leur exploitation soulève des questions éthiques et sociétales importantes.

Les très grands modèles de langue (Large language models ou LLM) sont amenés à se diffuser dans tous les secteurs d’activités impliquant la production et l’accès à l’information. Les outils de TAL peuvent œuvrer à la vérification d’information (débusquage d’infox), à l’analyse et la synthèse des publications scientifiques, à l’étude des arguments et controverses, à l’analyse des opinions du public, etc. Le TAL trouve également des applications dans l’analyse des réponses de sondages ou l’extraction d’informations dans des langues multiples. Ils peuvent aussi aider à faire tomber des barrières linguistiques et à améliorer l’inclusivité des services numériques pour des publics allophones ou en situation en handicap.

Un des grands défis aujourd’hui consiste à démocratiser l’apprentissage et l’exploitation des très grands modèles de langues qui sont au cœur des applications comme ChatGPT (ouverture des codes et des corpus, transparence des processus d’entraînement, réduction des coûts computationnels et environnementaux) tout en contrôlant les risques liés à des utilisations malveillantes. Il est aussi nécessaire de mieux caractériser ces grands modèles, d’analyser leur fonctionnement et de mesurer précisément leurs performances et leurs limites. Pour le long terme, l’enjeu est de dépasser les méthodes actuelles qui reposent sur un apprentissage purement textuel. Cela suppose de coupler les représentations linguistiques avec des sources de connaissances, d’autres modalités de communication (orale ou gestuelle) et des données liées à la perception et à l’environnement de communication réel ou virtuel.

Le GDR TAL, au cœur des recherches de pointe dans le domaine

Considérant les besoins et enjeux autour des thématiques du TAL, le CNRS a créé le GDR TAL. Il fédère les équipes de recherche des communautés scientifiques de la recherche d’information, du traitement automatique des langues écrites, parlées et signées.

Plus de 300 chercheuses et chercheurs, enseignantes-chercheuses et enseignants-chercheurs permanents
Près de 100 doctorantes et doctorants, post-doctorantes et post-doctorants
Près de 50 laboratoires

Le GDR s’est structuré 4 groupes de travail pour mieux appréhender ces défis scientifiques :

  • Apprentissage et modèles pour le TAL,
  • Intermodalité & multimodalité,
  • Multilinguisme & multiplicité des langues,
  • Accès à l’information et fouille de textes,

auquel s’ajoute une action transverse sur les ressources.

 
5 des 14 propositions reçues pour l’appel à projet 2023 de l'ANR sur les LLM sont portées par des équipes du GDR
4 médailles d'argent du CNRS

Les équipes du GDR maillent l’ensemble du territoire national, entretiennent des collaborations à l’international et développent des relations suivies avec une grande diversité d’entreprises spécialisées dans le traitement de l’information. Le projet Rosetta en est le parfait exemple. Fruit de la collaboration entre deux équipes du Laboratoire interdisciplinaire des sciences du numériques (LISN – CNRS/Université de Saclay), France TV et l’entreprise Systran, il a permis de développer des démonstrateurs pour sous-titrer et signer automatiquement des contenus audiovisuels afin de rendre ces contenus plus accessibles.

En 2022, la communauté a de nouveau été distinguée à travers Claire Gardent, chercheuse au Laboratoire lorrain de recherche en informatique et ses applications (Loria - CNRS/Université de Lorraine/Inria) qui a reçu la médaille d’argent du CNRS1 .

Partage et transmission du savoir

Le GDR TAL anime ses communautés en organisant des journées d'études, des journées grand public, des écoles thématiques, par exemple l'école d’été en traitement automatique des langues (ETAL) qui se tient tous les deux ans. Il élabore aussi des prospectives scientifiques. Les membres du GDR s’impliquent dans les grandes conférences internationales du domaine, telles que Special Interest Group on Information Retrieval (SIGIR) et Empirical Methods in Natural Language Processing (EMNLP).

En ce 7 septembre, le GDR TAL organise sa journée scientifique 2023 avec cette année un focus sur les Modèles de langue pour les domaines de spécialité : au programme, les modèles de langue de grande taille qui sont au cœur des problématiques actuelles des TAL et les nombreux défis qui en découlent pour la communauté scientifique.

Voir le programme de la journée nationale 2023 du GDR TAL

À cette occasion, l’INS2I vous propose de découvrir quotidiennement jusqu’au 13 septembre une sélection de projets et résultats de recherche en TAL au CNRS.

  • 1Elle s’inscrit dans la lignée des médailles de Nicolas Asher, directeur de recherche à l’Institut de recherche en informatique de Toulouse (IRIT – CNRS/INP Toulouse/Université Toulouse III – Paul Sabatier) en 2019, Jean-Luc Schwartz, directeur de recherche au Laboratoire Grenoble images parole signal automatique (GIPSA-lab – CNRS/Grenoble INP/Université Grenoble Alpes) en 2017, et Jean-Luc Gauvain, chercheur au Laboratoire Interdisciplinaire des Sciences du Numérique (LISN – CNRS/Université Paris-Saclay) en 2007.