Béatrice Daille : « La communauté TAL était prête et attendait ce préGDR »

Institutionnel Informatique

Le préGDR Traitement automatique des langues (TAL), créé depuis janvier 2018, est en phase de structuration. Béatrice Daille, qui porte ce projet, nous explique les raisons de la création de ce préGDR, ses débuts et ses perspectives.

Pourquoi un préGDR sur le traitement automatique des langues ?

Béatrice Daille : C’est un domaine qui a beaucoup bougé ces dernières années. Il y a eu de nombreuses évolutions, dues tout d’abord à la grande vague de l’apprentissage neuronal, vague sur laquelle la communauté a bien su surfer. En effet, le TAL et l’apprentissage, les méthodes statiques, travaillent ensemble depuis longtemps. Ensuite, il y a eu de beaux résultats qui ont été engrangés par nos applications, qui sont liés au triptyque : apprentissage profond, données de grandes tailles et calcul GPU. Ce triptyque a permis une avancée qualitative sans précédent. Cela a mis la communauté TAL sur le devant de la scène avec des applications grand public comme la traduction automatique, les chatbots ou encore la reconnaissance de la parole. Il y a aussi eu l’engouement des industriels, d’importants laboratoires privés qui ont des infrastructures matérielles et des masses de données. Sans oublier l’intérêt du public pour l’IA, qui nous met face à nos réalisations, et accélère nos réflexions sur l’éthique.

Actuellement, la communauté TAL est donc dans un tournant. Nous avons réalisé que les défis scientifiques à venir ne portent pas uniquement sur la langue écrite, mais aussi sur la langue orale et même la langue signée, pour envisager la langue dans toutes ses formes. L’idée du préGDR est de rapprocher les communautés différentes de la langue orale, de la langue écrite, et de la recherche d’informations, dont une partie des travaux traite aussi de la langue. Les applications à venir vont devoir traiter toutes les modalités de la langue, il est donc primordial que l’on facilite la convergence des méthodes, et que l’on intensifie ce rapprochement en lui donnant un cadre plus structurel. Des initiatives existaient déjà, par exemple il existe une session commune tous les quatre ans dans une conférence, mais ce n’était clairement pas assez. Le préGDR permet d'être plus réactif : les équipes peuvent interagir ensemble beaucoup plus souvent.

La communauté TAL est dans un tournant, l'union de ses différentes sous-communautés est indispensable face aux enjeux de société

Comment l’idée d’un préGDR a-t-elle émergée ?

B. D. : Le souhait d’avoir un GDR a été émis par la communauté, notamment celle de la langue écrite suite à la perte du GDR I3. Mais le préGDR TAL a été conçu avec les trois communautés. Nous nous sommes fixés plusieurs défis, par exemple l’explicabilité des modèles, c’est-à-dire comment on peut expliquer les résultats d’une méthode, par exemple l’apprentissage neuronal. Nous avons des problématiques également sur les interactions multi-modales, qui doivent prendre en compte les gestes, les expressions du visage… Nous avons également un groupe de travail sur les langues du monde, car une langue non numérisée est une langue qui va mourir, avec la problématique de comment les conserver quand nous avons peu de données. Dans ce cadre il y a une vraie convergence entre les linguistes de terrain et les informaticiens qui mettent en place les modèles. Une autre interrogation concerne notre responsabilité face aux données, avec les biais générés dans les apprentissages. Il y a également des questions de robustesse et de généralisation de nos modèles, pour fonctionner malgré le changement de contexte et de données.

Pourquoi étiez-vous motivée pour porter ce projet ?

B. D. : J’ai toujours été impliquée dans la communauté. J’ai été dans une association savante avant, également co-éditrice de la revue TAL avec la mise en place de la revue électronique. J’ai été responsable d’une équipe de traitement de la langue pendant 15 ans, et j ‘ai été récemment coordinatrice au LS2N du pôle « signaux, images, sons, langues». Ça m’a permis de me rendre compte que les méthodes se ressemblent pour toutes ces données-là. L’INS2I m’a sollicitée pour construire ce projet scientifique. J’ai répondu avec enthousiasme car j’étais persuadée de l’utilité du GDR pour mieux anticiper et aborder tout ce qui nous attend dans les enjeux de la recherche de demain. La communauté toute entière s’est mobilisée, elle demandait ce GDR, ce qui a permis de vraiment construire ce projet ensemble.

La communauté TAL était vraiment prête à créer ce préGDR, pour anticiper les enjeux de la recherche de demain

Quels sont les projets déjà réalisés et ceux à venir ?

B. D. : Le préGDR a été créé au 1er janvier 2018. La première année, nous avons surtout travaillé sur le projet scientifique. Cela nous a permis de déposer le projet de création de GDR en un temps très court (nous espérons devenir GDR au 1er janvier 2020), car la communauté était vraiment en attente de cette structuration. Nous avons organisé une première journée en mars 2019 pour présenter le préGDR, avec une orientation sur l’apprentissage dans les modèles linguistiques et cognitifs. Le préGDR a été présenté à la conférence CORIA en mars 2019, et en juillet 2019 à la conférence TALN, afin de donner de la visibilité à cette organisation, et permettre un échange. La même démarche est menée auprès de la communauté de la parole. Nous prévoyons une deuxième journée le 24 octobre sur les thématiques du multi-linguisme, des multi-modalités et de la recherche d’informations, afin de lancer les groupes de travail du préGDR. Un enjeu important, qui était jusque-là absent dans la communauté, concerne la formation de jeunes chercheurs. Nous avons donc fait un dépôt pour une école d’été, qui se tiendrait, si elle est acceptée, en juillet 2020, sur la thématique des nouvelles interfaces langagières. En effet, pour faire un bon chatbot par exemple il faut savoir traiter l’écrit, l’oral et la recherche d’informations, ce qui concrétise vraiment ce que l’on veut faire dans le préGDR en réunissant ces communautés. Nous envisageons également d’organiser une journée grand public sur ces thématiques éminemment sociétales.

Contact

Béatrice Daille
Professeure à l'Université de Nantes, membre du LS2N