Adapter les modèles de langue aux longs documents

Résultats scientifiques Informatique

Les modèles de langue sont performants, mais coûteux en ressources lorsqu'il s'agit de traiter de longs documents comme des livres entiers, ce qui oblige souvent à les découper en plusieurs blocs. Les résultats des études d’Arthur Amalvy, doctorant au LIA, Richard Dufour, professeur à Nantes Université et membre du LS2N et Vincent Labatut, maître de conférences à Avignon Université et membre du LIA mettent en évidence que ce découpage peut nuire aux performances de ces modèles. Pour pallier ce problème, les scientifiques ont proposé une méthode permettant de récupérer des informations pertinentes à l’échelle d’un texte long.

Ces dernières années, les modèles de traitement du langage naturel ont vu leurs performances augmenter drastiquement : en témoignent l'avènement récent de ChatGPT et des autres grands modèles de langues qui tentent de le surpasser comme le français Mistral. Dans cette course à la performance, un aspect est parfois négligé : celui du traitement efficace des longs documents. Le coût en ressources de ces modèles augmente en effet fortement en fonction de la taille des documents d'entrée, ce qui est un réel défi lorsqu'on souhaite les appliquer par exemple à l'échelle d'un livre entier.

Ainsi, ces modèles découpent souvent les longs documents en blocs, de manière à traiter la tâche considérée dans un temps raisonnable. Mais cela entraîne une perte de l'information contextuelle globale à l'échelle du document, qui aurait pu s'avérer précieuse.

C'est en tout cas ce qu’ont voulu vérifier les trois auteurs : d’Arthur Amalvy, doctorant au Laboratoire informatique d’Avignon (LIA - Avignon Université), Richard Dufour, professeur à Nantes Université et membre LS2N et Vincent Labatut, maître de conférences à Avignon Université et membre du LIA. Ils ont étudié l'impact de cette information perdue sur la tâche de détection d'entités nommées, une tâche fondamentale dans de nombreux systèmes de traitement du langage naturel qui consiste à reconnaitre des entités dans un texte et à déterminer leurs types (lieux, personnes, organisations, etc.). Cette étude compare la performance d’un modèle de langue sur des chapitres de romans en fonction du contexte reçu : local en n’utilisant que les informations présentes dans chaque « bloc », ou global au document. En utilisant le contexte global, le modèle est plus performant lorsqu'il s'agit de détecter et de classifier le type des entités nommées d'un jeu de données d'évaluation, ce qui met en évidence l'intérêt de la prise en compte de ce contexte. L’étude a été présentée lors de la conférence 2023 de l'Association for Computational Linguistics (ACL). 

Suite à cela, il restait à savoir comment récupérer efficacement ces informations globales. L’étude initiale proposait des méthodes naïves pour récupérer du contexte utile à la détection d'entités, mais Arthur Amalvy, Vincent Labatut et Richard Dufour ont supposé que des méthodes plus complexes pouvaient obtenir de meilleurs résultats. Ils ont donc cherché à entraîner un modèle qui serait capable de distinguer un contexte utile et un contexte inutile, voire contre-productif.

Malheureusement, entraîner un modèle à résoudre une tâche nécessite des données, et aucun jeu de données n'existait pour ce problème particulier de récupération de contexte. Les auteurs ont donc proposé un moyen de générer un tel jeu de données à l'aide du récent modèle de langue Alpaca. Ce jeu de données, entièrement synthétique, a permis d'entraîner un modèle de récupération de contexte. Ce dernier s'est avéré meilleur que les précédentes méthodes naïves pour récupérer des informations pertinentes au niveau d'un livre, ce qui a permis d'augmenter les performances sur la tâche de détection d'entités. Ces travaux ont été présentés à l'édition 2023 de la conférence internationale Empirical Methods in Natural Language Processing (EMNLP).

Si les résultats ont mis en évidence l'importance du contexte global, ils sont limités à la tâche spécifique de détection d'entités nommées. La question de l'influence de ce contexte sur d'autres tâches de traitement du langage reste donc ouverte.

Publications

Contact

Arthur Amalvy
Doctorant au LIA
Richard Dufour
Professeur à Nantes Université, membre du LS2N