Une machine peut-elle réussir le concours d'internat en pharmacie ?

Résultats scientifiques Informatique

Les progrès récents en intelligence artificielle ont montré au grand public le potentiel des modèles de langue utilisés dans des outils tels que ChatGPT. Ces modèles peuvent produire des résultats très spectaculaires, mais qui peuvent s’avérer très décevants, car contrôler leur comportement dans la réalisation d'une tâche particulière en garantissant la stabilité des textes générés reste difficile. C’est pourquoi il est important de les évaluer sur des tâches précises permettant de tester leurs compétences. Pour la compétition scientifique Défi Fouille de Textes (DEFT) 2023, la tâche confiée aux modèles des compétiteurs consistait à répondre automatiquement à des questions de type QCM issues du concours d'entrée en internat de pharmacie. Le modèle développé au Laboratoire d'Informatique et Systèmes (LIS - CNRS/Aix-Marseille Université) par Benoit Favre, professeur à l'Université Aix-Marseille et membre du LIS, est arrivé largement en tête sur un total de 6 soumissions regroupant 12 laboratoires de recherche publics et privés.

Les modèles de langue utilisés actuellement dans la plupart des applications du Traitement automatique des langues ou TAL (traduction, chat, question/réponse, etc.) sont entraînés avec de très grandes quantités de textes collectées sur Internet afin de déterminer les paramètres des réseaux de neurones minimisant la différence entre les textes d’entraînement et les prédictions faites par le modèle. A partir de données telles que les foires aux questions (FAQ), ils peuvent apprendre à générer une réponse en prenant en entrée le texte de la question. La quantité de données utilisées pour l’entraînement et le nombre de paramètres obtenus permettent la modélisation de connaissances variées dotant les modèles d’une certaine capacité à généraliser. Cette capacité traduit l’aptitude des systèmes à répondre à des questions sur lesquelles ils n’ont pas été entraînés, en capitalisant sur les connaissances acquises. Cependant, entraîner des modèles de langage à grande échelle nécessite des ressources de calcul colossales, souvent plusieurs milliers de serveurs de calcul GPU pendant plusieurs mois. Les recherches actuelles s’orientent donc vers plus de frugalité et des solutions commencent à apparaître pour modifier un modèle de langage plus efficacement.

C’est dans ce cadre que s’inscrivent les recherches menées par Benoit Favre, professeur à l'Université Aix-Marseille et membre du LIS, au sein de l’équipe Traitement automatique du langage écrit et parlé (TALEP). Les modèles imaginés par Benoît Favre ont obtenu les meilleurs résultats lors de la compétition scientifique DEFT qui organise chaque année un défi différent lié au traitement du langage par les ordinateurs. En 2023, le défi était de répondre automatiquement à des questions à choix multiple issues du concours national d’entrée en internat de pharmacie.

Cette tâche est difficile car elle demande non seulement de comprendre les questions, mais aussi de manipuler des connaissances de spécialité, ici le domaine médical. Pour concourir, ces systèmes n’avaient pas le droit d’aller chercher les réponses sur le web et devaient être reproductibles. Le système du LIS est fondé sur un modèle de langue Large Language Model Meta AI (LLaMA), un modèle de 65 milliards de paramètres mis à disposition par Meta AI et entraîné sur environ 1 milliards de mots, puis affiné sur 2171 questions tirées des annales du concours de pharmacie avec la méthode LoRA.  Un point remarquable est que l’entraînement n’a nécessité qu’un seul accélérateur GPU haut de gamme. Ce système a remporté le défi face à 12 laboratoires de recherche publics et privés.

La méthode n’est toutefois pas parfaite et repose sur les connaissances implicites contenues dans les textes d’apprentissages. Lorsque les données sont issues de l’Internet, elles comportent leur lot d’erreurs, de désinformations, de biais, et de contenus illicites ou répréhensibles. Contrôler l’effet de la qualité des données sur les modèles de langage, y intégrer des connaissances explicites comme des manuels de médecine, ou encore améliorer leur efficacité, sont des pistes de recherche importantes qui restent à explorer.

Publication

Favre B. LIS@DEFT’23 : les LLMs peuvent-ils répondre à des QCM ? (a) oui; (b) non; (c) je ne sais pas. Actes du Défi Fouille de Textes @TALN2023, pages 46–56, 5 au 9 juin 2023, Paris.

Contact

Benoit Favre
Professeur à l'Université Aix-Marseille, membre du LIS