https://www.ins2i.cnrs.fr/en/node/3532

Guillaume Cabanac et Cyril Labbé : unis contre la fraude scientifique

09 April 2024

Résultats scientifiques Informatique

Depuis leurs universités respectives, les professeurs Guillaume Cabanac, de l’Institut de recherche en informatique de Toulouse (IRIT - CNRS/Toulouse INP/Université Toulouse 3 – Paul Sabatier) et Cyril Labbé, membre du Laboratoire d’informatique de Grenoble (LIG - CNRS/Université Grenoble-Alpes), développent des outils de détection de fraude scientifique. Ils font face à des techniques variées, allant des articles générés aléatoirement et dépourvus de sens aux citations de travaux qui n’ont jamais existé.

La recherche se pare de différents garde-fous pour limiter la fraude et les erreurs, mais celles-ci infiltrent malgré tout la littérature scientifique. Guillaume Cabanac, professeur en informatique à l'Université Toulouse III – Paul Sabatier, membre de l'IRIT et Cyril Labbé, professeur à l’université Grenoble-Alpes et membre du LIG, luttent farouchement contre ces dérives dont l’origine est résumée par l’adage « publier ou périr ».

De nombreux chercheurs sont en effet incités à multiplier les publications et les citations, afin d’alimenter des indicateurs chiffrés qui prennent de plus en place dans l’évaluation de leur carrière. « J’ai retrouvé une mention de “publier ou périr” remontant à 1927, ce n’est donc pas nouveau, avance Guillaume Cabanac. Mais la pression s’est intensifiée au fil des ans, et dans certains pays en particulier. Dans les hôpitaux chinois par exemple, les médecins ont une charge de cours obligatoire et risquent d’être renvoyés s’ils n’atteignent pas de véritables quotas de publication. »

Des paper mills, des entreprises « moulins à papier », fabriquent et vendent contre rémunération n’importe quels articles, parfois déjà acceptés dans des revues établies, et qui se citent massivement entre eux pour se donner une apparence de légitimité. « Nous avons détecté des articles surréalistes, générés aléatoirement et dépourvus du moindre sens, s’étonne Cyril Labbé. Ces articles sont pourtant cités et parfois même pris en compte dans des classements internationaux et des évaluations pour le financement d’hôpitaux et de laboratoires. »

Sans le comptage aveugle des publications, ces fraudes n’existeraient pas.

Cyril Labbé

Les faussaires proposent aussi des textes qui, de loin, semblent cohérents, mais qui sont en fait générés automatiquement. Guillaume Cabanac et Cyril Labbé développent des algorithmes qui les repèrent parmi les 130 millions d’articles indexés à ce jour. Les articles problématiques sont trahis par leur langage aberrant, basé sur des synonymes et des déformations de termes scientifiques consacrés qu’aucun chercheur n’utilise. Le système mis au point par le duo a même découvert des citations répétées d’articles qui n’existent tout simplement pas. On retrouve des cas particuliers comme SCIgen, un programme qui génère des articles scientifiques bidon, pensé à l’origine pour tester le sérieux des conférences ou des revues scientifiques auxquelles ils sont soumis, mais qui peut être détourné pour frauder.

On retrouve aussi des textes correctement formulés, mais remplis d’erreurs. Cyril Labbé est d’ailleurs co-porteur d’un projet ERC Synergy intitulé NanoBubbles, consacré à l’étude de la propagation des erreurs scientifiques, tandis que Guillaume Cabanac est lauréat d’une chaire de recherche fondamentale de l’Institut universitaire de France (IUF) dédiée à la dépollution de la littérature scientifique. Avec Jennifer Byrne, professeure à l’université de Sydney, ils participent également au projet Seek & BlastN sur la détection d’erreurs issues de séquences d’ARN mal décrites. Certains de ces problèmes n’ont pas d’origine malveillante, mais d’autres sont le résultat de triches telles que des rapports d’expériences qui n’ont en fait jamais été menées.

Nous avons vu des chercheurs qui publient, depuis des années, un article par semaine.

Guillaume Cabanac

De nombreux outils développés par Guillaume Cabanac et Cyril Labbé sont réunis sur le site Problematic Paper Screener, qui sert de porte d’entrée lorsque d’un article suscite des doutes. «Nos algorithmes détectent automatiquement les cas suspects, mais les articles ainsi identifiés doivent être évalués par des humains », insiste Cyril Labbé. Les problèmes sont ensuite signalés sur PubPeer, un site qui héberge des commentaires d’évaluation, rédigés par scientifiques et amateurs, à propos d’articles scientifiques déjà publiés. Les auteurs et les lecteurs sont encouragés à réévaluer ces articles problématiques, que les maisons d’édition ont le devoir de corriger, voire de rétracter, si leur fiabilité n’est pas avérée. PubPeer est administré par Brandon Stell, chargé de recherche CNRS au SPPIN1 , et Boris Barbour, directeur de recherche CNRS à l’IBENS2 . Malgré tout, des articles signalés et rétractés sont encore cités et commentés, ce qui entache les travaux qui s’y réfèrent. Les auteurs n’en sont parfois même pas conscients.

Contact

Guillaume Cabanac

Professor at Université Toulouse III - Paul Sabatier, member of IRIT

guillaume.cabanac@univ-tlse3.fr

Cyril Labbé

Associate professor at Université Grenoble Alpes, member of LIG

cyril.labbe@imag.fr

Notes

Institut des neurosciences Paris Saints-Pères (CNRS/Univ. Paris Cité).
Institut de biologie de l’École normale supérieure (CNRS/ENS – PSL/INSERM).