Dominique Lavenier, directeur de recherche CNRS à l'IRISA© D.R.

BioPIM veut donner un coup d’accélérateur à la génomique mobile ultra-rapide

Distinctions Innovation Informatique

En l'espace de quelques années, les performances des technologies de séquençage se sont grandement améliorées, un seul appareil étant désormais capable de cartographier plusieurs milliers de génomes par an, y compris sur le lieu même d’émergence de nouveaux pathogènes. L’exploitation rapide in situ des données génomiques produites par les séquenceurs reste toutefois délicate en raison de la puissance de calcul que requièrent ce type d’analyses. Afin de pallier ces difficultés, BioPIM vise à développer des outils de bioinformatique à la fois plus performants et flexibles. Ce projet européen qui démarrera au printemps prochain pour une durée de quatre ans bénéficie du soutien financier du Conseil européen de l’innovation.

Les technologies de séquençage offrent aujourd’hui la possibilité de cartographier en un temps record des génomes de bactéries ou de virus non seulement en laboratoire mais aussi en milieu hospitalier ou sur le lieu même d'émergence de nouveaux agents pathogènes. Si ces avancées technologiques sont louables, elles présentent encore certaines failles. L’analyse rapide des grands volumes de données générés par les plateformes reste notamment compliquée. Pour surmonter cette difficulté, le projet BioPIM entend développer un nouveau dispositif d’analyse reposant sur le traitement en mémoire - Processing In-Memory (PIM) en anglais - des données génomiques.

Réunissant sept partenaires académiques et industriels1 , ce consortium international compte dans ses rangs plusieurs scientifiques français parmi lesquels Dominique Lavenier, directeur de recherche CNRS à l’Institut de recherche en informatique et systèmes aléatoires (IRISA - CNRS/ENS Rennes/Inria/INSA Rennes/IMT Atlantique/Université de Bretagne-Sud/Université de Rennes 1). En lien avec l’entreprise de semi-conducteurs UPMEM installée à Grenoble, le chercheur collabore depuis quelques années à la transposition de ces nouvelles architectures de calcul au domaine de la génomique. « La démarche d’UPMEM, qui consiste à intégrer des milliers de cœurs à la mémoire d’un serveur informatique, ouvre la voie à des calculs plus performants pour un coût économique réduit grâce à la limitation des mouvements de données entre la mémoire principale et le processeur chargé de les analyser », explique Dominique Lavenier.

  • 1Outre le CNRS, BioPIM réunit l’Institut Pasteur, l’École polytechnique fédérale de Zurich, l’Institut de technologie d'Israël Technion, l’Université de Bilkent (Turquie), l’entreprise grenobloise UPMEM et le groupe industriel IBM.
L’un des objectifs du consortium est de permettre l’analyse rapide de données génomiques à l’endroit même où elles sont générées sans avoir à passer par de grands centres de calcul très gourmands en énergie

En appliquant de tels préceptes, le scientifique et la PME grenobloise sont par exemple parvenus à diviser par vingt le temps de calcul de certains programmes bioinformatiques de base. Le projet BioPIM vise désormais à passer à la vitesse supérieure. « L’un des objectifs du consortium est de permettre l’analyse rapide de données génomiques à l’endroit même où elles sont générées sans avoir à passer par de grands centres de calcul très gourmands en énergie », résume le chercheur de l’IRISAPour relever ce défi, les collaborateurs du programme BioPIM misent une nouvelle fois sur le traitement en mémoire. Les principaux algorithmes de bioinformatique tels que la comparaison de séquences d’ADN, la recherche de mutations dans les génomes, ou encore la compression de données de séquençage, seront transformés pour s’intégrer aux architectures PIM.

Pour l’heure, ces analyses ne sont généralement pas réalisées sur le lieu de production des données. Or le fait de devoir acheminer ces données vers une infrastructure centralisée constitue un goulot d'étranglement important en raison du temps de latence associé à leur transport depuis le support de stockage et des limites imposées par la bande passante en matière de débit. « En développant une infrastructure de calcul basée sur le concept PIM, nous comptons réduire très significativement les temps de traitement dans la perspective d'accélérer localement les algorithmes chargés d’analyser les séquences génomiques », précise Dominique Lavenier.

En regroupant ces opérations au sein d’un unique support, cette approche devrait en outre permettre de diviser par dix la consommation d’énergie nécessaire à l’exécution de ces traitements. Mais avant de pouvoir transposer les performances du traitement en mémoire à l’analyse génétique, les membres du consortium vont tout d’abord devoir s’assurer de la compatibilité des logiciels de bioinformatique actuels avec cette nouvelle architecture informatique. « L’une des premières missions de BioPIM sera de vérifier que les applications dédiées à l’analyse génomique sont capables de fonctionner sur cette architecture innovante, puis d’accélérer leur migration en concevant un environnement de programmation spécifique », conclut le chercheur.

Contact

Dominique Lavenier
CNRS senior researcher at IRISA