Insyght, un nouvel outil pour comparer une grande masse de génomes de bactéries grâce à E-Biothon

Résultats scientifiques Informatique

Des chercheurs de l’INRA, autour de Jean-François Gibrat, directeur de l’Institut Français de Bioinformatique (IFB, CNRS/INRA/Inria/Inserm/CEA), ont développé Insyght, un nouvel outil dédié à la comparaison des génomes procaryotes. Les scientifiques sont parvenus à comparer le contenu en gènes de près de 2700 génomes complets de bactéries. Un projet rendu possible grâce aux moyens de calcul disponibles sur E-Biothon, une plateforme Cloud dédiée au développement des recherches en bio-informatique. Leurs résultats sont publiés dans la revue Bioinformatics de novembre 2015.

Les sciences du vivant font de plus en en plus appel aux outils numériques, notamment pour faire face à l’augmentation du nombre de données et pouvoir les analyser. Les comparaisons du contenu en gènes d’un grand nombre de génomes procaryotes (c’est-à-dire de bactéries et d’archées), qui peuvent par exemple servir à étudier les différences génétiques entre des bactéries pathogènes et d’autres non pathogènes, demandent de traiter des volumes de données considérables, qui poussent les outils d’analyse actuels à leurs limites. Dans le but de faire face à ce défi, une équipe de l’INRA a développé Insyght qui compare les génomes procaryotes, notamment en permettant de visualiser les séquences protéiques homologues et les groupes de gènes dont les voisinages et l’organisation sont conservés sur plusieurs génomes. Les scientifiques ont mis Insyght à l’épreuve en réalisant la comparaison de 2688 génomes de bactéries grâce aux moyens de calcul de la plateforme E-Biothon, plate-forme Cloud hébergée à l’Institut du Développement et des Ressources en Informatique Scientifique (IDRIS - CNRS) et lancée en 2013 par le CNRS, IBM, Inria, l’Institut français de Bioinformatique et la start-up SysFera. 

L’un des objectifs de cette étude était de définir le pangénome de différents groupes de bactéries, c’est-à-dire la gamme complète des gènes des espèces du groupe étudié. Le pangénome est constitué du génome de base, les gènes communs à toutes les espèces du groupe, du génome « accessoire », propre aux espèces d’un écosystème particulier, et des gènes « orphelins », présents seulement chez une souche donnée. Les scientifiques se sont particulièrement intéressés aux relations de synténie, c’est-à-dire, à la conservation, localement, de l’ordre des gènes homologues, parmi les génomes étudiés. Ces données fournissent des informations importantes sur les propriétés biologiques des espèces. Cette technique permet par exemple d’identifier les gènes responsables du caractère pathogène de certaines espèces. Ces espèces peuvent être caractérisées par la présence d’« îlots de pathogénicité », des gènes souvent contigus et qui n’existent pas chez les espèces non pathogènes. 

L’intérêt d’une telle technique d’analyse de génomes peut être de discriminer des organismes pathogènes d’autres inoffensifs, mais ce n’est pas le seul. D’une manière générale, l’objectif de beaucoup d’études en biologie est de relier les propriétés biologiques des organismes avec leur contenu en gènes, c’est-à-dire de relier le phénotype au génotype. Insyght est destiné à faciliter cette tâche aux biologistes. Il permet d’accéder facilement à l’ensemble des données, des résultats, de faire des comparaisons de génomes, d’extraire les relations de synténie et de les visualiser facilement grâce à une interface web accessible à tous. Une machine virtuelle est également disponible, pour permettre aux utilisateurs d’utiliser Insyght en local en créant leur propre base de données de génomes. Le logiciel, ainsi que les données obtenues, sont ainsi mis à disposition de la communauté des biologistes pour les aider à faire de la génomique comparative.

Image retirée.

La puissance de calcul nécessaire à l’obtention de ces données est très importante. La première étape nécessite la comparaison, avec BLAST, un algorithme de comparaison de séquences, de toutes les séquences protéiques contenues dans les 2688 génomes bactériens complets, ce qui représente la réalisation d’environ quatre millions de comparaisons. Cette étape est suivie du calcul de la conservation de l’ordre local des gènes homologues le long des génomes pour définir les relations de synténie. La structuration d’E-Biothon pour réaliser ces masses de calcul était donc indispensable. 

L’équipe de chercheurs prévoit maintenant d’utiliser Insyght pour étudier des bactéries coprostanoligènes. Ces bactéries se trouvent dans l’intestin de certains mammifères, dont l’homme, et permettent de dégrader le cholestérol en coprostanol, d’où leur nom. Le coprostanol est peu soluble et est éliminé de l’organisme. Les bactéries coprostanoligènes pourraient donc être utilisées comme probiotiques, permettant de faire baisser le taux de cholestérol chez des patients présentant un taux élevé de ce dernier et les protégeant ainsi de risques de maladies cardio-vasculaires associées.

Publication
Synchronized navigation and comparative analyses across Ensembl complete bacterial genomes with INSYGHT, Thomas Lacroix1 , Sylvie Thérond2 , Marc Rugeri2 , Pierre Nicolas1 , Annie Gendrault1 , Valentin Loux1  et Jean-François Gibrat1 , Bioinformatics November 2015

  • 1 a b c d e INRA Jouy-En-Josas, Unité Mathématiques et Informatique Appliquées du Génome à l’Environnement
  • 2 a b IDRIS-CNRS

Contact

Jean-François Gibrat
Directeur de l’Institut Français de Bioinformatique (IFB)