Génome : ASGART, un outil simple, flexible, rapide, et open-source

Résultats scientifiques Informatique

Les variations de structures entre génomes sont générées par des échanges de matériel génétique entre longues séquences dupliquées. Elles sont largement sous-estimées, alors qu’elles affectent des gènes impliqués dans des fonctions fondamentales pour l’évolution de notre espèce, telles que la fertilité, la cognition, ou les sens (olfaction, audition, etc.). ASGART est un nouvel algorithme qui permet d’extraire, d’analyser et de visualiser ces duplications pour des génomes complets. Comparé aux outils existants, il est économe tant en utilisation CPU qu’en mémoire, ouvrant la voie à des études de génomique comparative ambitieuses et plus "vertes".

Cette étude comparative menée par des chercheur.e.s du laboratoire Anthropologie moléculaire et imagerie de synthèse (AMIS – CNRS/Université Toulouse III – Paul Sabatier) et de l’Institut de recherche en informatique de Toulouse (IRIT – CNRS/Toulouse INP/Université Toulouse Capitole/Université Toulouse Jean Jaurès/Université Toulouse III – Paul Sabatier) a été publiée dans la revue Bioinformatics.

Les duplications segmentaires, longues séquences dupliquées, représentent une source majeure de variabilité structurale, de fluidité et de plasticité pour les génomes. Les échanges de matériel génétique qui surviennent entre ces séquences dupliquées aux forts taux d’homologie (>1kb, >90%), sont responsables de la majorité des gènes perdus ou gagnés au cours de l’histoire évolutive humaine ; parmi eux se trouvent, en autres, les gènes impliqués dans la cognition, la fertilité masculine, les fonctions sensorielles ou le syndrome autistique. Malgré une dynamique exceptionnelle et un fort potentiel adaptatif, l’étude des duplications segmentaires reste difficile de par leur nature intrinsèque : la longueur des fragments et leur fort pourcentage d’homologie empêchant le séquençage simple de ces régions. Ces dernières années, le séquençage de génomes complets s’est essentiellement focalisé sur le développement de techniques favorisant les courts-fragments (50 et 150bp), limitant fortement l’accès aux régions complexes, longues et répétées, que sont les duplications segmentaires. Mais depuis 2012, l’évolution du séquençage basé sur de long-fragments (10 à 15.000 bases) ouvre de nouvelles perspectives. Alors que leur séquençage devrait encore se simplifier dans un futur proche et le seul obstacle à l’étude comparative de ces séquences devrait résider dans la disponibilité d’outils d’analyse in silico puissants pour analyser ces nouvelles données.

C’est dans cette optique que le programme ASGART “A Segmental duplications Gathering And Refining Tool” a été développé ; il permet d’extraire et d’analyser les duplications segmentaires de n’importe quel génome assemblé. ASGART réalise un partitionnement des zones identiques des brins d’ADN considérés, pour ensuite reconstruire des séquences dupliquées, hautement similaires mais non identiques ; les contraintes sur ce processus étant paramétrables par l’utilisateur. Une étude comparative a été réalisée afin de confronter les performances d’ASGART à celles des outils existants tels que YASS, MUMMER ou LAST : les génomes de cinq organismes modèles (homme, drosophile, souris, poisson zèbre, arabette de Thalius) ont été comparés et les performances évaluées. ASGART se montre supérieur aux outils existants tant en consommation CPU qu’en mémoire. Ces résultats combinés à la montée des performances quasi-linéaires en terme de parallélisation ou de distribution, ouvre la voie à des études de génomiques comparatives ambitieuses mais également plus ‘vertes’, économes en temps et en matériel. Par son excellente capacité à extraire les duplications segmentaires, quel que soit la taille du génome et sa complexité, ASGART devient un outil phare pour l’étude des duplications segmentaires.

Publication : ASGART : fast and parallel genome scale segmental duplications mapping. Delehelle Franklin, Cussat-Blanc Sylvain, Alliot Jean-Marc, Luga Hervé and Balaresque Patricia (2018), Bioinformatics, 1-7 doi:10.1093/bioinformatics/bty172.

Contact

Patricia Balaresque