Un nouvel algorithme accélère le séquençage du génome

Un nouvel algorithme réduit considérablement le temps nécessaire pour localiser une séquence génétique spécifique dans une base de données de génomes. Crédit : Christine Daniloff

En développant un moyen de représenter mathématiquement les génomes de différentsespèces, ou de différents individus au sein d'une espèce, de telle sorte que les données qui se chevauchent ne sont stockées qu'une seule fois, un nouvel algorithme réduit considérablement le temps nécessaire pour trouver une séquence génétique particulière dans une base de données de génomes.

En 2001, le Human Genome Project et Celera Genomics ont annoncé qu'après 10 ans de travail, pour un coût d'environ 400 millions de dollars, ils avaient achevé une ébauche de séquence du génome humain. Aujourd’hui, le séquençage d’un génome humain est quelque chose qu’un seul chercheur peut réaliser en quelques semaines et pour moins de 10 000 dollars.

Depuis 2002, la vitesse à laquelle les génomes peuvent être séquencés double tous les quatre mois environ, alors que la puissance de calcul ne double que tous les 18 mois. Sans l’avènement de nouveaux outils analytiques, la capacité des biologistes à générer des données génomiques dépassera bientôt leur capacité à en faire quoi que ce soit d’utile.

Dans le dernier numéro deBiotechnologie naturelle,AVECet des chercheurs de l'Université Harvard décrivent un nouvel algorithme qui réduit considérablement le temps nécessaire pour trouver une séquence génétique particulière dans une base de données de génomes. De plus, plus il recherche de génomes, plus il accélère, de sorte que ses avantages ne feront que s’accroître à mesure que davantage de données seront générées.

Dans un certain sens, il s'agit d'un algorithme de compression de données, comme celui qui permet aux utilisateurs d'ordinateurs de compresser des fichiers de données en fichiers zip plus petits. "Vous disposez de toutes ces données et, de toute évidence, si vous souhaitez les stocker, les gens les compresseraient naturellement", explique Bonnie Berger, professeur de mathématiques appliquées et d'informatique au MIT et auteur principal de l'article. "Le problème est qu'en fin de compte, vous devez les examiner, donc vous devez les décompresser pour les examiner. Mais notre idée est que si vous compressez les données de la bonne manière, vous pouvez alors effectuer votre analyse directement sur les données compressées. Et cela augmente la vitesse tout en maintenant laprécisiondes analyses. »

Exploiter la redondance

Le schéma de compression des chercheurs exploite le fait que l’évolution est avare de bonnes conceptions. Il existe de nombreux chevauchements dans les génomes d’espèces étroitement apparentées, et certains se chevauchent même dans les génomes d’espèces éloignées : c’est pourquoi les expériences réalisées sur des cellules de levure peuvent nous renseigner sur les réactions humaines aux médicaments.

Berger ; son ancien étudiant diplômé Michael Baym PhD '09, qui est maintenant chercheur invité au département de mathématiques du MIT et postdoctorant en biologie des systèmes à la Harvard Medical School ; et son étudiant diplômé actuel, Po-Ru Loh, ont développé un moyen de représenter mathématiquement les génomes de différentes espèces – ou de différents individus au sein d'une espèce – de telle sorte que les données qui se chevauchent ne soient stockées qu'une seule fois. Une recherche de plusieurs génomes peut ainsi se concentrer sur leurs différences, ce qui permet de gagner du temps.

« Si je veux effectuer un calcul sur mon génome, cela prend un certain temps », explique Baym. "Si je veux ensuite exécuter le même calcul sur votre génome, le fait que nous soyons si similaires signifie que j'ai déjà fait l'essentiel du travail."

Dans des expériences sur une base de données de 36 génomes de levure, les chercheurs ont comparé leur algorithme à celui appelé BLAST, pour Basic Local Alignment Search Tool, l'un des algorithmes de recherche génomique les plus couramment utilisés en biologie. Dans une recherche d’une séquence génétique particulière dans seulement 10 génomes de levure, le nouvel algorithme était deux fois plus rapide que BLAST ; mais dans une recherche des 36 génomes, c'était quatre fois plus rapide. Cet écart ne fera qu'augmenter à mesure que les bases de données génomiques grandissent, explique Berger.

Matchmaking

Le nouvel algorithme serait utile dans toute application où la question centrale est, comme le dit Baym : "J'ai une séquence ; à quoi ressemble-t-elle ?" L’identification des microbes en est un exemple. Le nouvel algorithme pourrait aider les cliniciens à déterminer les causes des infections, ou il pourrait aider les biologistes à caractériser les « microbiomes », des collections de microbes trouvées dans les tissus animaux ou dans des microenvironnements particuliers ; les variations du microbiome humain ont été impliquées dans diverses conditions médicales. Il pourrait être utilisé pour caractériser les microbes présents dans des sols particulièrement fertiles ou infertiles, et il pourrait même être utilisé en médecine légale, pour déterminer l'origine géographique des preuves physiques par ses signatures microbiennes.

"Le problème qu'ils examinent - qui consiste, à partir d'une séquence, à essayer de déterminer quelles séquences connues lui sont similaires - est probablement le problème le plus ancien de la biologie computationnelle, et c'est peut-être la question la plus fréquemment posée en biologie computationnelle", explique Mona Singh, professeur d'informatique àUniversité de Princetonet membre du corps professoral de l’Institut Lewis-Sigler de génomique intégrative de Princeton. « Et c’est précisément pour cette raison que le problème est d’une importance capitale. »

Au cours des dix dernières années, dit Singh, les biologistes ont eu tendance à penser en termes de « génomes de référence » – des génomes, comme le projet de séquence humaine publié en 2001, qui tentent de se généraliser entre les individus d’une espèce et même entre les espèces. "Mais à mesure que nous obtenons de plus en plus d'individus, même au sein d'une même espèce, et d'espèces distinctes séquencées très étroitement liées, je pense que nous commençons à nous éloigner de l'idée d'un génome de référence unique", dit Singh. "Leur approche va vraiment briller lorsque vous aurez de nombreux organismes étroitement liés."

Le groupe de Berger travaille actuellement à étendre la technique à l’information sur les protéines etARNséquences, où cela pourrait rapporter des dividendes encore plus importants. Maintenant que le génome humain a été cartographié, les principales questions en biologie sont de savoir quels gènes sont actifs, à quel moment et comment les protéines pour lesquelles ils codent interagissent. Les recherches dans de vastes bases de données d’informations biologiques sont cruciales pour répondre à ces deux questions.

Référence : « Compressive genomics » par Po-Ru Loh, Michael Baym et Bonnie Berger, 10 juillet 2012,Biotechnologie naturelle.
DOI : 10.1038/nbt.2241

Ne manquez jamais une percée :
Suivez-nous suretGoogle Actualités.

Un nouvel algorithme réduit considérablement le temps nécessaire pour localiser une séquence génétique spécifique dans une base de données de génomes. Crédit : Christine Daniloff