LA RECHERCHE DE SIMILITUDES ENTRE SEQUENCES
Laboratoire A2SI - Groupe ESIEE
1. Introduction
Le terme "génome" a été introduit en 1920 par Hans Winkler pour désigner l'ensemble (haploïde) des gènes d'un organisme. La nature du gène était alors inconnue. Ce n'est que dans les années 1940-1960, que l'on a pu déterminer que le matériel génétique est constitué d'ADN ou d'ARN pour certains virus, et que l'on a découvert comment la succession des bases (la séquence) permet de coder une protéine. Nous sommes ainsi passés d'une définition théorique du génome (ensemble des gènes) à une définition physique: le génome est constitué de molécules d'ADN.
Diapositive PPT
- Chez les bactéries, ces deux définitions concordent: le génome d'Escherichia coli, est formé d'une molécule d'ADN circulaire dans laquelle les gènes sont pratiquement accolés les uns aux autres.
- Par contre, chez de nombreux eucaryotes et en particulier chez les vertébrés, le génome ne se limite pas à l'ensemble des gènes. Bien au contraire, les gènes ne constituent qu'une faible portion du génome.
Diapositive PPT
Ainsi, alors que la fonction primordiale du génome est de servir de support de l'information génétique, une fraction importante du génome ne contient apparemment aucune information.
Diapositive PPT
Différentes hypothèses ont été proposées pour expliquer cette situation paradoxale.
- Certains auteurs pensent que l'ADN non génique est inutile et s'accumule dans le génome simplement parce qu'il n'est pas nuisible à l'individu.
- D'autres considèrent au contraire que la vaste majorité de l'ADN participe à l'organisation du génome, système complexe et ordonné qui intègre de multiples fonctions.
Diapositive PPT
Cette question n'est pas encore tranchée. Ce qui est clair, c'est que pour comprendre le génome des vertébrés, il est nécessaire d'en étudier les 65% à 99,9% qui sont constitués de séquences non-codantes.
Diapositive PPT
- La compréhension du génome implique à la fois une étude fonctionnelle, structurale et évolutive.
- L'étude fonctionnelle vise à identifier les différentes informations génétiques contenues dans le génome.
- L'étude structurale a pour objet de connaître les différents niveaux d'organisation du génome et d'essayer de comprendre comment cette organisation est en lien avec la fonction du génome.
- L'étude évolutive s'impose car pour comprendre le génome actuel, il est nécessaire de connaître les forces évolutives qui l'ont façonné.
Diapositive PPT
Même si le génome des vertébrés reste à bien des égards méconnu, des connaissances importantes se sont accumulées et une vision globale du génome commence à émerger.
Diapositive PPT
L’acide désoxyribonucléique (ADN) est le support de l'information génétique de tous les organismes vivants autonomes.
- Chez les eucaryotes, cette information génétique est contenue dans le noyau cellulaire, délimité par une membrane, ainsi que, pour une plus faible part, dans les organites cytoplasmiques (mitochondries, chloroplastes).
Diapositive PPT
Le génome nucléaire est fragmenté en plusieurs molécules linéaires d'ADN, qui constituent les chromosomes. La taille du génome correspond au nombre de paires de bases contenues dans les chromosomes d'une cellule haploïde. La taille du génome est généralement constante pour une espèce(d'où la "valeur C" pour la désigner).
Diapositive PPT
- Le génome a pour fonction première de contenir l'information génétique nécessaire au développement, à la survie et à la reproduction de l'organisme. Nous nous attendons donc à ce que la taille du génome soit proportionnelle à la complexité de l'organisme. Or nous savons depuis plus de 40 ans [Mirsky et Ris 1951] que la taille des génomes n'est pas en relation directe avec la complexité d'un organisme, ni avec le nombre de ses gènes (paradoxe de la valeur C).
Mirsky A.E. & Ris H. (1951) The DNA content of animal cells and its evolutionary significance. J. Gen. Physiol. 34:451-462
Diapositive PPT
Contrairement à la taille des génomes, le nombre de gènes codant pour des protéines semble être corrélé (grossièrement) avec le degré de complexité de l'organisme [Cavalier-Smith 1985].
Cavallier-Smith T. (1985) Eukaryote gene numbers, non-coding DNA and genome size. In: The evolution of genome size. Cavallier-Smith T (ed) ,Wiley, London, pp. 69-103
Diapositive PPT
Pour progresser dans la compréhension du génome des vertébrés, il faut essayer d'avoir une vision globale de son fonctionnement, de son organisation et de son évolution. L'objectif de ce chapitre est de faire un survol des différents points de vue que l'on peut avoir sur le génome des vertébrés :
- compartimentation fonctionnelle: quelles sont les informations génétiques contenues dans le génome?
Diapositive PPT
- organisation structurale. La structure physique du génome peut être décrite sous plusieurs aspects: organisation en classes de séquences répétées, structure de la chromatine, bandes chromosomiques, isochores*. Quels sont les liens entre ces différents niveaux d'organisation?
- évolution, relations structure-fonction: Quelle est l'origine évolutive de l'organisation physique du génome? Quelles sont les relations entre cette organisation physique et le fonctionnement du génome?
* composition nucléotidique homogène
Diapositive PPT
- COMPARTIMENTATION FONCTIONNELLE
Le premier point important pour comprendre l'organisation du génome est d'identifier les informations génétiques qu'il contient. En génétique moléculaire, un gène est traditionnellement défini physiquement, comme une région d'ADN qui code pour une protéine ou qui spécifie un ARN fonctionnel. Cependant, une région d'ADN peut avoir une fonction qui ne requiert ni sa traduction ni même sa transcription.
Diapositive PPT
Cavalier-Smith (1985) propose donc de définir le gène simplement comme un fragment d'ADN qui a une fonction connue. On peut reconnaître trois types de gènes:
- les gènes protéiques, qui sont transcrits en ARN puis traduits en protéine
- les gènes spécifiant des ARN, qui sont transcrits mais non traduits
- les gènes régulateurs, dont la fonction ne requiert pas la transcription.
Diapositive PPT
- Les gènes protéiques et les gènes spécifiant des ARN sont regroupés sous le terme de gènes structuraux.
- La classe des gènes régulateurs comprend tous les éléments fonctionnels du génome qui ne sont pas des gènes structuraux (centromères, télomères, origines de réplication, etc.). Cette définition est volontairement floue, pour souligner le fait que les éléments fonctionnels du génome n'ont probablement pas encore été tous découverts.
Diapositive PPT
COMPARTIMENTATION STRUCTURALE
- La structure physique du génome peut être décrites sous différents aspects, qui révèlent différents types de compartimentation:
- organisation en classes de séquences répétées et uniques
- organisation en bandes chromosomiques, liée à la structure de la chromatine
- organisation en domaines de composition nucléotidique homogène (isochores)
Il existe des relations entre ces différents niveaux d'organisation, ainsi qu'entre compartimentation physique et compartimentation fonctionnelle du génome.
Diapositive PPT
CORRELATIONS FONCTIONNELLES ET STRUCTURALES
La compartimentation des chromosomes en bandes et en isochores est corrélée avec différents aspects du fonctionnement du génome.
Diapositive PPT
L'analyse statistique des séquences biologiques est une approche puissante pour étudier la structure, le fonctionnement et l'évolution des génomes.
- Les travaux de Grantham (1972) sur l'usage du code marquent sans doute le point de départ de cette nouvelle discipline. Depuis, les techniques de la biologie moléculaire ont très rapidement progressé et se sont diffusées dans de nombreux champs d'investigations de la recherche biologique et médicale.
Grantham R. (1972) Codon base randomness and composition drift in coliphage. Nature New Biol. 237:265-266
Diapositive PPT
2. Recherche de similitude
Permet de révéler des régions proches dans leur séquence primaire en se basant sur le principe de parcimonie : en considérant le minimum de changements en insertion, suppression, ou substitution qui séparent deux séquences.
Apprendre ainsi, par association, des informations importantes sur la structure, la fonction ou l ’évolution des biomolécules.
Diapositive PPT
- les recherches de motifs à travers une séquence,
- la caractérisation de régions communes ou similaires entre deux ou plusieurs séquences,
- la comparaison d'une séquence avec l'ensemble ou sous-ensemble des séquences d'une base de données,
- l'établissement d'un alignement multiple sur lequel sont basées les analyses d'évolution moléculaire.
Nous décrirons dans ce cours les principes fondamentaux qui sont indispensables à la compréhension de ces outils.
Recherche de similitude (suite)
Diapositive PPT
RECHERCHE PAR SIMILITUDE DANS LES BANQUES DE SÉQUENCES
- Le problème qui est donc posé est le suivant: connaissant un gène ou une protéine, quelles sont les séquences de la banque de données qui lui sont similaires?
La ressemblance que l'on cherche à détecter ne couvre pas forcément la séquence entière: il est fréquent que les similitudes entre deux protéines ne portent que sur de courtes régions, correspondant par exemple à des motifs structuraux ou à des sites actifs.
Recherche de similitude (suite)
Diapositive PPT
Le problème revient donc à rechercher des similitudes locales entre la séquence 'requête' et les séquences de la banque.
Recherche de similitude (suite)
Diapositive PPT
Il existe de nombreuses méthodes de recherche de similitude, et leur efficacité peut être évaluée suivant plusieurs critères:
- pertinence (capacité à détecter des similitudes reflétant des relations évolutives, fonctionnelles ou structurales entre les séquences)
- sensibilité (capacité à détecter toutes les similitudes pertinentes)
- sélectivité (capacité à discriminer les similitudes significatives du bruit de fond)
Recherche de similitude (suite)
Diapositive PPT
De nombreux paramètres influent fortement sur l'efficacité de la recherche:
- choix de la mesure de similitude
- choix de l'algorithme de recherche
- choix de la stratégie de recherche (protéique ou nucléique, traitement du bruit de fond dû à la redondance ou aux séquences répétées)
- complétude de la banque de données
Recherche de similitude (suite)
Diapositive PPT
2. 2. Mesure de similitude
Quel que soit l'algorithme utilisé, le résultat de la recherche dépend fortement de la mesure de similitude qui a été choisie. Pour quantifier la similitude entre deux séquences, celles-ci sont alignées, c'est-à-dire juxtaposées de manière à mettre en regard les résidus que l'on juge correspondre.
Recherche de similitude (suite)
Diapositive PPT
- Par exemple l'alignement:
indique que l'on suppose qu'il y a eu au cours de l'évolution substitution entre les résidus valine (V) et leucine (L), et qu'un résidu tyrosine (Y) a été inséré dans la première séquence ou délété dans la deuxième (NB: on utilise généralement le terme "indel" pour indiquer un évènement d'insertion ou de délétion) .
Recherche de similitude (suite)
Diapositive PPT
- Les principes de la détermination d'un score
Objectif : Qualifier et quantifier la similitude entre séquences.
La similitude entre deux séquences est mesurée en sommant le long de l'alignement, les scores attribués à chaque paire de résidus et aux indels. Le choix des scores associés aux identités, substitutions et aux indels détermine donc la signification biologique de la similitude que l'on mesure.
Recherche de similitude (suite)
SCORE ELEMENTAIRE
- Ceci est un élément d ’une matrice de scores qui rend compte de tous les états possibles en fonction de l ’alphabet utilisé dans la description des séquences. Ainsi, pour les acides nucléiques, la matrice d'identité ou unitaire est principalement employée. Elle rend compte de l'identité des résidus pour chacune des positions de la comparaison, on parle ainsi de bon ou de mauvais appariement ou bien de bonne ou mauvaise association.
Recherche de similitude (suite)
Diapositive PPT
- Ce critère qui permet déjà d'établir des ressemblances ne suffit pas toujours pour révéler au mieux les similitudes entre séquences. Très rapidement, on s'est aperçu qu'une insertion ou une délétion d'une ou plusieurs bases pouvait améliorer le score d'une comparaison et ainsi faire davantage ressortir les zones identiques ou très proches.
Recherche de similitude (suite)
Diapositive PPT
- Ces brèches (en anglais gap) que l'on impose aux séquences sont évidemment pénalisantes dans le calcul du score.
- Si l'on considère que le score donne le rapprochement entre deux séquences, on peut résumer celui-ci par l'équation suivante :
où se est un score élémentaire et sp une pénalité d'insertion ou de délétion.
Recherche de similitude (suite)
Diapositive PPT
- Deux remarques :
- le score est fonction de la longueur de la zone de similitude que l'on considère, c'est à dire que plus la longueur est grande, plus le score est élevé.
- on peut nuancer le calcul en donnant plus ou moins d'importance aux pénalités et aux associations possibles entre résidus.
Ainsi, le poids d'une insertion peut être plus ou moins fort par rapport à une mauvaise association.
Recherche de similitude (suite)
Diapositive PPT
On voit déjà très bien ici que par le biais de ces deux éléments fondamentaux, on pourra privilégier une situation plutôt qu'une autre, c'est-à-dire avoir des comparaisons de séquences avec peu ou beaucoup d'insertions-délétions. On retrouvera bien sûr ce type d'éléments sous forme de paramètre dans les programmes de comparaison.
Recherche de similitude (suite)
LES MATRICES DE SUBSTITUTION
Le choix de la pondération dépend de la nature de la similitude que l'on veut mettre en évidence.
La mesure de similitude la plus simple consiste à donner un score de zéro aux substitutions et un score de un aux identités. Cette méthode est cependant peu sensible car il existe différents degrés de similitude entre séquences.
Recherche de similitude (suite)
Exemple:
D ’un point de vue physico-chimique, la valine est proche de l'alanine. En conséquence, la substitution d'une valine par une alanine ne perturbe généralement pas le fonctionnement de la protéine. De telles substitutions sont dites conservatrices et sont relativement fréquentes au cours de l'évolution car elles modifient peu le phénotype et offrent donc peu de prise à la sélection naturelle.
Recherche de similitude (suite)
LES MATRICES DE SUBSTITUTION
- Matrices de substitutions nucléiques
Pour les séquences nucléiques, il existe seulement 4 x 4 possibilités de substitution. Certaines substitutions sont cependant plus probables que d'autres: en particulier, dans le génome des mammifères, les transitions sont généralement plus fréquentes que les transversions. Des matrices de substitution nucléiques ont été développées pour tenir compte de cette propriété
[States et al. 1991]: Molecular sequence accuracy and the analysis of protein coding regions. Proc. Natl. Acad. Sci. U.S.A. 88:5518-5522
Recherche de similitude (suite)
EXEMPLE
Matrices de substitutions nucléiques
2 scores possibles : 1 pour l ’identité, 0 autrement
Recherche de similitude (suite)
EXEMPLE (SUITE)
3 scores possibles : 3 pour l ’identité, 1 pour une transition et 0 pour une transversion.
Recherche de similitude (suite)
Diapositive PPT
- Matrices de substitutions protéiques
Pour tenir compte des similitudes entre aminoacides, il est nécessaire de pondérer chacune des substitutions possibles. Ces pondérations forment une matrice de substitution 20 x 20. Le choix de la pondération dépend de la nature de la similitude que l'on veut mettre en évidence.
Recherche de similitude (suite)
Diapositive PPT
- Matrices de substitutions protéiques (suite)
Dans le cas le plus général, on recherche une similitude qui reflète des relations d'homologie entre les séquences (et par conséquent des relations fonctionnelles et structurales) et on utilise donc une matrice qui indique les probabilités de substitution d'un aminoacide par un autre au cours de l'évolution.
Recherche de similitude (suite)
Diapositive PPT
- Matrices de substitutions protéiques (suite)
Choix des matrices de substitutions
Comme nous l'avons dit précédemment, le choix de la matrice de substitution dépend de la nature de la similitude que l'on veut mettre en évidence. Dans le cas le plus général, on recherche une similitude qui reflète une homologie entre les séquences et on utilise donc une matrice qui correspond aux probabilités de substitution d'un aminoacide par un autre au cours de l'évolution.
Recherche de similitude (suite)
Diapositive PPT
- Matrices de substitutions protéiques (suite)
Choix des matrices de substitutions (suite)
Ces probabilités varient avec la distance évolutive qui sépare deux protéines: la matrice de substitution utilisée pour aligner deux séquences doit donc être choisie en conséquence.
* La 'distance génétique' entre aminoacides est le nombre minimal de changements de nucléotides dans le codon pour convertir un résidu en un autre.
* La ‘distance évolutive ’ sépare la protéine requête des séquences similaires présentes dans la banque. Cette distance n'est pas connue a priori.
Recherche de similitude (suite)
Diapositive PPT
- Matrices de substitutions protéiques (suite)
- Choix des matrices de substitutions (suite)
Différentes approches ont été proposées pour établir de telles matrices. Les matrices BLOSUM (Block Substitution Matrices) [Henikoff et Henikoff 1992] ont été créées à partir d'alignements locaux, sans indels correspondant aux régions les plus conservées des protéines.
Recherche de similitude (suite)
Diapositive PPT
- Matrices de substitutions protéiques (suite)
Aucune extrapolation n'est nécessaire car ces matrices ont été calculées directement pour différentes distances évolutives. Plusieurs matrices BLOSUM (notées 45, 62 et 80) ont été générées qui diffèrent par le degré de similitude entre les séquences qui ont été alignées.
Recherche de similitude (suite)
Diapositive PPT
- Matrices de substitutions protéiques (suite)
Ainsi, la matrice BLOSUM-45 a été construite avec des séquences faiblement similaires et est donc adaptée pour de grandes distances évolutives, tandis que BLOSUM-80 est plus adaptée à de faibles distances évolutives.
Recherche de similitude (suite)
Diapositive PPT
La synthèse de toutes les études montre que l'évaluation des matrices est très liée aux méthodes d'expertise utilisées et que leur usage est fortement corrélé aux types d'algorithme et de paramètrage utilisés. En conclusion, il apparaît tout de même que les matrices plutôt basées sur les comparaisons de séquences (comme les BLOSUM, Henikoff et Henikoff, 1992) semblent donner plus souvent de meilleurs résultats. Ainsi, la dernière version d'Octobre 1995 du programme FASTA de recherche avec les banques propose par défaut la matrice BLOSUM50.
Henikoff S. & Henikoff J.G. (1993) Performance Evaluation of Amino Acid Substitution Matrices. Prot.Struct. Funct. Genet. 17:49-61
Recherche de similitude (suite)
Rappel des génétiques classiques
Gène : une unité fonctionnelle de l ’héritage, qui correspond habituellement à un segment d ’ADN codant pour une seule protéine.
Génome : l ’ensemble entier de gènes d ’un organisme.
Locus : l ’emplacement du gène dans le génome
allèles : des formes possibles d ’un gène
Recherche de similitude (suite)