méthode de recherche de gènes orthologues jean-philippe doyon Étudiant au doctorat en...
TRANSCRIPT
Méthode de recherche de gènes orthologues
Jean-Philippe DoyonÉtudiant au doctorat
en informatique
Juin 2005Orford, Québec
Orthologie et Paralogie
DuplicationSpéciation
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
Lignée 1
Lignée 2
Orthologie et Paralogie
DuplicationSpéciation
Gènes paraloguesPaire de gènes nés de la duplication de leur ancêtre commun
Gènes orthologuesPaire de gènes nés de la divergence de leur ancêtre commun (spéciation)
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
Lignée 1
Lignée 2
Orthologie et Paralogie
Gènes out-paraloguesLa duplication est suivie d’au moins une spéciation
Gènes in-paraloguesLa duplication n’est suivie d’aucune spéciation
DuplicationSpéciation
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
V1
H1
H2
C1
C2
humain
vache
chimpanzé
humain
chimpanzé
Lignée 1
Lignée 2
Terminologie pour les gènes paralogues (Remm et al. (2001))
L’arbre des gènes n’est pas l’arbre des espèces
Importance de la recherche de gènes orthologues
La VRAIE histoire du gène
V
H
C
humain
vache
chimpanzé
V1
H1
C1
V2
H2
C2
• Regroupement des gènes de plusieurs espèces en groupes de gènes orthologues (COG).
b a
dc
b a
dc
b a
dcb b
bB
a a
aA c c
cC
d d
dD
Espèces Groupes de gènes orthologues
Problématique
Intérêt de la recherche de gènes orthologues
• Problème important pour l’évolution moléculaire:– Annotation des gènes;
– Inférer la phylogénie des espèces selon une grande quantité de gènes présents chez la plupart des génomes;
– Comparaison génomique selon le contenu en gènes des espèces.
Méthodes existantesDonnées Basée sur Aperçu
Yuan et al., 1998 1 séquence requête
• les “hits” de blast
• arbre des séquences
• arbre des espèces
Comparaison des deux arbres
Inparanoid
(Remm et al., 2001)
2 génomes • blast Règles de chevauchement
Storm et al., 2002 2 génomes • arbre des séquences • Parcours postfixe
• Valeurs de “bootstrap”
OrthoMCL
(Li et al., 2003)
n génomes
• blast
• graphe de similarités
“Markov Clustering Algorithm”
Chen et al., 2004 2 génomes • blast
• l’ordre des gènes
“Signed
Reverseal Distance”
Méthode pour la recherche de gènes orthologues
OrthoMCL
Groupes de gènes homologues: paralogues ou orthologues?
Comparaison de l’arbre des gènes avec l’arbre des espèces
• Appliquer à toutes les familles
• Pour différencier les orthologues des paralogues
Méthode pour la recherche de gènes orthologues
OrthoMCL
Groupes de gènes homologues: paralogues ou orthologues?
Comparaison de l’arbre des gènes avec l’arbre des espèces
• Appliquer à toutes les familles
• Pour différencier les orthologues des paralogues
Tests statistiques du regroupement• Pour chaque famille
• La bonne topologie est-elle bien supportée?• Et les autres?
Séquences protéiques des organismes
Tous contre tousBLASTP
Entre espèces:“Best Reciprocal Hit”Orthologues putatifs
Intra espèces:“Best Reciprocal Hit”Paralogues récents
Matrice de similarités(normalisée par espèce)
Markov ClusteringGroupes d’orthologues
avec des paralogues (récents)
OrthoMCL (Li et al., 2003)
Identification de in-paralogues pour chaque orthologues
Tous Tous
“Best Reciprocal Hit”
Inflation: paramètre de granularitéInflation Petite Moyenne Grande
Regroupement grossier grossier / fin fin
Vrais Négatifs peu moyennement beaucoup
Faux Positifs beaucoup moyennement peu
VN
FP VP
FN
Graphe de similarités des gènes
OrthoMCL – Mesures de valuation
Mesures définies selon les similarités de séquences observées (blast)et celles induites par MCL.
• Efficacité:– Ratio du nombre de VN et de FP– Plus la valeur est haute, plus le regroupement est bon.
• “Mass fraction”:– Ratio du nombre de VP
• “Area fraction”:– Plus la valeur est basse, plus le regroupement est fin.
1)1(
##10
nn
FPVN
1||
#0
E
VP
)1(
11
nn
PPN
iii
OrthoMCL: données
4 espèces C. glabrata K. lactis D. hansenii Y. lipolytica Total
Nbre. de protéines 5272 5331 6896 6666 24 165
• 4 levures où l’ordre des gènes est bien conservé• Duplication du génome chez C. glabrata• Duplication en tandem chez Y. lipolytica
Beaucoup de in-paralogues ?
C. glabrata
K. lactis
D. hansenii
Y. lipolytica
Valuation des regroupementsInflation Nbre. de
ClustersEfficiency Mass
fractionArea Fraction
Cluster link Weight
Graph link Weight
1.2 5064 0.64549 0.99976 0.00023 0.92575 0.92418
1.5 5140 0.65434 0.99629 0.00020 0.93250 0.92418
2.0 5227 0.65936 0.99179 0.00019 0.93954 0.92418
2.4 5267 0.66100 0.98782 0.00019 0.94479 0.92418
2.8 5307 0.66199 0.98185 0.00018 0.95018 0.92418
3.2 5354 0.66210 0.97645 0.00018 0.95359 0.92418
• Les valeurs d’efficacités sont similaires.• Dans le pire des cas, le nombre de Faux Positifs est de 2.5%.• Le découpage est très affecté par l’inflation.• Le choix dépend du nombre de vrais négatifs attendus par
l’utilisateur.
Trop grossier
Trop fin
Lequel choisir ?
OrthoMCL: résultats• Famille universelle et unique: un et un seul gène par espèce.• Famille universelle et non-unique: au moins une espèce a deux gènes.
Inflation Universelle
Unique
Universelle
Non-Unique
Non-Universelle Total
1.2 2892, 57% 458, 9% 1714, 34% 5064
1.5 2902, 56% 432, 8% 1806, 35% 5140
2.0 2882, 55% 402, 8% 1943, 37% 5227
2.4 2875, 55% 379, 7% 2013 , 38% 5267
2.8 2864, 54% 357, 7% 2086, 39% 5307
3.2 2855, 53% 335, 6% 2164, 40% 5354
Grossier + -Fin - +
Méthode pour la recherche de gènes orthologues
OrthoMCL
Groupes de gènes homologues: paralogues ou orthologues?
Comparaison de l’arbre des gènes avec l’arbre des espèces
• Appliquer à toutes les familles
• Pour différencier les orthologues des paralogues
Tests statistiques du regroupement• Pour chaque famille
• La bonne topologie est-elle bien supportée?• Et les autres?
Tests pour les familles uniques
D Y
KC
K Y
DC
Y K
DC
1. Pour 4 espèces, il y a 3 topologies possibles
2. Pour chaque famille unique:• Alignement multiple (ClustalW).• Calcul de la vraisemblance et du support pour les trois
topologies (Tree-Puzzle).
Famille 1 Famille 2 Famille 2902……..C>AYANEY>ANNAND>AYASDK>APAPP
+ / -
+ / -
+ / -
+ / -
+ / -
+ / -
+ / -
+ / -
+ / -
C. glabrataY. lipolyticaD. hanseniiK. lactis
C>AYANEY>ANNAND>AYASDK>APAPP
C>AYANEY>ANNAND>AYASDK>APAPP
2. Signal négatif:• la vraie topologie est rejetée• les 2 autres ne sont pas rejetées
Vrai signal positif:• vrais orthologues
Causé par:• petits gènes• peu de positions informatives
Tests pour les familles uniques
1. Signal positif:• la vraie topologie n’est pas
rejetée• les 2 autres sont rejetées
3. Signal nul:• Aucune topologies n’est rejetée
Faux signal positif :• artéfact de reconstruction(ex. attraction des longues branches)
Vrai signal négatif:• gènes paralogues
Faux signal négatif:• artéfact de reconstruction
Tests pour les familles uniquesInflation Signal + Signal - Signal nul Autres Total
1.2 2176, 75% 8, 0.2% 550, 19%
(439, 15%)
158 2892
1.5 2174, 75% 7, 0.2% 555, 19%
(443, 15%)
166 2902
2.0 2155, 75% 9, 0.2% 533, 18%
(420, 15%)
185 2882
2.4 2153, 75% 7, 0.2% 542, 19%
(433, 15%)
173 2875
2.8 2146, 75% 8, 0.2% 547, 19%
(437, 15%)
163 2864
3.2 2144, 75% 8, 0.2% 541, 19%
(432, 15%)
162 2855
Tous les signaux sont stables selon la valeur d’inflation
(): la bonne topologie est l’arbre le plus vraisemblable
In-paralogues et Out-Paralogues
C1
C2
C3
K Y2
D
A) Groupe de in-paralogues
C2 est le représentant du groupe
B) Plusieurs out-paralogues
Y1 C4
K Y2
D
Y1 C4
C2
C. glabrata : C2, C4Y. lipolytica : Y1, Y2D. hansenii : DK. lactis : K
• C2, Y1, D, K• C2, Y2, D, K• C4, Y1, D, K• C4, Y2, D, K
C) 4 familles uniques possibles
Tests pour les familles non-uniquesI. Pour 4 espèces, il y a 3 topologies possibles.
II. Pour chaque famille:1. Appliquer Phyml pour chercher
• Les groupes de in-paralogues;• Et leurs représentants.
2. Pour chaque quadruplet de gènes (famille unique)• Alignement multiple;• Calcul de la vraisemblance et du support.
Famille 1 Famille 2 Famille 2902……..
+ / -
+ / -
+ / -
C>AYANEY>ANNAND>AYASDK>APAPP
C>AYANEY>ANNAND>AYASDK>APAPP
C>AYANEY>ANNAND>AYASDK>APAPP
x n x n x n
x n
+ / -
+ / -
+ / -
x n
+ / -
+ / -
+ / -
x n
Tests pour les familles non-uniques
Les vrais orthologues
Les faux orthologues
Lesquels sont les vrais orthologues?
Tous des faux orthologues
1. Signal positif clair:i. Un seul quadruplet a un signal + :
• la vraie topologie n’est pas rejetée• les 2 autres sont rejetées
ii. Tous les autres ont un signal – :• la vraie topologie est rejetée• les 2 autres ne sont pas rejetées
2. Signal positif non-clair:• Au moins 2 quadruplets ont un signal +• Tous les autres ont un signal –
3. Signal négatif clair:• Tous les quadruples ont un signal –
4. Signal nul clair• Tous les quadruples ont un signal nul
Tests pour les familles non-uniques
Inflation Signal + clair
Signal + non-clair
Signal –
clair
Signal nul
clair
Autres Total
1.2 4, 0.8% 129, 28% 3, 0.6% 53, 12% 269 458
1.5 3, 0.7% 130, 30% 2, 0.5% 50, 12% 247 432
2.0 2, 0.5% 122, 30% 1, 0.2% 51, 13% 226 402
2.4 2, 0.5% 119, 31% 2, 0.5% 44, 12% 212 379
2.8 0 112, 31% 2, 0.6% 38, 11% 205 357
3.2 0 105, 31% 2, 0.6% 38, 11% 190 335
Tous les signaux sont stables selon la valeur d’inflation
432 Familles Non-Uniques (I=1.5)
Espèces Nombre de familles avec plus d’un out-paralogues
Nombre total de
out-paralogues
Moyenne
C. glabrata 129 272 2.11
D. hansenii 149 324 2.17
K. lactis 78 164 2.10
Y. lipolytica 97 223 2.30
Espèces Nombre de groupes de in-paralogues
Taille totale
Taille moyenne
C. glabrata 90 193 2.14
D. hansenii 60 165 2.75
K. lactis 15 32 2.13
Y. lipolytica 41 156 3.80
Seulement des in-paralogues Seulement des out-paralogues Avec les deux
110 253 69
Beaucoup plus de in-paralogues chez C. glabrata que chez K. lactis
Duplication du génome
Duplication en tandem
Méthode pour la recherche de gènes orthologues
OrthoMCL
Groupes de gènes homologues: paralogues ou orthologues?
Comparaison de l’arbre des gènes avec l’arbre des espèces
• Appliquer à toutes les familles
• Pour différencier les orthologues des paralogues
Tests statistiques du regroupement• Pour chaque famille
• La bonne topologie est-elle bien supportée?• Et les autres?
Les deux arbres peuvent être différents par cause de
• Duplications;
• Perte du vrai orthologue mais pas du faux orthologue;
• Transfert Horizontal de Gène (HGT).
Arbre des gènes vs. Arbre des espèces
Que s’est-il passé ?
Arbre des gènes Arbre des espèces
≠humain chevalchimpanzéhumain cheval chimpanzé
• Raconte l’évolution du gène s’il n’y avait eu aucune perte
• Indique où il y a eu des événements de duplications
• Les HGTs ne sont pas considérés
• Un seul gène par espèce
Arbre de réconciliation
-humain -cheval-chimpanzé β-humain -cheval-chimpanzé
Lignée α Lignée β
Duplication
• Raconte l’évolution du gène s’il n’y avait eu aucune perte
• Indique où il y a eu des événements de duplications
• Les HGTs ne sont pas considérés
• Un seul gène par espèce
Arbre de réconciliation
-humain -cheval -chimpanzé
Lignée α Lignée β
Duplication
Algorithme de réconciliation
• Pour chaque nœud, calculer le LCA.
• Une duplication au nœud g est inférée si
• LCA (g) = LCA (g1) ou LCA (g) = LCA (g2)
• Pour chaque nœud g où il y a eu une duplication:
• créér deux copies du sous-arbre S(g)
• O (n^2) en temps et O(n) en espace
“Last Common Ancestor”
Arbre des gènes Arbre des espèces
humain chevalchimpanzéhumain cheval chimpanzé
PERSPECTIVES
I- Autres tests statistiques
• Refaire les mêmes tests mais sur un espace phylogénétique plus large (11 levures).– 34 459 425 topologies possibles;– Ne considérer que
• la topologie des gènes (PHYML)• celles des espèces.
• Étudier les différentes raisons qui pourraient expliquer les signaux nuls:– le nombre moyen de positions par gène;– la longueur de l’arbre;– le nombre de positions informatives.
II- Peu de signal phylogénétique
• Le manque de signal phylogénétique est un problème fréquent (19% des familles sans signal).
• Algorithme de type “Branch and Bound”;– Pour une faible valeur de support:
• Ne considérer que les “clades” qui sont supportés par une valeur > seuil.
• Calculer une borne minimale sur le coût de réconciliation avec ce clade.
– Considérer trois seuils: 50%, 70% et 95%.
III- Algorithme probabiliste
• Une duplication est plus probable sur une longue branche que sur une courte branche.
• Toutes les méthodes de réconciliation prennent pour acquis que les duplications sont équiprobables pour toutes les branches
• Algorithme probabiliste– Selon les données, évaluer les probabilités de duplications pour
chaque branche.– Appliquer un algorithme de type “Expectation Maximisation” ou
Bayésien.
• Validation de type “bootstrap” d’une famille de n gènes– Répéter pour chaque n gènes
• Créér une Pseudo Famille en retirant le gène• Appliquer la réconciliation• Calculer la distance entre la Pseudo et la Vraie réconciliation
• Validation externe:– Étudier la conservation du voisinage chez les gènes
orthologues– La synténie est bien conservée chez les levures
IV- Validation d’une réconciliation
• Génome Québec
• Hervé Philippe
• Cedric Chauve
• Sylvie Hamel
• Olivier Jeffroy
REMERCIEMENTS