méthode de recherche de gènes orthologues jean-philippe doyon Étudiant au doctorat en...

36
Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Upload: simonette-raymond

Post on 03-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Méthode de recherche de gènes orthologues

Jean-Philippe DoyonÉtudiant au doctorat

en informatique

Juin 2005Orford, Québec

Page 2: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Orthologie et Paralogie

DuplicationSpéciation

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

Lignée 1

Lignée 2

Page 3: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Orthologie et Paralogie

DuplicationSpéciation

Gènes paraloguesPaire de gènes nés de la duplication de leur ancêtre commun

Gènes orthologuesPaire de gènes nés de la divergence de leur ancêtre commun (spéciation)

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

Lignée 1

Lignée 2

Page 4: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Orthologie et Paralogie

Gènes out-paraloguesLa duplication est suivie d’au moins une spéciation

Gènes in-paraloguesLa duplication n’est suivie d’aucune spéciation

DuplicationSpéciation

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

Lignée 1

Lignée 2

Terminologie pour les gènes paralogues (Remm et al. (2001))

Page 5: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

L’arbre des gènes n’est pas l’arbre des espèces

Importance de la recherche de gènes orthologues

La VRAIE histoire du gène

V

H

C

humain

vache

chimpanzé

V1

H1

C1

V2

H2

C2

Page 6: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

• Regroupement des gènes de plusieurs espèces en groupes de gènes orthologues (COG).

b a

dc

b a

dc

b a

dcb b

bB

a a

aA c c

cC

d d

dD

Espèces Groupes de gènes orthologues

Problématique

Page 7: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Intérêt de la recherche de gènes orthologues

• Problème important pour l’évolution moléculaire:– Annotation des gènes;

– Inférer la phylogénie des espèces selon une grande quantité de gènes présents chez la plupart des génomes;

– Comparaison génomique selon le contenu en gènes des espèces.

Page 8: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Méthodes existantesDonnées Basée sur Aperçu

Yuan et al., 1998 1 séquence requête

• les “hits” de blast

• arbre des séquences

• arbre des espèces

Comparaison des deux arbres

Inparanoid

(Remm et al., 2001)

2 génomes • blast Règles de chevauchement

Storm et al., 2002 2 génomes • arbre des séquences • Parcours postfixe

• Valeurs de “bootstrap”

OrthoMCL

(Li et al., 2003)

n génomes

• blast

• graphe de similarités

“Markov Clustering Algorithm”

Chen et al., 2004 2 génomes • blast

• l’ordre des gènes

“Signed

Reverseal Distance”

Page 9: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Méthode pour la recherche de gènes orthologues

OrthoMCL

Groupes de gènes homologues: paralogues ou orthologues?

Comparaison de l’arbre des gènes avec l’arbre des espèces

• Appliquer à toutes les familles

• Pour différencier les orthologues des paralogues

Page 10: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Méthode pour la recherche de gènes orthologues

OrthoMCL

Groupes de gènes homologues: paralogues ou orthologues?

Comparaison de l’arbre des gènes avec l’arbre des espèces

• Appliquer à toutes les familles

• Pour différencier les orthologues des paralogues

Tests statistiques du regroupement• Pour chaque famille

• La bonne topologie est-elle bien supportée?• Et les autres?

Page 11: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Séquences protéiques des organismes

Tous contre tousBLASTP

Entre espèces:“Best Reciprocal Hit”Orthologues putatifs

Intra espèces:“Best Reciprocal Hit”Paralogues récents

Matrice de similarités(normalisée par espèce)

Markov ClusteringGroupes d’orthologues

avec des paralogues (récents)

OrthoMCL (Li et al., 2003)

Identification de in-paralogues pour chaque orthologues

Tous Tous

“Best Reciprocal Hit”

Page 12: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Inflation: paramètre de granularitéInflation Petite Moyenne Grande

Regroupement grossier grossier / fin fin

Vrais Négatifs peu moyennement beaucoup

Faux Positifs beaucoup moyennement peu

VN

FP VP

FN

Graphe de similarités des gènes

Page 13: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

OrthoMCL – Mesures de valuation

Mesures définies selon les similarités de séquences observées (blast)et celles induites par MCL.

• Efficacité:– Ratio du nombre de VN et de FP– Plus la valeur est haute, plus le regroupement est bon.

• “Mass fraction”:– Ratio du nombre de VP

• “Area fraction”:– Plus la valeur est basse, plus le regroupement est fin.

1)1(

##10

nn

FPVN

1||

#0

E

VP

)1(

11

nn

PPN

iii

Page 14: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

OrthoMCL: données

4 espèces C. glabrata K. lactis D. hansenii Y. lipolytica Total

Nbre. de protéines 5272 5331 6896 6666 24 165

• 4 levures où l’ordre des gènes est bien conservé• Duplication du génome chez C. glabrata• Duplication en tandem chez Y. lipolytica

Beaucoup de in-paralogues ?

C. glabrata

K. lactis

D. hansenii

Y. lipolytica

Page 15: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Valuation des regroupementsInflation Nbre. de

ClustersEfficiency Mass

fractionArea Fraction

Cluster link Weight

Graph link Weight

1.2 5064 0.64549 0.99976 0.00023 0.92575 0.92418

1.5 5140 0.65434 0.99629 0.00020 0.93250 0.92418

2.0 5227 0.65936 0.99179 0.00019 0.93954 0.92418

2.4 5267 0.66100 0.98782 0.00019 0.94479 0.92418

2.8 5307 0.66199 0.98185 0.00018 0.95018 0.92418

3.2 5354 0.66210 0.97645 0.00018 0.95359 0.92418

• Les valeurs d’efficacités sont similaires.• Dans le pire des cas, le nombre de Faux Positifs est de 2.5%.• Le découpage est très affecté par l’inflation.• Le choix dépend du nombre de vrais négatifs attendus par

l’utilisateur.

Trop grossier

Trop fin

Lequel choisir ?

Page 16: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

OrthoMCL: résultats• Famille universelle et unique: un et un seul gène par espèce.• Famille universelle et non-unique: au moins une espèce a deux gènes.

Inflation Universelle

Unique

Universelle

Non-Unique

Non-Universelle Total

1.2 2892, 57% 458, 9% 1714, 34% 5064

1.5 2902, 56% 432, 8% 1806, 35% 5140

2.0 2882, 55% 402, 8% 1943, 37% 5227

2.4 2875, 55% 379, 7% 2013 , 38% 5267

2.8 2864, 54% 357, 7% 2086, 39% 5307

3.2 2855, 53% 335, 6% 2164, 40% 5354

Grossier + -Fin - +

Page 17: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Méthode pour la recherche de gènes orthologues

OrthoMCL

Groupes de gènes homologues: paralogues ou orthologues?

Comparaison de l’arbre des gènes avec l’arbre des espèces

• Appliquer à toutes les familles

• Pour différencier les orthologues des paralogues

Tests statistiques du regroupement• Pour chaque famille

• La bonne topologie est-elle bien supportée?• Et les autres?

Page 18: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Tests pour les familles uniques

D Y

KC

K Y

DC

Y K

DC

1. Pour 4 espèces, il y a 3 topologies possibles

2. Pour chaque famille unique:• Alignement multiple (ClustalW).• Calcul de la vraisemblance et du support pour les trois

topologies (Tree-Puzzle).

Famille 1 Famille 2 Famille 2902……..C>AYANEY>ANNAND>AYASDK>APAPP

+ / -

+ / -

+ / -

+ / -

+ / -

+ / -

+ / -

+ / -

+ / -

C. glabrataY. lipolyticaD. hanseniiK. lactis

C>AYANEY>ANNAND>AYASDK>APAPP

C>AYANEY>ANNAND>AYASDK>APAPP

Page 19: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

2. Signal négatif:• la vraie topologie est rejetée• les 2 autres ne sont pas rejetées

Vrai signal positif:• vrais orthologues

Causé par:• petits gènes• peu de positions informatives

Tests pour les familles uniques

1. Signal positif:• la vraie topologie n’est pas

rejetée• les 2 autres sont rejetées

3. Signal nul:• Aucune topologies n’est rejetée

Faux signal positif :• artéfact de reconstruction(ex. attraction des longues branches)

Vrai signal négatif:• gènes paralogues

Faux signal négatif:• artéfact de reconstruction

Page 20: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Tests pour les familles uniquesInflation Signal + Signal - Signal nul Autres Total

1.2 2176, 75% 8, 0.2% 550, 19%

(439, 15%)

158 2892

1.5 2174, 75% 7, 0.2% 555, 19%

(443, 15%)

166 2902

2.0 2155, 75% 9, 0.2% 533, 18%

(420, 15%)

185 2882

2.4 2153, 75% 7, 0.2% 542, 19%

(433, 15%)

173 2875

2.8 2146, 75% 8, 0.2% 547, 19%

(437, 15%)

163 2864

3.2 2144, 75% 8, 0.2% 541, 19%

(432, 15%)

162 2855

Tous les signaux sont stables selon la valeur d’inflation

(): la bonne topologie est l’arbre le plus vraisemblable

Page 21: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

In-paralogues et Out-Paralogues

C1

C2

C3

K Y2

D

A) Groupe de in-paralogues

C2 est le représentant du groupe

B) Plusieurs out-paralogues

Y1 C4

K Y2

D

Y1 C4

C2

C. glabrata : C2, C4Y. lipolytica : Y1, Y2D. hansenii : DK. lactis : K

• C2, Y1, D, K• C2, Y2, D, K• C4, Y1, D, K• C4, Y2, D, K

C) 4 familles uniques possibles

Page 22: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Tests pour les familles non-uniquesI. Pour 4 espèces, il y a 3 topologies possibles.

II. Pour chaque famille:1. Appliquer Phyml pour chercher

• Les groupes de in-paralogues;• Et leurs représentants.

2. Pour chaque quadruplet de gènes (famille unique)• Alignement multiple;• Calcul de la vraisemblance et du support.

Famille 1 Famille 2 Famille 2902……..

+ / -

+ / -

+ / -

C>AYANEY>ANNAND>AYASDK>APAPP

C>AYANEY>ANNAND>AYASDK>APAPP

C>AYANEY>ANNAND>AYASDK>APAPP

x n x n x n

x n

+ / -

+ / -

+ / -

x n

+ / -

+ / -

+ / -

x n

Page 23: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Tests pour les familles non-uniques

Les vrais orthologues

Les faux orthologues

Lesquels sont les vrais orthologues?

Tous des faux orthologues

1. Signal positif clair:i. Un seul quadruplet a un signal + :

• la vraie topologie n’est pas rejetée• les 2 autres sont rejetées

ii. Tous les autres ont un signal – :• la vraie topologie est rejetée• les 2 autres ne sont pas rejetées

2. Signal positif non-clair:• Au moins 2 quadruplets ont un signal +• Tous les autres ont un signal –

3. Signal négatif clair:• Tous les quadruples ont un signal –

4. Signal nul clair• Tous les quadruples ont un signal nul

Page 24: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Tests pour les familles non-uniques

Inflation Signal + clair

Signal + non-clair

Signal –

clair

Signal nul

clair

Autres Total

1.2 4, 0.8% 129, 28% 3, 0.6% 53, 12% 269 458

1.5 3, 0.7% 130, 30% 2, 0.5% 50, 12% 247 432

2.0 2, 0.5% 122, 30% 1, 0.2% 51, 13% 226 402

2.4 2, 0.5% 119, 31% 2, 0.5% 44, 12% 212 379

2.8 0 112, 31% 2, 0.6% 38, 11% 205 357

3.2 0 105, 31% 2, 0.6% 38, 11% 190 335

Tous les signaux sont stables selon la valeur d’inflation

Page 25: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

432 Familles Non-Uniques (I=1.5)

Espèces Nombre de familles avec plus d’un out-paralogues

Nombre total de

out-paralogues

Moyenne

C. glabrata 129 272 2.11

D. hansenii 149 324 2.17

K. lactis 78 164 2.10

Y. lipolytica 97 223 2.30

Espèces Nombre de groupes de in-paralogues

Taille totale

Taille moyenne

C. glabrata 90 193 2.14

D. hansenii 60 165 2.75

K. lactis 15 32 2.13

Y. lipolytica 41 156 3.80

Seulement des in-paralogues Seulement des out-paralogues Avec les deux

110 253 69

Beaucoup plus de in-paralogues chez C. glabrata que chez K. lactis

Duplication du génome

Duplication en tandem

Page 26: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Méthode pour la recherche de gènes orthologues

OrthoMCL

Groupes de gènes homologues: paralogues ou orthologues?

Comparaison de l’arbre des gènes avec l’arbre des espèces

• Appliquer à toutes les familles

• Pour différencier les orthologues des paralogues

Tests statistiques du regroupement• Pour chaque famille

• La bonne topologie est-elle bien supportée?• Et les autres?

Page 27: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Les deux arbres peuvent être différents par cause de

• Duplications;

• Perte du vrai orthologue mais pas du faux orthologue;

• Transfert Horizontal de Gène (HGT).

Arbre des gènes vs. Arbre des espèces

Que s’est-il passé ?

Arbre des gènes Arbre des espèces

≠humain chevalchimpanzéhumain cheval chimpanzé

Page 28: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

• Raconte l’évolution du gène s’il n’y avait eu aucune perte

• Indique où il y a eu des événements de duplications

• Les HGTs ne sont pas considérés

• Un seul gène par espèce

Arbre de réconciliation

-humain -cheval-chimpanzé β-humain -cheval-chimpanzé

Lignée α Lignée β

Duplication

Page 29: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

• Raconte l’évolution du gène s’il n’y avait eu aucune perte

• Indique où il y a eu des événements de duplications

• Les HGTs ne sont pas considérés

• Un seul gène par espèce

Arbre de réconciliation

-humain -cheval -chimpanzé

Lignée α Lignée β

Duplication

Page 30: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

Algorithme de réconciliation

• Pour chaque nœud, calculer le LCA.

• Une duplication au nœud g est inférée si

• LCA (g) = LCA (g1) ou LCA (g) = LCA (g2)

• Pour chaque nœud g où il y a eu une duplication:

• créér deux copies du sous-arbre S(g)

• O (n^2) en temps et O(n) en espace

“Last Common Ancestor”

Arbre des gènes Arbre des espèces

humain chevalchimpanzéhumain cheval chimpanzé

Page 31: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

PERSPECTIVES

Page 32: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

I- Autres tests statistiques

• Refaire les mêmes tests mais sur un espace phylogénétique plus large (11 levures).– 34 459 425 topologies possibles;– Ne considérer que

• la topologie des gènes (PHYML)• celles des espèces.

• Étudier les différentes raisons qui pourraient expliquer les signaux nuls:– le nombre moyen de positions par gène;– la longueur de l’arbre;– le nombre de positions informatives.

Page 33: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

II- Peu de signal phylogénétique

• Le manque de signal phylogénétique est un problème fréquent (19% des familles sans signal).

• Algorithme de type “Branch and Bound”;– Pour une faible valeur de support:

• Ne considérer que les “clades” qui sont supportés par une valeur > seuil.

• Calculer une borne minimale sur le coût de réconciliation avec ce clade.

– Considérer trois seuils: 50%, 70% et 95%.

Page 34: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

III- Algorithme probabiliste

• Une duplication est plus probable sur une longue branche que sur une courte branche.

• Toutes les méthodes de réconciliation prennent pour acquis que les duplications sont équiprobables pour toutes les branches

• Algorithme probabiliste– Selon les données, évaluer les probabilités de duplications pour

chaque branche.– Appliquer un algorithme de type “Expectation Maximisation” ou

Bayésien.

Page 35: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

• Validation de type “bootstrap” d’une famille de n gènes– Répéter pour chaque n gènes

• Créér une Pseudo Famille en retirant le gène• Appliquer la réconciliation• Calculer la distance entre la Pseudo et la Vraie réconciliation

• Validation externe:– Étudier la conservation du voisinage chez les gènes

orthologues– La synténie est bien conservée chez les levures

IV- Validation d’une réconciliation

Page 36: Méthode de recherche de gènes orthologues Jean-Philippe Doyon Étudiant au doctorat en informatique Juin 2005 Orford, Québec

• Génome Québec

• Hervé Philippe

• Cedric Chauve

• Sylvie Hamel

• Olivier Jeffroy

REMERCIEMENTS