méthode de recherche de gènes orthologues jean-philippe doyon Étudiant au doctorat en...

Post on 03-Apr-2015

103 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Méthode de recherche de gènes orthologues

Jean-Philippe DoyonÉtudiant au doctorat

en informatique

Juin 2005Orford, Québec

Orthologie et Paralogie

DuplicationSpéciation

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

Lignée 1

Lignée 2

Orthologie et Paralogie

DuplicationSpéciation

Gènes paraloguesPaire de gènes nés de la duplication de leur ancêtre commun

Gènes orthologuesPaire de gènes nés de la divergence de leur ancêtre commun (spéciation)

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

Lignée 1

Lignée 2

Orthologie et Paralogie

Gènes out-paraloguesLa duplication est suivie d’au moins une spéciation

Gènes in-paraloguesLa duplication n’est suivie d’aucune spéciation

DuplicationSpéciation

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

V1

H1

H2

C1

C2

humain

vache

chimpanzé

humain

chimpanzé

Lignée 1

Lignée 2

Terminologie pour les gènes paralogues (Remm et al. (2001))

L’arbre des gènes n’est pas l’arbre des espèces

Importance de la recherche de gènes orthologues

La VRAIE histoire du gène

V

H

C

humain

vache

chimpanzé

V1

H1

C1

V2

H2

C2

• Regroupement des gènes de plusieurs espèces en groupes de gènes orthologues (COG).

b a

dc

b a

dc

b a

dcb b

bB

a a

aA c c

cC

d d

dD

Espèces Groupes de gènes orthologues

Problématique

Intérêt de la recherche de gènes orthologues

• Problème important pour l’évolution moléculaire:– Annotation des gènes;

– Inférer la phylogénie des espèces selon une grande quantité de gènes présents chez la plupart des génomes;

– Comparaison génomique selon le contenu en gènes des espèces.

Méthodes existantesDonnées Basée sur Aperçu

Yuan et al., 1998 1 séquence requête

• les “hits” de blast

• arbre des séquences

• arbre des espèces

Comparaison des deux arbres

Inparanoid

(Remm et al., 2001)

2 génomes • blast Règles de chevauchement

Storm et al., 2002 2 génomes • arbre des séquences • Parcours postfixe

• Valeurs de “bootstrap”

OrthoMCL

(Li et al., 2003)

n génomes

• blast

• graphe de similarités

“Markov Clustering Algorithm”

Chen et al., 2004 2 génomes • blast

• l’ordre des gènes

“Signed

Reverseal Distance”

Méthode pour la recherche de gènes orthologues

OrthoMCL

Groupes de gènes homologues: paralogues ou orthologues?

Comparaison de l’arbre des gènes avec l’arbre des espèces

• Appliquer à toutes les familles

• Pour différencier les orthologues des paralogues

Méthode pour la recherche de gènes orthologues

OrthoMCL

Groupes de gènes homologues: paralogues ou orthologues?

Comparaison de l’arbre des gènes avec l’arbre des espèces

• Appliquer à toutes les familles

• Pour différencier les orthologues des paralogues

Tests statistiques du regroupement• Pour chaque famille

• La bonne topologie est-elle bien supportée?• Et les autres?

Séquences protéiques des organismes

Tous contre tousBLASTP

Entre espèces:“Best Reciprocal Hit”Orthologues putatifs

Intra espèces:“Best Reciprocal Hit”Paralogues récents

Matrice de similarités(normalisée par espèce)

Markov ClusteringGroupes d’orthologues

avec des paralogues (récents)

OrthoMCL (Li et al., 2003)

Identification de in-paralogues pour chaque orthologues

Tous Tous

“Best Reciprocal Hit”

Inflation: paramètre de granularitéInflation Petite Moyenne Grande

Regroupement grossier grossier / fin fin

Vrais Négatifs peu moyennement beaucoup

Faux Positifs beaucoup moyennement peu

VN

FP VP

FN

Graphe de similarités des gènes

OrthoMCL – Mesures de valuation

Mesures définies selon les similarités de séquences observées (blast)et celles induites par MCL.

• Efficacité:– Ratio du nombre de VN et de FP– Plus la valeur est haute, plus le regroupement est bon.

• “Mass fraction”:– Ratio du nombre de VP

• “Area fraction”:– Plus la valeur est basse, plus le regroupement est fin.

1)1(

##10

nn

FPVN

1||

#0

E

VP

)1(

11

nn

PPN

iii

OrthoMCL: données

4 espèces C. glabrata K. lactis D. hansenii Y. lipolytica Total

Nbre. de protéines 5272 5331 6896 6666 24 165

• 4 levures où l’ordre des gènes est bien conservé• Duplication du génome chez C. glabrata• Duplication en tandem chez Y. lipolytica

Beaucoup de in-paralogues ?

C. glabrata

K. lactis

D. hansenii

Y. lipolytica

Valuation des regroupementsInflation Nbre. de

ClustersEfficiency Mass

fractionArea Fraction

Cluster link Weight

Graph link Weight

1.2 5064 0.64549 0.99976 0.00023 0.92575 0.92418

1.5 5140 0.65434 0.99629 0.00020 0.93250 0.92418

2.0 5227 0.65936 0.99179 0.00019 0.93954 0.92418

2.4 5267 0.66100 0.98782 0.00019 0.94479 0.92418

2.8 5307 0.66199 0.98185 0.00018 0.95018 0.92418

3.2 5354 0.66210 0.97645 0.00018 0.95359 0.92418

• Les valeurs d’efficacités sont similaires.• Dans le pire des cas, le nombre de Faux Positifs est de 2.5%.• Le découpage est très affecté par l’inflation.• Le choix dépend du nombre de vrais négatifs attendus par

l’utilisateur.

Trop grossier

Trop fin

Lequel choisir ?

OrthoMCL: résultats• Famille universelle et unique: un et un seul gène par espèce.• Famille universelle et non-unique: au moins une espèce a deux gènes.

Inflation Universelle

Unique

Universelle

Non-Unique

Non-Universelle Total

1.2 2892, 57% 458, 9% 1714, 34% 5064

1.5 2902, 56% 432, 8% 1806, 35% 5140

2.0 2882, 55% 402, 8% 1943, 37% 5227

2.4 2875, 55% 379, 7% 2013 , 38% 5267

2.8 2864, 54% 357, 7% 2086, 39% 5307

3.2 2855, 53% 335, 6% 2164, 40% 5354

Grossier + -Fin - +

Méthode pour la recherche de gènes orthologues

OrthoMCL

Groupes de gènes homologues: paralogues ou orthologues?

Comparaison de l’arbre des gènes avec l’arbre des espèces

• Appliquer à toutes les familles

• Pour différencier les orthologues des paralogues

Tests statistiques du regroupement• Pour chaque famille

• La bonne topologie est-elle bien supportée?• Et les autres?

Tests pour les familles uniques

D Y

KC

K Y

DC

Y K

DC

1. Pour 4 espèces, il y a 3 topologies possibles

2. Pour chaque famille unique:• Alignement multiple (ClustalW).• Calcul de la vraisemblance et du support pour les trois

topologies (Tree-Puzzle).

Famille 1 Famille 2 Famille 2902……..C>AYANEY>ANNAND>AYASDK>APAPP

+ / -

+ / -

+ / -

+ / -

+ / -

+ / -

+ / -

+ / -

+ / -

C. glabrataY. lipolyticaD. hanseniiK. lactis

C>AYANEY>ANNAND>AYASDK>APAPP

C>AYANEY>ANNAND>AYASDK>APAPP

2. Signal négatif:• la vraie topologie est rejetée• les 2 autres ne sont pas rejetées

Vrai signal positif:• vrais orthologues

Causé par:• petits gènes• peu de positions informatives

Tests pour les familles uniques

1. Signal positif:• la vraie topologie n’est pas

rejetée• les 2 autres sont rejetées

3. Signal nul:• Aucune topologies n’est rejetée

Faux signal positif :• artéfact de reconstruction(ex. attraction des longues branches)

Vrai signal négatif:• gènes paralogues

Faux signal négatif:• artéfact de reconstruction

Tests pour les familles uniquesInflation Signal + Signal - Signal nul Autres Total

1.2 2176, 75% 8, 0.2% 550, 19%

(439, 15%)

158 2892

1.5 2174, 75% 7, 0.2% 555, 19%

(443, 15%)

166 2902

2.0 2155, 75% 9, 0.2% 533, 18%

(420, 15%)

185 2882

2.4 2153, 75% 7, 0.2% 542, 19%

(433, 15%)

173 2875

2.8 2146, 75% 8, 0.2% 547, 19%

(437, 15%)

163 2864

3.2 2144, 75% 8, 0.2% 541, 19%

(432, 15%)

162 2855

Tous les signaux sont stables selon la valeur d’inflation

(): la bonne topologie est l’arbre le plus vraisemblable

In-paralogues et Out-Paralogues

C1

C2

C3

K Y2

D

A) Groupe de in-paralogues

C2 est le représentant du groupe

B) Plusieurs out-paralogues

Y1 C4

K Y2

D

Y1 C4

C2

C. glabrata : C2, C4Y. lipolytica : Y1, Y2D. hansenii : DK. lactis : K

• C2, Y1, D, K• C2, Y2, D, K• C4, Y1, D, K• C4, Y2, D, K

C) 4 familles uniques possibles

Tests pour les familles non-uniquesI. Pour 4 espèces, il y a 3 topologies possibles.

II. Pour chaque famille:1. Appliquer Phyml pour chercher

• Les groupes de in-paralogues;• Et leurs représentants.

2. Pour chaque quadruplet de gènes (famille unique)• Alignement multiple;• Calcul de la vraisemblance et du support.

Famille 1 Famille 2 Famille 2902……..

+ / -

+ / -

+ / -

C>AYANEY>ANNAND>AYASDK>APAPP

C>AYANEY>ANNAND>AYASDK>APAPP

C>AYANEY>ANNAND>AYASDK>APAPP

x n x n x n

x n

+ / -

+ / -

+ / -

x n

+ / -

+ / -

+ / -

x n

Tests pour les familles non-uniques

Les vrais orthologues

Les faux orthologues

Lesquels sont les vrais orthologues?

Tous des faux orthologues

1. Signal positif clair:i. Un seul quadruplet a un signal + :

• la vraie topologie n’est pas rejetée• les 2 autres sont rejetées

ii. Tous les autres ont un signal – :• la vraie topologie est rejetée• les 2 autres ne sont pas rejetées

2. Signal positif non-clair:• Au moins 2 quadruplets ont un signal +• Tous les autres ont un signal –

3. Signal négatif clair:• Tous les quadruples ont un signal –

4. Signal nul clair• Tous les quadruples ont un signal nul

Tests pour les familles non-uniques

Inflation Signal + clair

Signal + non-clair

Signal –

clair

Signal nul

clair

Autres Total

1.2 4, 0.8% 129, 28% 3, 0.6% 53, 12% 269 458

1.5 3, 0.7% 130, 30% 2, 0.5% 50, 12% 247 432

2.0 2, 0.5% 122, 30% 1, 0.2% 51, 13% 226 402

2.4 2, 0.5% 119, 31% 2, 0.5% 44, 12% 212 379

2.8 0 112, 31% 2, 0.6% 38, 11% 205 357

3.2 0 105, 31% 2, 0.6% 38, 11% 190 335

Tous les signaux sont stables selon la valeur d’inflation

432 Familles Non-Uniques (I=1.5)

Espèces Nombre de familles avec plus d’un out-paralogues

Nombre total de

out-paralogues

Moyenne

C. glabrata 129 272 2.11

D. hansenii 149 324 2.17

K. lactis 78 164 2.10

Y. lipolytica 97 223 2.30

Espèces Nombre de groupes de in-paralogues

Taille totale

Taille moyenne

C. glabrata 90 193 2.14

D. hansenii 60 165 2.75

K. lactis 15 32 2.13

Y. lipolytica 41 156 3.80

Seulement des in-paralogues Seulement des out-paralogues Avec les deux

110 253 69

Beaucoup plus de in-paralogues chez C. glabrata que chez K. lactis

Duplication du génome

Duplication en tandem

Méthode pour la recherche de gènes orthologues

OrthoMCL

Groupes de gènes homologues: paralogues ou orthologues?

Comparaison de l’arbre des gènes avec l’arbre des espèces

• Appliquer à toutes les familles

• Pour différencier les orthologues des paralogues

Tests statistiques du regroupement• Pour chaque famille

• La bonne topologie est-elle bien supportée?• Et les autres?

Les deux arbres peuvent être différents par cause de

• Duplications;

• Perte du vrai orthologue mais pas du faux orthologue;

• Transfert Horizontal de Gène (HGT).

Arbre des gènes vs. Arbre des espèces

Que s’est-il passé ?

Arbre des gènes Arbre des espèces

≠humain chevalchimpanzéhumain cheval chimpanzé

• Raconte l’évolution du gène s’il n’y avait eu aucune perte

• Indique où il y a eu des événements de duplications

• Les HGTs ne sont pas considérés

• Un seul gène par espèce

Arbre de réconciliation

-humain -cheval-chimpanzé β-humain -cheval-chimpanzé

Lignée α Lignée β

Duplication

• Raconte l’évolution du gène s’il n’y avait eu aucune perte

• Indique où il y a eu des événements de duplications

• Les HGTs ne sont pas considérés

• Un seul gène par espèce

Arbre de réconciliation

-humain -cheval -chimpanzé

Lignée α Lignée β

Duplication

Algorithme de réconciliation

• Pour chaque nœud, calculer le LCA.

• Une duplication au nœud g est inférée si

• LCA (g) = LCA (g1) ou LCA (g) = LCA (g2)

• Pour chaque nœud g où il y a eu une duplication:

• créér deux copies du sous-arbre S(g)

• O (n^2) en temps et O(n) en espace

“Last Common Ancestor”

Arbre des gènes Arbre des espèces

humain chevalchimpanzéhumain cheval chimpanzé

PERSPECTIVES

I- Autres tests statistiques

• Refaire les mêmes tests mais sur un espace phylogénétique plus large (11 levures).– 34 459 425 topologies possibles;– Ne considérer que

• la topologie des gènes (PHYML)• celles des espèces.

• Étudier les différentes raisons qui pourraient expliquer les signaux nuls:– le nombre moyen de positions par gène;– la longueur de l’arbre;– le nombre de positions informatives.

II- Peu de signal phylogénétique

• Le manque de signal phylogénétique est un problème fréquent (19% des familles sans signal).

• Algorithme de type “Branch and Bound”;– Pour une faible valeur de support:

• Ne considérer que les “clades” qui sont supportés par une valeur > seuil.

• Calculer une borne minimale sur le coût de réconciliation avec ce clade.

– Considérer trois seuils: 50%, 70% et 95%.

III- Algorithme probabiliste

• Une duplication est plus probable sur une longue branche que sur une courte branche.

• Toutes les méthodes de réconciliation prennent pour acquis que les duplications sont équiprobables pour toutes les branches

• Algorithme probabiliste– Selon les données, évaluer les probabilités de duplications pour

chaque branche.– Appliquer un algorithme de type “Expectation Maximisation” ou

Bayésien.

• Validation de type “bootstrap” d’une famille de n gènes– Répéter pour chaque n gènes

• Créér une Pseudo Famille en retirant le gène• Appliquer la réconciliation• Calculer la distance entre la Pseudo et la Vraie réconciliation

• Validation externe:– Étudier la conservation du voisinage chez les gènes

orthologues– La synténie est bien conservée chez les levures

IV- Validation d’une réconciliation

• Génome Québec

• Hervé Philippe

• Cedric Chauve

• Sylvie Hamel

• Olivier Jeffroy

REMERCIEMENTS

top related