comparaison de méthodes de classification de sommets dans un réseau biologique

Comparaison de méthodes declassification de sommets dans un réseau

biologique

Nathalie Villa-Vialaneix

http://www.nathalievilla.org

Institut de Mathématiques de Toulouse &

IUT de Carcassonne (Université de Perpignan)

30 mars 2010

Séminaire de Biomathématiques, INRA de Castanet

1 / 24Classification dans les réseaux biologiques

N

Travail réalisé en collaboration avec :

Pierre Cherel

Adrien Gamot

Laurence Liaubet

Fabrice Rossi

Magali SanCristobal


N

Sommaire

1 Présentation des données

2 Classification des sommets


N

Présentation des données

Sommaire




N


Production d’animaux F2 avec des fac-teurs de variation génétique

F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)

F1 : 17 ♂ × 62 ♀

F2 : 1200 animaux structurés par lignée de père

Prélèvement de tissus(dont longissimus dorsi)

Mesures phénotypiques (30)(force de cisaillement, PH ...)

Données retenues : Une famille de 56 individus F2 (plus fortevariabilité pour force de cisaillement et PH) ; transcri. 2 464 gènes.


N


Sélection d’un sous-ensemble de gènes: eQTL

QTL (Quantitative Trait Locus) : Un QTL correspond à unerégion génomique liée à un caractère (phénotype) d’intérêt(contrôlé génétiquement, dans l’idéal).

Exemple : QTL pour la force de cisaillement et la tendreté de laviande

eQTL (QTL d’expression) : Un eQTL est une positionchromosomique responsable de la variabilité d’expression d’un ouplusieurs gènes.Exemple : Dans le jeu de données 330 gènes sont régulés par uneQTL.Héritabilité : L’héritabilité est la part de variance génétique sur lavariance totale.Gènes retenus : eQTL dont l’héritabilité est supérieure à 10% :128 gènes.


N



QTL (Quantitative Trait Locus) : Un QTL correspond à unerégion génomique liée à un caractère (phénotype) d’intérêt(contrôlé génétiquement, dans l’idéal).eQTL (QTL d’expression) : Un eQTL est une positionchromosomique responsable de la variabilité d’expression d’un ouplusieurs gènes.Exemple : Dans le jeu de données 330 gènes sont régulés par uneQTL.

Héritabilité : L’héritabilité est la part de variance génétique sur lavariance totale.Gènes retenus : eQTL dont l’héritabilité est supérieure à 10% :128 gènes.


N



QTL (Quantitative Trait Locus) : Un QTL correspond à unerégion génomique liée à un caractère (phénotype) d’intérêt(contrôlé génétiquement, dans l’idéal).eQTL (QTL d’expression) : Un eQTL est une positionchromosomique responsable de la variabilité d’expression d’un ouplusieurs gènes.Exemple : Dans le jeu de données 330 gènes sont régulés par uneQTL.Héritabilité : L’héritabilité est la part de variance génétique sur lavariance totale.Gènes retenus : eQTL dont l’héritabilité est supérieure à 10% :128 gènes.


N


Des gènes aux réseaux de gènes

Intérêt : Détecter et analyser les réseaux de gènes impliqués dansune ou plusieurs fonctions biologiques.

Que modélise un réseau de gènes ?

Sommets : Gènes (128 dansnotre exemple)Arêtes : Corrélation forte dansl’expression des deux gènes


N


Des gènes aux réseaux de gènes

Intérêt : Détecter et analyser les réseaux de gènes impliqués dansune ou plusieurs fonctions biologiques.Que modélise un réseau de gènes ?

Sommets : Gènes (128 dansnotre exemple)Arêtes : Corrélation forte dansl’expression des deux gènes


N


Corrélations, corrélations partielles

Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.

Solution courante : Modèle graphique Gaussien

H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;

Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;

Sous H, πij =−wij√

wiiwjjavec Σ−1 = (wij)i,j .

Problème important : Estimation et inversion de Σ !


N


Corrélations, corrélations partielles

Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.Solution courante : Modèle graphique Gaussien

H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;

Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;

Sous H, πij =−wij√

wiiwjjavec Σ−1 = (wij)i,j .

Problème important : Estimation et inversion de Σ !


N


Estimation des corrélations partielles[Schäfer and Strimmer, 2005]

Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter

1 Générer un échantillon bootstrap b∗ dans les données initiales ;

2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;

3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;

Estimer Π par la moyenne des Πb∗ .

Combien d’observations pour estimer correctement Π ?


N


Estimation des corrélations partielles[Schäfer and Strimmer, 2005]

Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter

1 Générer un échantillon bootstrap b∗ dans les données initiales ;

2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;

3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;

Estimer Π par la moyenne des Πb∗ .Combien d’observations pour estimer correctement Π ?


N


Résultat de l’estimation des corrélationspartielles

Histogramme des corrélations partielles estimées sur les 128 eQTL

Corrélations partielles

−0.2 −0.1 0.0 0.1 0.2

010

0020

0030

0040

00

Seules les corrélations lesplus importantes sont con-servées.Méthode 1 : Test[Schäfer and Strimmer, 2005]basé sur un a priori bayésien.Méthode 2 (utilisée) : Seuil-lage pour l’obtention d’unedensité fixée à l’avance (ici :entre 5% et 10%).


N


Plus grande composante connexe duréseau obtenu

●

●

●

●

●●●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●●●

●

●

●

●

●

●

●●

●

●

●

● ●●

●●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

110 sommets ; les arêtes sontpondérées par la corrélationpartielleDensité : 9,4 %Transitivité : 19,4 %

Problématique : Remettre enévidence la structure modu-laire du réseau afin d’identifierles groupes de gènes simi-laires.


N


Plus grande composante connexe duréseau obtenu

●

●

●

●

●●●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●●●

●

●

●

●

●

●

●●

●

●

●

● ●●

●●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

110 sommets ; les arêtes sontpondérées par la corrélationpartielleDensité : 9,4 %Transitivité : 19,4 %Problématique : Remettre enévidence la structure modu-laire du réseau afin d’identifierles groupes de gènes simi-laires.


N

Classification des sommets

Sommaire




N


Objectifs du travail

Point de vue méthodologique : Évaluer la pertinence biologiquede diverses approches de classification de sommets ;

Point de vue biologique : Formuler des hypothèses sur la fonctionbiologique de certains gènes non répertoriés.

Deux approches comparées :

Approches à noyau (ici, kernel k-means)

Approches basées sur la modularité


N


Présentation des approches à noyau

Principe de base : Doter le graphe G d’une métrique par le biaisd’un noyau et utiliser un algorithme de classification (typek -means) à partir de cette métrique.

Qu’est-ce qu’un noyau ? C’est une fonction K : G × G → R,symétrique et positive⇒ ∃φ : G → (H , 〈., .〉) telle que :

〈φ(x), φ(x′)〉 = K(x, x′).


N


Présentation des approches à noyau

Principe de base : Doter le graphe G d’une métrique par le biaisd’un noyau et utiliser un algorithme de classification (typek -means) à partir de cette métrique.Qu’est-ce qu’un noyau ? C’est une fonction K : G × G → R,symétrique et positive⇒ ∃φ : G → (H , 〈., .〉) telle que :

〈φ(x), φ(x′)〉 = K(x, x′).


N


Quels noyaux pour les graphes ?

La plupart sont des régularisations du Laplacien

[Smola and Kondor, 2003] L =

{−πij si i , jdi =

∑k,i πik si i = j

Exemples :

noyau de la chaleur [Kondor and Lafferty, 2002] : K = e−βL

Peut être vu comme la quantité d’énergie mesurée en un sommetdu graphe après une diffusion continue le long des arêtes à partird’un autre sommet.Exemple : Pour le graphe de co-apparition des Misérables, lenoyau de la chaleur vu depuis Jean Valjean Voir

inverse généralisée [Fouss et al., 2007] : K = L+

Temps moyen d’attente d’un sommet à partir d’un autre lors d’unemarche aléatoire sur le graphe.


N


Modularité [Newman and Girvan, 2004]

Mesure de qualité d’une classification de graphe : Une partitiondes sommets en C classes, (Ck )k=1,...,C a une modularité égale à :

Q(C) =1

2m

C∑k=1

∑i,j∈Ck

(Πij − Pij)

où Pij sont les poids dans un “modèle nul” pour lequel les poidsdépendent uniquement des propriétés des sommets et non de laclasse à laquelle ils appartiennent.

De manière plus précise,

Pij =didj

2moù di = 1

2∑

j,i πij est le degré du sommet xi .Une “bonne” classification correspond à Q maximale.

16 / 24Classification dans les réseaux biologiquesN




Q(C) =1

2m

C∑k=1

∑i,j∈Ck

(Πij − Pij)

où Pij sont les poids dans un “modèle nul” pour lequel les poidsdépendent uniquement des propriétés des sommets et non de laclasse à laquelle ils appartiennent.De manière plus précise,

Pij =didj

2moù di = 1

2∑

j,i πij est le degré du sommet xi .

Une “bonne” classification correspond à Q maximale.





Q(C) =1

2m

C∑k=1

∑i,j∈Ck

(Πij − Pij)

où Pij sont les poids dans un “modèle nul” pour lequel les poidsdépendent uniquement des propriétés des sommets et non de laclasse à laquelle ils appartiennent.De manière plus précise,

Pij =didj

2moù di = 1

2∑

j,i πij est le degré du sommet xi .Une “bonne” classification correspond à Q maximale.



Interprétation

Q augmente lorsque (xi , xj) sont dans une même classe et ont unpoids réel πij plus grand que le poids du modèle nul, Pij

Q diminue lorsque (xi , xj) sont dans deux classes distinctes et ontun poids réel πij plus petit que le poids du modèle nul, Pij car

Q(C) +1

2m

∑k,k ′

∑i∈Ck , j∈Ck ′

(Wij − Pij) = 0.

À l’inverse de la minimisation du nombre de sommets entre lesclasses, la modularité permet de séparer des sommets de fortsdegrés (hubs) dans des classes différentes.



Optimiser la modularité par recuitsimulé

[Reichardt and Bornholdt, 2006, Villa et al., 2009] Principe :Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f)), onsimule de manière stochastique (chaîne de Markov sur les états, f: classifications des sommets) ,la probabilité

PT (f) =e−E(f)/T∑g e−E(g)/T

.

Lorque T → 0, PT (f) se concentre sur minf E(f).

Algorithme

1 On initialise la classification des sommets à un état aléatoiref0 ∈ {1, . . . ,m}⊗n

2 On répète

2 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi

dans (f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f l’état dans lequel xi a subi un échange de classe entre j1

et j2. On note ∆E = Q(f) − Q(f0)2 si ∆E > 0 alors f1 = f2 sinon f1 = f avec probabilité e∆E/T et f1 = f0 avec probabilité

e−∆E/T

2 On diminue T

3 On stoppe à stabilisation de l’algorithme.


N


Optimiser la modularité par recuitsimulé

Algorithme

1 On initialise la classification des sommets à un état aléatoiref0 ∈ {1, . . . ,m}⊗n

2 On répète

2 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi

dans (f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f l’état dans lequel xi a subi un échange de classe entre j1

et j2. On note ∆E = Q(f) − Q(f0)2 si ∆E > 0 alors f1 = f2 sinon f1 = f avec probabilité e∆E/T et f1 = f0 avec probabilité

e−∆E/T

2 On diminue T

3 On stoppe à stabilisation de l’algorithme.18 / 24

Classification dans les réseaux biologiquesN


Optimiser la modularité par recuit déter-ministe

[Lehmann and Hansen, 2007, Rossi and Villa-Vialaneix, 2010]

Pour une température donnée 1β, on suppose une distribution de

Gibbs sur l’espace des solutions P(f) = 1Zf

eβQ(f)

On calcule E(f) selon P

Lorsque β→ +∞, E(f) converge vers f ∗ où f ∗ réalise le maximumde F(f)

Problème : Zf =∑

f eβQ(f) est impossible à calculer si P(f) ne sefactorise pas en f ⇒ On approche P(f) par une distribution quifactorise puis on utilise un algorithme de type EM pouritérativement optimiser cette approximation (minimisation de ladivergence de Kullback Leibler) et calculer l’espérance de f seloncette distribution (détails dans [Rossi and Villa-Vialaneix, 2010]).


N


Méthodologie

Pour un nombre de classes variant de 5 à 10 :

Kernel k -means avec divers noyaux ;

Optimisation de la modularité par recuit simulé et par recuitdéterministe

Détermination de la modularité des classifications

Validation biologique des meilleures classifications obtenues


N


Analyse de la classification retenue

Classification retenue :

Optimisation de la modularité par recuit simulé ;

5 classes ;

Modularité = 0,25 (plutôt faible).

Conclusion plus générale : L’optimisation de la modularité estmeilleure que les approches à noyau sur cet exemple.


N


Validation biologique

Recherche des fonctions biologiques des gènes connus dechaque classe : 1 classe = 1 ou 2 fonctions

Num. Fonction biologique Taille classe Nb gènesreconnus

1 Synthèse protéique 24 142 Stress oxydatif et act kinase cell 13 9

cycle/apoptose+SH2adaptator3 Activités déaminase et hydrolase 32 20

réticulum andoplasmique4 Non connu 26 135 Régulation de la transcription 15 7


N


Conclusion et perspectives

Conclusion

L”approche de classification de sommets semblent pertinente dansle cadre biologique ;

L’optimisation de la modularité semble être une méthodologieintéressante.

Perspectives Travail à confirmer par comparaison à desméthodes plus courantes dans la communautébiostatistique/bioinformatique (Markov Clustering, par exemple) etsur un jeu de données plus large (public).


N

Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007).Random-walk computation of similarities between nodes of a graph, with application to collaborativerecommendation.IEEE Transactions on Knowledge and Data Engineering, 19(3):355–369.

Kondor, R. and Lafferty, J. (2002).Diffusion kernels on graphs and other discrete structures.In Proceedings of the 19th International Conference on Machine Learning, pages 315–322.

Lehmann, S. and Hansen, L. (2007).Deterministic modularity optimization.The European Physical Journal B, 60(1):83–88.

Newman, M. and Girvan, M. (2004).Finding and evaluating community structure in networks.Physical Review, E, 69:026113.

Reichardt, J. and Bornholdt, S. (2006).Statistical mechanics of community detection.Physical Review E, 74(016110).

Rossi, F. and Villa-Vialaneix, N. (2010).Optimizing an organized modularity measure for topographic graph clustering : a deterministic annealingapproach.Neurocomputing, 73(7-9):1142–1163.

Schäfer, J. and Strimmer, K. (2005).An empirical bayes approach to inferring large-scale gene association networks.Bioinformatics, 21(6):754–764.


N

Smola, A. and Kondor, R. (2003).Kernels and regularization on graphs.In Warmuth, M. and Schölkopf, B., editors, Proceedings of the Conference on Learning Theory (COLT) andKernel Workshop.

Villa, N., Dkaki, T., Gadat, S., Inglebert, J., and Truong, Q. (2009).Recherche et représentation de communautés dans des grands graphes.In Actes du colloque Veille Stratégique, Scientifique et Technologique (VSST 2009), Nancy, France.À paraître.


N


Noyau de la chaleur des Misérablesselon Valjean Retour


N

comparaison de méthodes de classification de sommets dans un réseau biologique

Science