comparaison de méthodes de classification de sommets dans un réseau biologique
DESCRIPTION
Séminaire BioMaths, INRA d'Auzeville March 30th, 2010TRANSCRIPT
Comparaison de méthodes declassification de sommets dans un réseau
biologique
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
Institut de Mathématiques de Toulouse &
IUT de Carcassonne (Université de Perpignan)
30 mars 2010
Séminaire de Biomathématiques, INRA de Castanet
1 / 24Classification dans les réseaux biologiques
N
Travail réalisé en collaboration avec :
Pierre Cherel
Adrien Gamot
Laurence Liaubet
Fabrice Rossi
Magali SanCristobal
2 / 24Classification dans les réseaux biologiques
N
Sommaire
1 Présentation des données
2 Classification des sommets
3 / 24Classification dans les réseaux biologiques
N
Présentation des données
Sommaire
1 Présentation des données
2 Classification des sommets
4 / 24Classification dans les réseaux biologiques
N
Présentation des données
Production d’animaux F2 avec des fac-teurs de variation génétique
F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)
F1 : 17 ♂ × 62 ♀
F2 : 1200 animaux structurés par lignée de père
Prélèvement de tissus(dont longissimus dorsi)
Mesures phénotypiques (30)(force de cisaillement, PH ...)
Données retenues : Une famille de 56 individus F2 (plus fortevariabilité pour force de cisaillement et PH) ; transcri. 2 464 gènes.
5 / 24Classification dans les réseaux biologiques
N
Présentation des données
Production d’animaux F2 avec des fac-teurs de variation génétique
F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)
F1 : 17 ♂ × 62 ♀
F2 : 1200 animaux structurés par lignée de père
Prélèvement de tissus(dont longissimus dorsi)
Mesures phénotypiques (30)(force de cisaillement, PH ...)
Données retenues : Une famille de 56 individus F2 (plus fortevariabilité pour force de cisaillement et PH) ; transcri. 2 464 gènes.
5 / 24Classification dans les réseaux biologiques
N
Présentation des données
Sélection d’un sous-ensemble de gènes: eQTL
QTL (Quantitative Trait Locus) : Un QTL correspond à unerégion génomique liée à un caractère (phénotype) d’intérêt(contrôlé génétiquement, dans l’idéal).
Exemple : QTL pour la force de cisaillement et la tendreté de laviande
eQTL (QTL d’expression) : Un eQTL est une positionchromosomique responsable de la variabilité d’expression d’un ouplusieurs gènes.Exemple : Dans le jeu de données 330 gènes sont régulés par uneQTL.Héritabilité : L’héritabilité est la part de variance génétique sur lavariance totale.Gènes retenus : eQTL dont l’héritabilité est supérieure à 10% :128 gènes.
6 / 24Classification dans les réseaux biologiques
N
Présentation des données
Sélection d’un sous-ensemble de gènes: eQTL
QTL (Quantitative Trait Locus) : Un QTL correspond à unerégion génomique liée à un caractère (phénotype) d’intérêt(contrôlé génétiquement, dans l’idéal).eQTL (QTL d’expression) : Un eQTL est une positionchromosomique responsable de la variabilité d’expression d’un ouplusieurs gènes.Exemple : Dans le jeu de données 330 gènes sont régulés par uneQTL.
Héritabilité : L’héritabilité est la part de variance génétique sur lavariance totale.Gènes retenus : eQTL dont l’héritabilité est supérieure à 10% :128 gènes.
6 / 24Classification dans les réseaux biologiques
N
Présentation des données
Sélection d’un sous-ensemble de gènes: eQTL
QTL (Quantitative Trait Locus) : Un QTL correspond à unerégion génomique liée à un caractère (phénotype) d’intérêt(contrôlé génétiquement, dans l’idéal).eQTL (QTL d’expression) : Un eQTL est une positionchromosomique responsable de la variabilité d’expression d’un ouplusieurs gènes.Exemple : Dans le jeu de données 330 gènes sont régulés par uneQTL.Héritabilité : L’héritabilité est la part de variance génétique sur lavariance totale.Gènes retenus : eQTL dont l’héritabilité est supérieure à 10% :128 gènes.
6 / 24Classification dans les réseaux biologiques
N
Présentation des données
Des gènes aux réseaux de gènes
Intérêt : Détecter et analyser les réseaux de gènes impliqués dansune ou plusieurs fonctions biologiques.
Que modélise un réseau de gènes ?
Sommets : Gènes (128 dansnotre exemple)Arêtes : Corrélation forte dansl’expression des deux gènes
7 / 24Classification dans les réseaux biologiques
N
Présentation des données
Des gènes aux réseaux de gènes
Intérêt : Détecter et analyser les réseaux de gènes impliqués dansune ou plusieurs fonctions biologiques.Que modélise un réseau de gènes ?
Sommets : Gènes (128 dansnotre exemple)Arêtes : Corrélation forte dansl’expression des deux gènes
7 / 24Classification dans les réseaux biologiques
N
Présentation des données
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.
Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;
Sous H, πij =−wij√
wiiwjjavec Σ−1 = (wij)i,j .
Problème important : Estimation et inversion de Σ !
8 / 24Classification dans les réseaux biologiques
N
Présentation des données
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;
Sous H, πij =−wij√
wiiwjjavec Σ−1 = (wij)i,j .
Problème important : Estimation et inversion de Σ !
8 / 24Classification dans les réseaux biologiques
N
Présentation des données
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;
Sous H, πij =−wij√
wiiwjjavec Σ−1 = (wij)i,j .
Problème important : Estimation et inversion de Σ !
8 / 24Classification dans les réseaux biologiques
N
Présentation des données
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;
Sous H, πij =−wij√
wiiwjjavec Σ−1 = (wij)i,j .
Problème important : Estimation et inversion de Σ !
8 / 24Classification dans les réseaux biologiques
N
Présentation des données
Estimation des corrélations partielles[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗ dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;
3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;
Estimer Π par la moyenne des Πb∗ .
Combien d’observations pour estimer correctement Π ?
9 / 24Classification dans les réseaux biologiques
N
Présentation des données
Estimation des corrélations partielles[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗ dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;
3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;
Estimer Π par la moyenne des Πb∗ .
Combien d’observations pour estimer correctement Π ?
9 / 24Classification dans les réseaux biologiques
N
Présentation des données
Estimation des corrélations partielles[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗ dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;
3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;
Estimer Π par la moyenne des Πb∗ .Combien d’observations pour estimer correctement Π ?
9 / 24Classification dans les réseaux biologiques
N
Présentation des données
Résultat de l’estimation des corrélationspartielles
Histogramme des corrélations partielles estimées sur les 128 eQTL
Corrélations partielles
−0.2 −0.1 0.0 0.1 0.2
010
0020
0030
0040
00
Seules les corrélations lesplus importantes sont con-servées.Méthode 1 : Test[Schäfer and Strimmer, 2005]basé sur un a priori bayésien.Méthode 2 (utilisée) : Seuil-lage pour l’obtention d’unedensité fixée à l’avance (ici :entre 5% et 10%).
10 / 24Classification dans les réseaux biologiques
N
Présentation des données
Plus grande composante connexe duréseau obtenu
●
●
●
●
●●●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
● ●●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
110 sommets ; les arêtes sontpondérées par la corrélationpartielleDensité : 9,4 %Transitivité : 19,4 %
Problématique : Remettre enévidence la structure modu-laire du réseau afin d’identifierles groupes de gènes simi-laires.
11 / 24Classification dans les réseaux biologiques
N
Présentation des données
Plus grande composante connexe duréseau obtenu
●
●
●
●
●●●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
● ●●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
110 sommets ; les arêtes sontpondérées par la corrélationpartielleDensité : 9,4 %Transitivité : 19,4 %Problématique : Remettre enévidence la structure modu-laire du réseau afin d’identifierles groupes de gènes simi-laires.
11 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Sommaire
1 Présentation des données
2 Classification des sommets
12 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Objectifs du travail
Point de vue méthodologique : Évaluer la pertinence biologiquede diverses approches de classification de sommets ;
Point de vue biologique : Formuler des hypothèses sur la fonctionbiologique de certains gènes non répertoriés.
Deux approches comparées :
Approches à noyau (ici, kernel k-means)
Approches basées sur la modularité
13 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Objectifs du travail
Point de vue méthodologique : Évaluer la pertinence biologiquede diverses approches de classification de sommets ;
Point de vue biologique : Formuler des hypothèses sur la fonctionbiologique de certains gènes non répertoriés.
Deux approches comparées :
Approches à noyau (ici, kernel k-means)
Approches basées sur la modularité
13 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Présentation des approches à noyau
Principe de base : Doter le graphe G d’une métrique par le biaisd’un noyau et utiliser un algorithme de classification (typek -means) à partir de cette métrique.
Qu’est-ce qu’un noyau ? C’est une fonction K : G × G → R,symétrique et positive⇒ ∃φ : G → (H , 〈., .〉) telle que :
〈φ(x), φ(x′)〉 = K(x, x′).
14 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Présentation des approches à noyau
Principe de base : Doter le graphe G d’une métrique par le biaisd’un noyau et utiliser un algorithme de classification (typek -means) à partir de cette métrique.Qu’est-ce qu’un noyau ? C’est une fonction K : G × G → R,symétrique et positive⇒ ∃φ : G → (H , 〈., .〉) telle que :
〈φ(x), φ(x′)〉 = K(x, x′).
14 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Quels noyaux pour les graphes ?
La plupart sont des régularisations du Laplacien
[Smola and Kondor, 2003] L =
{−πij si i , jdi =
∑k,i πik si i = j
Exemples :
noyau de la chaleur [Kondor and Lafferty, 2002] : K = e−βL
Peut être vu comme la quantité d’énergie mesurée en un sommetdu graphe après une diffusion continue le long des arêtes à partird’un autre sommet.Exemple : Pour le graphe de co-apparition des Misérables, lenoyau de la chaleur vu depuis Jean Valjean Voir
inverse généralisée [Fouss et al., 2007] : K = L+
Temps moyen d’attente d’un sommet à partir d’un autre lors d’unemarche aléatoire sur le graphe.
15 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Quels noyaux pour les graphes ?
La plupart sont des régularisations du Laplacien
[Smola and Kondor, 2003] L =
{−πij si i , jdi =
∑k,i πik si i = j
Exemples :
noyau de la chaleur [Kondor and Lafferty, 2002] : K = e−βL
Peut être vu comme la quantité d’énergie mesurée en un sommetdu graphe après une diffusion continue le long des arêtes à partird’un autre sommet.Exemple : Pour le graphe de co-apparition des Misérables, lenoyau de la chaleur vu depuis Jean Valjean Voir
inverse généralisée [Fouss et al., 2007] : K = L+
Temps moyen d’attente d’un sommet à partir d’un autre lors d’unemarche aléatoire sur le graphe.
15 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Quels noyaux pour les graphes ?
La plupart sont des régularisations du Laplacien
[Smola and Kondor, 2003] L =
{−πij si i , jdi =
∑k,i πik si i = j
Exemples :
noyau de la chaleur [Kondor and Lafferty, 2002] : K = e−βL
Peut être vu comme la quantité d’énergie mesurée en un sommetdu graphe après une diffusion continue le long des arêtes à partird’un autre sommet.Exemple : Pour le graphe de co-apparition des Misérables, lenoyau de la chaleur vu depuis Jean Valjean Voir
inverse généralisée [Fouss et al., 2007] : K = L+
Temps moyen d’attente d’un sommet à partir d’un autre lors d’unemarche aléatoire sur le graphe.
15 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Modularité [Newman and Girvan, 2004]
Mesure de qualité d’une classification de graphe : Une partitiondes sommets en C classes, (Ck )k=1,...,C a une modularité égale à :
Q(C) =1
2m
C∑k=1
∑i,j∈Ck
(Πij − Pij)
où Pij sont les poids dans un “modèle nul” pour lequel les poidsdépendent uniquement des propriétés des sommets et non de laclasse à laquelle ils appartiennent.
De manière plus précise,
Pij =didj
2moù di = 1
2∑
j,i πij est le degré du sommet xi .Une “bonne” classification correspond à Q maximale.
16 / 24Classification dans les réseaux biologiquesN
Classification des sommets
Modularité [Newman and Girvan, 2004]
Mesure de qualité d’une classification de graphe : Une partitiondes sommets en C classes, (Ck )k=1,...,C a une modularité égale à :
Q(C) =1
2m
C∑k=1
∑i,j∈Ck
(Πij − Pij)
où Pij sont les poids dans un “modèle nul” pour lequel les poidsdépendent uniquement des propriétés des sommets et non de laclasse à laquelle ils appartiennent.De manière plus précise,
Pij =didj
2moù di = 1
2∑
j,i πij est le degré du sommet xi .
Une “bonne” classification correspond à Q maximale.
16 / 24Classification dans les réseaux biologiquesN
Classification des sommets
Modularité [Newman and Girvan, 2004]
Mesure de qualité d’une classification de graphe : Une partitiondes sommets en C classes, (Ck )k=1,...,C a une modularité égale à :
Q(C) =1
2m
C∑k=1
∑i,j∈Ck
(Πij − Pij)
où Pij sont les poids dans un “modèle nul” pour lequel les poidsdépendent uniquement des propriétés des sommets et non de laclasse à laquelle ils appartiennent.De manière plus précise,
Pij =didj
2moù di = 1
2∑
j,i πij est le degré du sommet xi .Une “bonne” classification correspond à Q maximale.
16 / 24Classification dans les réseaux biologiquesN
Classification des sommets
Interprétation
Q augmente lorsque (xi , xj) sont dans une même classe et ont unpoids réel πij plus grand que le poids du modèle nul, Pij
Q diminue lorsque (xi , xj) sont dans deux classes distinctes et ontun poids réel πij plus petit que le poids du modèle nul, Pij car
Q(C) +1
2m
∑k,k ′
∑i∈Ck , j∈Ck ′
(Wij − Pij) = 0.
À l’inverse de la minimisation du nombre de sommets entre lesclasses, la modularité permet de séparer des sommets de fortsdegrés (hubs) dans des classes différentes.
17 / 24Classification dans les réseaux biologiquesN
Classification des sommets
Interprétation
Q augmente lorsque (xi , xj) sont dans une même classe et ont unpoids réel πij plus grand que le poids du modèle nul, Pij
Q diminue lorsque (xi , xj) sont dans deux classes distinctes et ontun poids réel πij plus petit que le poids du modèle nul, Pij car
Q(C) +1
2m
∑k,k ′
∑i∈Ck , j∈Ck ′
(Wij − Pij) = 0.
À l’inverse de la minimisation du nombre de sommets entre lesclasses, la modularité permet de séparer des sommets de fortsdegrés (hubs) dans des classes différentes.
17 / 24Classification dans les réseaux biologiquesN
Classification des sommets
Optimiser la modularité par recuitsimulé
[Reichardt and Bornholdt, 2006, Villa et al., 2009] Principe :Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f)), onsimule de manière stochastique (chaîne de Markov sur les états, f: classifications des sommets) ,la probabilité
PT (f) =e−E(f)/T∑g e−E(g)/T
.
Lorque T → 0, PT (f) se concentre sur minf E(f).
Algorithme
1 On initialise la classification des sommets à un état aléatoiref0 ∈ {1, . . . ,m}⊗n
2 On répète
2 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi
dans (f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f l’état dans lequel xi a subi un échange de classe entre j1
et j2. On note ∆E = Q(f) − Q(f0)2 si ∆E > 0 alors f1 = f2 sinon f1 = f avec probabilité e∆E/T et f1 = f0 avec probabilité
e−∆E/T
2 On diminue T
3 On stoppe à stabilisation de l’algorithme.
18 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Optimiser la modularité par recuitsimulé
[Reichardt and Bornholdt, 2006, Villa et al., 2009] Principe :Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f)), onsimule de manière stochastique (chaîne de Markov sur les états, f: classifications des sommets) ,la probabilité
PT (f) =e−E(f)/T∑g e−E(g)/T
.
Lorque T → 0, PT (f) se concentre sur minf E(f).
Algorithme
1 On initialise la classification des sommets à un état aléatoiref0 ∈ {1, . . . ,m}⊗n
2 On répète
2 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi
dans (f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f l’état dans lequel xi a subi un échange de classe entre j1
et j2. On note ∆E = Q(f) − Q(f0)2 si ∆E > 0 alors f1 = f2 sinon f1 = f avec probabilité e∆E/T et f1 = f0 avec probabilité
e−∆E/T
2 On diminue T
3 On stoppe à stabilisation de l’algorithme.
18 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Optimiser la modularité par recuitsimulé
Algorithme
1 On initialise la classification des sommets à un état aléatoiref0 ∈ {1, . . . ,m}⊗n
2 On répète
2 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi
dans (f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f l’état dans lequel xi a subi un échange de classe entre j1
et j2. On note ∆E = Q(f) − Q(f0)2 si ∆E > 0 alors f1 = f2 sinon f1 = f avec probabilité e∆E/T et f1 = f0 avec probabilité
e−∆E/T
2 On diminue T
3 On stoppe à stabilisation de l’algorithme.18 / 24
Classification dans les réseaux biologiquesN
Classification des sommets
Optimiser la modularité par recuit déter-ministe
[Lehmann and Hansen, 2007, Rossi and Villa-Vialaneix, 2010]
Pour une température donnée 1β, on suppose une distribution de
Gibbs sur l’espace des solutions P(f) = 1Zf
eβQ(f)
On calcule E(f) selon P
Lorsque β→ +∞, E(f) converge vers f ∗ où f ∗ réalise le maximumde F(f)
Problème : Zf =∑
f eβQ(f) est impossible à calculer si P(f) ne sefactorise pas en f ⇒ On approche P(f) par une distribution quifactorise puis on utilise un algorithme de type EM pouritérativement optimiser cette approximation (minimisation de ladivergence de Kullback Leibler) et calculer l’espérance de f seloncette distribution (détails dans [Rossi and Villa-Vialaneix, 2010]).
19 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Optimiser la modularité par recuit déter-ministe
[Lehmann and Hansen, 2007, Rossi and Villa-Vialaneix, 2010]
Pour une température donnée 1β, on suppose une distribution de
Gibbs sur l’espace des solutions P(f) = 1Zf
eβQ(f)
On calcule E(f) selon P
Lorsque β→ +∞, E(f) converge vers f ∗ où f ∗ réalise le maximumde F(f)
Problème : Zf =∑
f eβQ(f) est impossible à calculer si P(f) ne sefactorise pas en f ⇒ On approche P(f) par une distribution quifactorise puis on utilise un algorithme de type EM pouritérativement optimiser cette approximation (minimisation de ladivergence de Kullback Leibler) et calculer l’espérance de f seloncette distribution (détails dans [Rossi and Villa-Vialaneix, 2010]).
19 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Méthodologie
Pour un nombre de classes variant de 5 à 10 :
Kernel k -means avec divers noyaux ;
Optimisation de la modularité par recuit simulé et par recuitdéterministe
Détermination de la modularité des classifications
Validation biologique des meilleures classifications obtenues
20 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Analyse de la classification retenue
Classification retenue :
Optimisation de la modularité par recuit simulé ;
5 classes ;
Modularité = 0,25 (plutôt faible).
Conclusion plus générale : L’optimisation de la modularité estmeilleure que les approches à noyau sur cet exemple.
21 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Analyse de la classification retenue
Classification retenue :
Optimisation de la modularité par recuit simulé ;
5 classes ;
Modularité = 0,25 (plutôt faible).
Conclusion plus générale : L’optimisation de la modularité estmeilleure que les approches à noyau sur cet exemple.
21 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Analyse de la classification retenue
Classification retenue :
Optimisation de la modularité par recuit simulé ;
5 classes ;
Modularité = 0,25 (plutôt faible).
Conclusion plus générale : L’optimisation de la modularité estmeilleure que les approches à noyau sur cet exemple.
21 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Validation biologique
Recherche des fonctions biologiques des gènes connus dechaque classe : 1 classe = 1 ou 2 fonctions
Num. Fonction biologique Taille classe Nb gènesreconnus
1 Synthèse protéique 24 142 Stress oxydatif et act kinase cell 13 9
cycle/apoptose+SH2adaptator3 Activités déaminase et hydrolase 32 20
réticulum andoplasmique4 Non connu 26 135 Régulation de la transcription 15 7
22 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Conclusion et perspectives
Conclusion
L”approche de classification de sommets semblent pertinente dansle cadre biologique ;
L’optimisation de la modularité semble être une méthodologieintéressante.
Perspectives Travail à confirmer par comparaison à desméthodes plus courantes dans la communautébiostatistique/bioinformatique (Markov Clustering, par exemple) etsur un jeu de données plus large (public).
23 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Conclusion et perspectives
Conclusion
L”approche de classification de sommets semblent pertinente dansle cadre biologique ;
L’optimisation de la modularité semble être une méthodologieintéressante.
Perspectives Travail à confirmer par comparaison à desméthodes plus courantes dans la communautébiostatistique/bioinformatique (Markov Clustering, par exemple) etsur un jeu de données plus large (public).
23 / 24Classification dans les réseaux biologiques
N
Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007).Random-walk computation of similarities between nodes of a graph, with application to collaborativerecommendation.IEEE Transactions on Knowledge and Data Engineering, 19(3):355–369.
Kondor, R. and Lafferty, J. (2002).Diffusion kernels on graphs and other discrete structures.In Proceedings of the 19th International Conference on Machine Learning, pages 315–322.
Lehmann, S. and Hansen, L. (2007).Deterministic modularity optimization.The European Physical Journal B, 60(1):83–88.
Newman, M. and Girvan, M. (2004).Finding and evaluating community structure in networks.Physical Review, E, 69:026113.
Reichardt, J. and Bornholdt, S. (2006).Statistical mechanics of community detection.Physical Review E, 74(016110).
Rossi, F. and Villa-Vialaneix, N. (2010).Optimizing an organized modularity measure for topographic graph clustering : a deterministic annealingapproach.Neurocomputing, 73(7-9):1142–1163.
Schäfer, J. and Strimmer, K. (2005).An empirical bayes approach to inferring large-scale gene association networks.Bioinformatics, 21(6):754–764.
23 / 24Classification dans les réseaux biologiques
N
Smola, A. and Kondor, R. (2003).Kernels and regularization on graphs.In Warmuth, M. and Schölkopf, B., editors, Proceedings of the Conference on Learning Theory (COLT) andKernel Workshop.
Villa, N., Dkaki, T., Gadat, S., Inglebert, J., and Truong, Q. (2009).Recherche et représentation de communautés dans des grands graphes.In Actes du colloque Veille Stratégique, Scientifique et Technologique (VSST 2009), Nancy, France.À paraître.
24 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Noyau de la chaleur des Misérablesselon Valjean Retour
24 / 24Classification dans les réseaux biologiques
N
Classification des sommets
Noyau de la chaleur des Misérablesselon Valjean Retour
24 / 24Classification dans les réseaux biologiques
N