chapitre v modelisation de reseaux de regulation
Post on 18-Jun-2022
10 Views
Preview:
TRANSCRIPT
Chapitre V : Modélisation de réseaux de régulation
CHAPITRE V
MODELISATION DE RESEAUX DE REGULATION
1. INTRODUCTION
L’analyse de données d’expression issues de puces à ADN dans le contexte d’un
modèle mathématique permet en principe la reconstruction (« reverse-engineering ») du
réseau de régulation de l’expression des gènes étudiés. Ces dernières années, une multitude de
méthodes mathématiques et informatiques ont été développées pour relever ce défi
(D’haeseleer et al. 2000 ; Smolen et al. 2000 ; de Jong, 2002 ; van Someren et al. 2002 ;
Perkins et al. 2004 ; Quayle & Bullock 2006 ; Schlitt & Brazma, 2007 ; Li et al. 2008 ; Chou
& Voit 2008). Il convient de distinguer les modèles sous divers angles: (1) les modèles
statiques, i.e. indépendants du temps, et les modèles dynamiques, qui tiennent comptent du
temps, (2) les modèles qualitatifs tels que certains réseaux booléens (Tomas 1973, Kauffman
1974, Liang et al. 1998), probabilistes, tels que les réseaux bayésiens (Friedman et al. 2000)
issus de la théorie des graphes, et déterministes, tels que les systèmes d’équations
différentielles, qui en outre tiennent comptent explicitement du temps, ce qui facilite l’étude
du comportement dynamique de l’expression des gènes (Gebert et al. 2006, De Jong 2002).
Les réseaux booléens quantifient les niveaux d’expression de façon binaire : soit un
gène est « allumé » soit il est « éteint » et utilisent un temps discret. L’état de chaque gène est
alors déterminé par des fonctions booléennes dépendant de l’état des autres gènes. Les
avantages incontestables de cette approche résident dans sa simplicité, qui s’avère utile
lorsqu’on désire modéliser de grands réseaux de régulation, et dans le fait qu’elle nécessite un
faible temps de calcul. De plus, malgré leur simplicité, ces réseaux permettent de reproduire
des comportements dynamiques tels que des oscillations, des hystérèses ou la convergence
vers de points fixes. Néanmoins, l’inconvénient majeur de ces réseaux est qu’ils n’offrent que
des informations et prédictions qualitatives et qu’elles se limitent à des états discrets des
niveaux d’expression des gènes. En effet, ces modèles ont été développés pour traiter les
premières données expérimentales qui étaient généralement statiques et trop peu précises pour
en extraire plus que de l’information binaire. Il est aujourd’hui possible de traiter les niveaux
d’expression des gènes comme des variables continues.
Les réseaux bayésiens, quant à eux, sont des graphes directionnels acycliques. Chaque
nœud du réseau représente un gène et est associé à une variable aléatoire correspondant au
niveau d’expression de ce gène et à une distribution de probabilité de cette variable aléatoire.
61
Chapitre V : Modélisation de réseaux de régulation
On exprime ainsi la probabilité du niveau d’expression d’un gène en fonction des niveaux
d’expression des gènes qui lui sont connectés en amont (« gènes parents »). Les avantages de
cette méthode sont son caractère probabiliste, qui reflète la nature stochastique des processus
cellulaires et du bruit sur les données expérimentales, et sa capacité à gérer des données
manquantes (Li et al. 2004 ; Kim et al. 2004).
Enfin, les systèmes d’équations différentielles s’avèrent une voie séduisante pour ce
type de problème car ils permettent d’exprimer explicitement et de manière continue
l’évolution du niveau d’expression d’un gène en fonction du temps et des niveaux
d’expression de tous les gènes, soit de manière linéaire (Chen et al. 1999 ; Gebert et al. 2006 ;
D’haeseleer et al. 1999 ; Weaver et al. 1999 ; Holter et al, 2001 ; Yeung et al. 2002 ; De
hoon et al. 2002 ; de Jong et al. 2003 ; Guthke et al. 2005 ; Bansal et al. 2006 ; Kramer & Xu
2007 : d’Alché-Buc et al. 2005) soit de manière non linéaire (von Dassow et al. 2000; Wang
et al. 2006; Sakamoto et Iba 2001 ; Quach et al. 2007 ; Gennemark & Wedlin 2009). Ces
équations constituent le formalisme de modélisation dynamique le plus puissant et ont été
largement utilisées pour la modélisation de systèmes biochimiques (Crampin et al. 2004 ;
Sible & Tyson, 2006). En outre, elles permettent de modéliser des comportements
dynamiques complexes tels que des oscillations, des comportements cycliques ou des états de
multi-stationnarité (Thomas 1981, Kauffman & Thomas 2003, d’Alché-Buc & Schachter
2005). Pour ces raisons, nous choisissons de modéliser le réseau de régulation de l’expression
des gènes de la drosophile par un système d’équations différentielles, linéaires dans un
premier temps et non linéaires par la suite. Signalons finalement que d’autres méthodes ont
également été proposées pour ce type de problème (De Jong 2002, Crampin et al. 2004).
Citons les réseaux logiques (D’Ari & Thomas 2003), les réseaux bayésiens dynamiques
(Murphy & Mian 1999), les modèles autorégressifs (Schmitt & Stephanopoulos 2003) et les
réseaux de Petri (Peleg et al. 2005).
Comme cela a été expliqué au chapitre précédent, la première difficulté rencontrée
dans cette démarche est la grande dimensionnalité du problème. Le nombre élevé de gènes
impliqués dans le système, les hauts niveaux de bruits présents dans les données disponibles
et l’indétermination structurelle inhérente à certains types de réseaux contribuent au fait que
les problèmes de modélisation sont généralement sous-déterminés. C’est pourquoi on
regroupe généralement les gènes dont les profils d’expression sont similaires (chapitre IV).
Une autre manière courante de réduire la dimensionnalité des modèles de réseaux est
d’utiliser des connaissances biologiques pour établir a priori certaines connexions entre gènes
(Sible & Tyson, 2007). Néanmoins, les connaissances actuelles à ce sujet sont généralement
fragmentaires et si certaines stratégies pour gérer ces informations incomplètes dans la
modélisation de réseaux de régulation génique ont été proposées (de Jong & Ropers, 2006),
elles demandent en pratique une implémentation parfois laborieuse.
Enfin, toujours dans le but de réduire le nombre de paramètres des modèles, des
méthodes ont été proposées pour concevoir des réseaux de régulation contenant un minimum
62
Chapitre V : Modélisation de réseaux de régulation
de connexions, soit en intégrant cette contrainte dans l’identification des réseaux (Deng et al.
2005), soit en définissant a priori un nombre maximal de connexions par (classe de) gène
(Gardner & Faith, 2005; Yeung et al. 2002; Ciliberti et al. 2007). Cette hypothèse de faible
connectivité est basée sur le faible nombre de facteurs de transcription régulant l’expression
de chaque gène. Toutefois, sa validité peut être remise en question si l’on considère les
nombreuses interactions entre gènes et produits de gènes gouvernées par d’autres processus
biologiques que l’action des facteurs de transcription (Brazhnik et al. 2002).
Dans le but de maximiser la généralité des résultats obtenus, nous choisissons de
réduire autant que possible le nombre d’hypothèses ou de connaissances a priori intégrées aux
modèles développés mais d’identifier les solutions, optimales au sens des critères qui seront
choisis, au problème de la régulation génique de la drosophile.
En 1999, Chen et al. ont proposé un modèle basé sur un système d’équations
différentielles linéaires à coefficients constants décrivant l’évolution des concentrations à la
fois des ARNm et des protéines du système biologique étudié, comme l’ont fait, entre autres,
Thomas et al. (2004) et Sontag et al. (2004). Toutefois, si des technologies équivalentes aux
puces à ADN ont également été développées pour mesurer la concentration en protéines, le
coût de ces technologies reste élevé et l’exploitation de ces données en plus de celles des
puces à ADN rendrait la dimension du problème démesurée. Aussi, dans l’étude de la
régulation de l’expression des gènes, on fait couramment l’hypothèse d’un réseau de
régulation simplifié dans lequel les ARNm et les protéines sont confondus en une unique
entité. On quantifie cette variable par le niveau d’expression du gène et on étudie les
interactions directement d’un gène à l’autre (Gebert et al. 2006). Il est à noter que cette
hypothèse implique l’intégration d’une série de processus biologiques impliqués dans la
régulation de l’expression des gènes, tels que la transcription, le transport et la traduction des
molécules d’ARNm, les modifications post-traductionnelles, la dégradation des ARNm, etc.
Dans cette optique, on choisit d’utiliser des systèmes d’équations différentielles pour
modéliser les profils d’expression des 4005 gènes de la drosophile, classifiés de manière à ce
que les gènes présentant des profils d’expression similaires soient regroupés, selon les
algorithmes et distances décrits au chapitre IV. Dans un premier temps, on utilise une version
simplifiée du modèle de Chen et al. (1999) dans laquelle on ne différentie pas les ARNm des
protéines. Cette étude est décrite au point 2 de ce chapitre. Dans un second temps, cette
analyse sera étendue au cas non linéaire. Cette approche est décrite au point 3 de ce chapitre.
Enfin, notons que dans ce travail, les réseaux de régulation sont étudiés au niveau de
leurs performances en termes de reproduction de données, de robustesse aux perturbations
paramétriques et de stabilité des profils estimés et du nombre de connexions qu’ils
contiennent plutôt que sur leurs structures à proprement parler. Ainsi, les caractéristiques
structurelles telles que les boucles de rétroaction, dont la présence et l’utilité ont été mises en
évidence dans les réseaux de régulation génique (Demongeot et al. 2000, Thomas et al. 1995),
bien qu’observées dans nos résultats, ne seront pas étudiées davantage.
63
Chapitre V : Modélisation de réseaux de régulation
2. APPROCHE LINEAIRE
2.1. Méthodes
2.1.1. Données étudiées
Dans cette étude, on choisit de modéliser les profils temporels de niveaux d’expression
de la drosophile en considérant la série temporelle complète (l=67 points de mesure pendant
40 jours). Afin de réduire le bruit de mesure inhérent à la technologie des puces à ADN, les
h=4005 profils temporels de niveaux d’expression de la drosophile yg (g=1,…,h), définis en
(I.8) comme le logarithme en base 2 d’un rapport de concentration en ARNm, sont tout
d’abord soumis à un filtrage en moyennes mobiles (équations IV.1). On note F ( ) g ky (g=1,…,h) les profils d’expression filtrés :
F
F 1 1 11 12 4 4
( ) ( ) pour 1,
( ) ( ) ( ) ( ) pour 1
g k g k
g k g k g k g k
y y k
y y y y k
l
l (V.1)
2.1.2. Classification des données
Les profils filtrés F ( ) g ky sont ensuite classifiés par la méthode de classification
Smoothing Spline Clustering (Ma et al. 2006) (voir chapitre IV, section 2.1). Les profils
d’expression moyens (c kx ) (c=1,…,n) des n=17 classes ainsi formées sont définis comme
les moyennes arithmétiques des profils d’expression filtrés F ( ) g ky des hc gènes de chaque
classe c et la disparité ( ) c k des données dans chaque classe comme l’écart-type entre ces
profils d’expression et la courbe moyenne ( ) c kx correspondante (équations IV.4) :
F
2F
1( ) ( )
[1, ], [1, ], 1
( ) ( ) ( )
c k g kg cc
c k g k c kg cc
x yh
c n k l
y xh
(V.2)
où hc est le nombre de gènes dans la classe c. Cette grandeur sera exploitée dans l’estimation
paramétrique du modèle, à la section 2.1.4.
2.1.3. Structure de modèle
Le premier modèle étudié dans ce travail est le système d’équations différentielles le
plus simple possible, c’est-a-dire linéaire, autonome et à coefficients constants. Dans ce type
de modèle, l’évolution temporelle du niveau d’expression de la classe de gène c ne dépend
que des niveaux d’expression xc de toutes les classes de gènes c (c=1,…,n) où n=17 est le
64
Chapitre V : Modélisation de réseaux de régulation
nombre de classes de gènes. En définissant le vecteur 1 2( , ,..., )Tnx x xx et en notant t le temps
réel continu, ce système d’équations s’écrit :
d ( )
( )d
tt
t
xM x (V.3)
où M est une matrice n x n de coefficients constants qu’il nous faudra estimer.
Le choix d’un système d’équations linéaires, plutôt qu’un modèle comprenant
explicitement des paramètres cinétiques d’activation et d’inhibition, est motivé par 2
considérations. Premièrement, on cherche ici à modéliser un système dans lequel d’autres
molécules que les facteurs de transcription peuvent jouer un rôle important, même indirect,
dans la régulation génique. Deuxièmement, ce modèle est ici appliqué à des profils
d’expression relatifs à des classes de gènes plutôt qu’à des gènes individuels. Par conséquent,
les processus de régulation impliqués sont ici moyennés pour chaque classe de gènes et les
paramètres du modèle représentent l’effet global de différents effets. Ils ne permettent donc
pas une simple interprétation biophysique. Ainsi, dans l’équation (V.3), le paramètre Mij de la
matrice M représente l’effet global du niveau d’expression de la classe de gènes j sur
l’évolution temporelle du niveau d’expression de la classe de gènes i. Dès lors, nous
proposons d’étudier la modélisation de l’ensemble des processus impliqués dans le système
étudié en nous détachant tout d’abord d’une formulation cinétique classique pour proposer
une représentation aussi simple que possible de l’effet produit par cet ensemble de processus,
i.e. un modèle linéaire. L’analyse des résultats permettra d’établir les performances et les
limites d’un tel modèle pour le problème posé. Par la suite, des structures non linéaires seront
étudiées (voir section 3).
Le problème revient donc à estimer les n² éléments de la matrice M de manière à
reproduire les n profils expérimentaux moyens filtrés xc(τk), où les 67 instants de mesure τk
sont distribués de manière non uniforme dans le temps de mesure. Cette estimation
paramétrique est effectuée en deux étapes : une première étape d’estimation paramétrique linéaire qui mène analytiquement à une solution pour les dérivées temporelles de c kx ,
laquelle est utilisée comme valeur initiale pour la seconde étape d’optimisation paramétrique
(non linéaire), résolue numériquement.
2.1.4. Estimation paramétrique
a) Estimation paramétrique linéaire
Pour estimer les n² éléments de M, on propose d’exploiter les propriétés inhérentes à
la linéarité du problème. Ainsi, on constate qu’une estimation des dérivées temporelles de x
permet de résoudre analytiquement l’équation (V.3). Pour cela, on applique une méthode
d’interpolation en « splines » cubiques (voir définition au chapitre IV, section 2.1) des profils
expérimentaux, à l’aide de la routine csaps du programme Matlab. Comme l’estimation de ces
65
Chapitre V : Modélisation de réseaux de régulation
dérivées temporelles aux instants initial et final τ1 et τl sont moins fiables, on supprime ces
deux points pour tous les calculs ultérieurs. La résolution de l’équation (V.3) est réalisée en
utilisant la routine mrdivide de Matlab sur les mesures aux l=65 instants restants. Cette
estimation paramétrique, dite « au sens des moindres carrés », correspond à la valeur
minimum de la norme 2 des écarts entre les dérivées temporelles de x estimées par
interpolation et par le modèle M x :
21
LS
2 2
d ( )ˆ ( )d
lk
kk
ArgMint
M
xM M
x (V.4)
Comme cette estimation utilise des algorithmes numériques, elle dépend notamment
de la fréquence d’échantillonnage des données qui est largement plus élevée dans le stade
embryonnaire (1 mesure toutes les 30 minutes) que dans le stade adulte (1 mesure tous les 3
jours). En interpolant les niveaux d’expression et de leurs dérivées temporelles sur toute la
série temporelle en conservant la fréquence de mesure du stade embryonnaire (ce qui donne
lieu à 1920 points de mesure au lieu de 65 sur toute la série temporelle), il a été constaté que
l’estimation paramétrique de M donne de meilleurs résultats, en termes d’écarts entre les
profils interpolés et estimés des dérivées temporelles des profils d’expression. Notons que
dans ce cas, un poids plus important est attribué aux mesures du stade adulte car celles-ci
s’étalent sur ¾ de la période de mesure alors que ces mesures sont au départ les moins
nombreuses. Dès lors, une perspective intéressante serait de pondérer ces mesures artificielles
de manière à soit mettre tous les stades sur un pied d’égalité, soit respecter la proportion des
points de mesures, soit respecter la quantité d’information apportée par les mesures dans
chaque stade. Notons que tous les calculs ultérieurs à cette estimation sont faits en ne
considérant que les 65 points de mesures réels.
Pour évaluer la validité de cette estimation paramétrique linéaire, les profils estimés LSˆ ( )kx (k=1,...,l) sont générés en intégrant les équations (V.3) avec la matrice et les
conditions initiales expérimentales x(τ1). Cette intégration est réalisée à l’aide d’un algorithme
classique de Runge-Kutta (Forsythe et al. 1977) (routine ode45 de Matlab). On définit ensuite
une fonction de coût qui quantifie la qualité de reproduction des profils expérimentaux par un profil estimé . Cette fonction, notée , correspond à l’écart quadratique moyen entre les
profils estimé et expérimental, pondéré par l’inverse de la variance des données
LSM̂
x̂ ˆ( )S x2( )c k ,
définie aux équations (V.2).
21
21 1
ˆ( ) ( )1ˆ( )
( )
n lc k c k
c k c k
x xS
nl
x (V.5)
La pondération par 2( )c k dans permet d’affecter un poids plus important aux termes
de la fonction de coût relatifs aux points expérimentaux présentant une faible disparité des
ˆ( )S x
66
Chapitre V : Modélisation de réseaux de régulation
données. De ce fait, on privilégie les solutions pour lesquelles le modèle reproduit mieux les
données associées à un intervalle de confiance plus étroit.
b) Optimisation paramétrique non linéaire
L’estimation paramétrique linéaire se base sur l’estimation des dérivées temporelles
des niveaux d’expression faite par la fonction de lissage csaps de Matlab et non sur les
valeurs exactes de celles-ci. Les valeurs des paramètres sont donc nécessairement entachées
d’une certaine erreur due à cette estimation.
Dès lors, on propose d’effectuer une optimisation non linéaire des paramètres, de
façon à corriger l’écart dû à l’erreur d’estimation des dérivées temporelles des courbes
expérimentales. Plus précisément on recherche une nouvelle matrice et de nouvelles
conditions initiales
OptM̂Opt
1ˆ ( )x qui minimisent la fonction de coût , telle qu’elle est
définie à l’équation (V.5). Cette recherche locale est initialisée aux valeurs et
Optˆ( )xSLSM̂ 1( )x et
réalisée par un algorithme de simplexe (Lagarias et al.1998) implémenté dans la routine
fminsearch de Matlab.
L’inconvénient de cette méthode est, comme dans toute optimisation numérique, le
risque que la recherche se termine prématurément, piégée dans un minimum local de la
fonction de coût choisie. Toutefois, étant donné que la recherche est initialisée à la solution de
l’estimation paramétrique linéaire, on peut espérer qu’elle aboutira à une solution proche du
minimum global de la fonction de coût.
2.1.5. Réduction paramétrique
La matrice traduit les influences mutuelles entre les classes de gènes. A ce stade,
elle correspond à un réseau de régulation de l’expression des gènes hautement, voire
totalement, connecté. Cependant, il est possible que d’autres ensembles de paramètres, plus
réduits, c’est-à-dire contenant des éléments nuls, puissent modéliser aussi bien les profils
d’expression. Pour trouver de tels ensembles de paramètres, on effectue une réduction
paramétrique du modèle, de manière à identifier les connections entre classes qui sont
nécessaires pour conserver une bonne modélisation des profils d’expression. On suppose alors
que ces connexions sont les plus plausibles biologiquement.
OptM̂
On propose 2 procédures (A et B) et 2 critères d’arrêt (1 et 2) pour déterminer les
éléments de M qui pourraient être annulés. Les deux procédures se basent sur l’estimation des
moindres carrés et tentent de maintenir à une valeur aussi faible que possible. Bien
que l’estimation des moindres carrés offre des solutions qui ne sont optimales que pour la
reproduction des dérivées temporelles des profils d’expression, elle offre l’avantage d’être
analytique et rapide comparée à l’estimation paramétrique non linéaire. C’est pourquoi seule
celle-ci est considérée pour déterminer les paramètres à éliminer.
LSˆ(S x )
67
Chapitre V : Modélisation de réseaux de régulation
La procédure A est itérative et trace une trajectoire unique dans l’ordre des paramètres
à éliminer. A chaque itération, le paramètre qui, une fois éliminé, mène au plus petit
est définitivement annulé. Lorsque le critère d’arrêt choisi est atteint, une optimisation non
linéaire finale est effectuée et est calculé. En notant N le nombre de paramètres
éliminés du modèle, le premier critère d’arrêt est choisi comme la valeur N =N* à laquelle on
observe une augmentation brusque et importante de et au-delà de laquelle la bonne
reproduction des profils expérimentaux n’est plus assurée. Comme on le verra dans les
résultats, à la Figure V.2, cette valeur est identifiée en N*=227. L’ensemble de paramètres
correspondant à cette solution est noté .
LSˆ( )S x
Optˆ(S x
M̂
)
)
)
Optˆ(S x
NA
La procédure B est similaire à la procédure A mais possède une composante aléatoire :
le choix du paramètre à éliminer n’est plus systématique mais résulte d’une sélection aléatoire
parmi les paramètres qui, une fois éliminés, mènent à une valeur de qui n’excède pas
110% de la valeur minimum de l’itération. Cette procédure est exécutée 50 fois, avec le même
critère d’arrêt que pour la procédure A, i.e. N=227, et on note (i=1,…,50) le ième
ensemble réduit de paramètres obtenu de cette façon.
LSˆ(S x
B, iˆNM
Les 2 procédures sont également exécutées avec un second critère d’arrêt, défini par
une condition sur les profils d’expression modélisés. Pour chaque classe de gènes c, on définit
un intervalle de confiance, dont la largeur vaut le double de l’écart-type des données, autour du profil moyen : ( ) 2 ( )c k c kx . La réduction paramétrique est alors poursuivie jusqu’à ce
qu’un profil d’expression modélisé Optˆ ( )kx (k=1,...,l) sorte de cet intervalle. On note 2ˆ
AM
l’ensemble de paramètres correspondant. Ensuite, la procédure B est exécutée 50 fois avec ce
même critère d’arrêt et on note B,2
ˆ iM (i=1,…,50) les ensembles de paramètres obtenus.
Enfin, la qualité des 102 matrices réduites ainsi obtenues est évaluée en termes des
valeurs de N et . Une sélection est alors effectuée pour conserver uniquement les
meilleures solutions : celles présentant un nombre de paramètres éliminés supérieur à une
valeur seuil, déterminée après examen des résultats, et une valeur de des profils
d’expression inférieure à une valeur seuil, également déterminée après examen des résultats.
Ces solutions optimales, notées
M̂Optˆ(S x )
)Optˆ(S x
ˆ M sont alors comparées entre elles et analysées en détail.
2.1.6. Etude de robustesse
Outre la bonne reproduction des profils expérimentaux, on souhaite également évaluer
à quel point le modèle développé est robuste aux perturbations de ses paramètres. En effet, un
modèle de réseau de régulation génique dans lequel une légère perturbation d’une de ses
connections, i.e. d’interactions entre gènes et produits de gènes, mènerait à des profils
d’expression estimés totalement différents, voire présentant des comportements divergents,
n’est pas plausible biologiquement (Perumal et al. 2008). De la même manière, une petite
variation de niveaux d’expression de gènes, attribuable notamment à la nature stochastique
68
Chapitre V : Modélisation de réseaux de régulation
des phénomènes moléculaires impliqués dans le processus de régulation, ne devrait pas
affecter les profils estimés de manière drastique. Certes, on sait que les modèles linéaires sont
susceptibles de présenter des comportements divergents après une telle perturbation, mais la
question est ici de savoir si ceux-ci surviennent suite à des perturbations biologiquement
plausibles et dans un intervalle de temps raisonnable, i.e. pendant la période de vie de
l’organisme étudié. Pour cela, les paramètres estimés de la matrice M et les conditions
initiales estimées sont perturbées, individuellement et collectivement, et les profils perturbés
sont comparés aux profils estimés initiaux. Cette analyse est également réalisée pendant la
procédure A de réduction paramétrique décrite ci-avant, pour chaque valeur prise par N, de
manière à évaluer l’effet de la connectivité du réseau sur sa robustesse aux perturbations
paramétriques.
a) Robustesse aux perturbations des paramètres de régulation
La robustesse des réseaux de régulation avant et après réduction paramétrique, définis
par les matrices , est évaluée suite à des perturbations individuelles (P1) et collectives
(PAll) de faible amplitude (1-10%).
OptˆNM
Dans le premier cas, les éléments de OptˆNM
1ˆ P pNx
sont modifiés un à la fois en leur ajoutant
ou soustrayant un pourcentage de leur valeur absolue. Ces perturbations sont fixées à P1=±1%
et ensuite à P1=±5%. Les profils d’expression estimés avec des paramètres perturbés
sont alors générés. Ensuite, pour chaque perturbation P1 = p d’un paramètre Mcd, on identifie la perturbation P* pour laquelle l’écart maximum entre les profils perturbé
( )t
1ˆ ( )P pkN x et initial
Optˆ ( )kx est observé. On calcule alors la fonction de coût 1ˆ( )P pNS x
ˆ[ (
qui leur est associée.
Finalement, les valeurs minimum ( ) et maximum (1ˆ[ ( NMin S x )]P p 1 )]P pNMax S x ) de ces fonctions,
obtenues en comparant les perturbations de chaque élément de Mcd sont examinées pour
interprétation.
Dans le second type de perturbation, tous les paramètres Mcd du réseau sont perturbés
en même temps. Pour cela, on ajoute à chaque paramètre Mcd un pourcentage aléatoire (et
différent pour chaque paramètre) de sa valeur. Ces pourcentages, de distribution normale de
moyenne nulle, sont compris dans l’intervalle [-p, +p], avec p=1% puis p=10%. Les profils d’expression perturbés et les fonctions ˆ ( )AllP p
N tx ˆ( All )P pNS x relatives à ces profils sont ensuite
calculés. Cette procédure est répétée 50 fois pour différentes perturbations aléatoires et la
moyenne et l’écart-type de ˆ( All )P pNS x sont retenues. Etant donné que le scores sont
toujours positifs et ne suivent par conséquent pas une distribution normale, on définit un
écart-type à gauche σL et un écart-type à droite σR, défini en ne considérant, respectivement,
que les score inférieurs (σL) ou supérieurs (σR) à la moyenne de
ˆ( )S x
ˆ( )AllP pNS x .
69
Chapitre V : Modélisation de réseaux de régulation
b) Robustesse aux perturbations des conditions initiales
Enfin, un autre type de perturbation envisagé est la modification des conditions
initiales Opt1ˆ ( )N x , plutôt que les paramètres de . Dans ce dernier cas, on évalue l’effet de
perturbations individuelles et collectives, notées Pin1 et PinAll , définies exactement de la même
manière que P1 et PAll.
OptˆNM
2.1.7. Etude de stabilité
Enfin, on extrapole les profils estimés au-delà de la période de temps de mesure de
manière à constater si des comportements divergents apparaissent. Dans les données
d’Arbeitman et al. 2002, le denier point de mesure correspond au 40e jour de la vie des
drosophiles, i.e. τl = 40 jours. La période d’extrapolation ]τl,τlife] après la période de mesure
[τ1,τl] est choisie de manière à couvrir la durée de vie τlife de l’organisme. Il est à noter que les
drosophiles de laboratoire ont une durée de vie moyenne dépendant, notamment, de la
température de l’environnement dans lequel elles se développent (Lamb 1968). Plusieurs
études (Bonilla et al. 2002 ; Troen et al. 2010) ont permis de mesurer une durée de vie
moyenne de l’ordre de 60-65 jours et une durée de vie maximum de l’ordre 80-85 jours, sous
les mêmes conditions d’environnement mais en soumettant les drosophiles à un régime
particulier. En supposant que le système de régulation de l’expression des gènes a fonctionné
pendant la durée de vie de l’organisme, on décide de fixer τlife à 80 jours et d’évaluer l’état
des variables du modèle développé en extrapolant la période de temps jusqu’à cette limite
maximum.
2.2. Résultats et discussion
2.2.1. Estimation paramétrique
L’estimation linéaire des paramètres du modèle (V.3) mène, pour la fonction de coût
choisie, à une valeur de . Cette faible valeur témoigne de la qualité de cette
première estimation. Après optimisation non linéaire des paramètres cette valeur décroît à
=0,16. Les profils expérimentaux
LSˆ( ) 0.2S x 7
)Optˆ(S x ( )kx et modélisés LSˆ ( )kx et Optˆ ( )kx sont
représentés à la Figure V.1 pour la classe de gènes 3. Les profils des autres classes de gènes se
trouvent en annexe A.12. Signalons que pour des raisons de clarté, ces profils sont représentés
en fonction des instants de mesure τk plutôt que du temps t réel continu.
On constate que les profils LSˆ ( )kx obtenus par l’indentification paramétrique linéaire
reproduisent parfaitement les profils expérimentaux dans la première partie de la série, proche
des conditions initiales. Toutefois, la déviation entre ces profils estimés et les données
augmente légèrement avec le temps. Elle reste cependant très petite pour la plupart des classes
de gènes. Pour rappel, cette déviation est attribuée à l’estimation des dérivées temporelles de
x qui s’avère moins bonne dans une région de la série temporelle ou les données sont éparses.
70
Chapitre V : Modélisation de réseaux de régulation
En effet, les délais entre les points de mesure sont de plusieurs jours dans le stage adulte, alors
qu’ils ne sont que de 30 minutes dans le stage embryonnaire. Par ailleurs, les profils
d’expression sont quasiment constants dans le stade adulte. Les dérivées temporelles de ces
profils sont donc nettement plus petites que dans les autres stades. Enfin, ces profils étant
obtenus par intégration des équations différentielles (V.3) à partir du premier point de mesure,
il est normal que la déviation entre le profil estimé et les mesures augmente avec la période
d’intégration. On observe finalement sur cette même figure que les profils Optˆ ( )kx
)
reproduisent les profils expérimentaux encore mieux que ne le font les profils LSˆ ( kx .
Figure V.1 : Profils d’expression expérimentaux et modélisés de la drosophile en fonction des points de mesure τk. Points: Points expérimentaux filtrés ( )c kx ; ligne
pleine: version continue et lissée de ( )c kx utilisée pour l’estimation des dérivées
temporelles; ligne en traits-points: profil LSˆ ( )c kx modélisé par l’estimation
paramétrique linéaire; ligne en pointillés : profil Optˆ (cx )k modélisé par l’estimation
paramétrique linéaire. Les lignes verticales grises délimitent les stades de développement de la drosophile : embryon (E), larve (L), pupe (P) et adulte (A).
Finalement, on calcule la variation relative ΔM des paramètres avant et après
l’optimisation non linéaire : Opt LS
LS
ˆ ˆ
ˆij ij
ijij
M M
M
M (V.6)
Ces variations vont de 0 à 7,5%, avec une moyenne de 0,3% Ces valeurs témoignent
de la haute sensibilité du modèle, où des variations faibles mais spécifiques des paramètres
induisent une amélioration de la reproduction des données expérimentales.
71
Chapitre V : Modélisation de réseaux de régulation
2.2.2. Réduction paramétrique
La Figure V.2 représente l’évolution de et au cours de la procédure A
de réduction paramétrique. On constate que la valeur de reste relativement constante
ou augmente légèrement jusqu’à ce que N atteigne 227. A ce stade de réduction, =
0,44 et il reste 62 paramètres, ce qui correspond à une moyenne de 3,65 connexions par
classe. Toute réduction paramétrique supplémentaire induit un saut de . La réduction
jusqu'à ce point, N=N*=227 est choisie comme premier critère d’arrêt pour les 50 exécutions
de la procédure B.
LSˆ(S x ) )
)
)
Optˆ(S xOptˆ( )S x
Optˆ(S x
Optˆ(S x
Figure V.2 : Evolution de (ligne discontinue) et (ligne continue) en LSˆ(S x ) )Optˆ(S x
fonction de N, le nombre de paramètres éliminés, en utilisant la procédure A et une optimisation paramétrique non linéaire à chaque itération.
Les 2 procédures sont ensuite exécutées avec le second critère d’arrêt, défini par une
condition sur les profils d’expression modélisés. Avec la procédure A, ce critère d’arrêt est
atteint lorsque N=212 et = 0,38. Une sélection est alors effectuée parmi les 102
matrices ainsi identifiées pour conserver uniquement les meilleures solutions : celles
présentant un nombre suffisant de paramètres éliminés et une modélisation satisfaisante des
profils d’expression, i.e. N ≥ 227 et ≤ 0.44, ce qui correspond aux valeurs de N et
pour . 35 matrices au total sont ainsi sélectionnées. Leurs valeurs de N et
sont représentées à la Figure V.3. On constate tout d’abord une certaine diversité dans les
solutions en ce sens que pour un nombre donné de paramètres N, la valeur de la fonction de
coût peut varier de manière significative et que, inversement, pour une valeur donnée de la
fonction de coût, différents niveaux de réductions peuvent être atteints. Ensuite, on constate
que les meilleures solutions sont obtenues avec la procédure B. En effet, les solutions
optimales au sens de l’estimation des moindres carrés ne correspondent pas forcément aux
solutions optimales au sens de l’optimisation non linéaire. Par exemple, avec N=227
paramètres éliminés avec le critère d’arrêt 1, une des exécutions de la procédure B atteint une
valeur de = 0,33, ce qui inférieur à la valeur de 0,44 obtenue avec la procédure A.
Cette solution est entourée par une ligne discontinue sur la Figure V.3.
Optˆ(S x )
)
)
)
Optˆ(S xOptˆ(S x ˆ
NAM
Optˆ(x
Optˆ( )S x
S
72
Chapitre V : Modélisation de réseaux de régulation
Figure V.3. Evolution du score en fonction du nombre N de paramètres Optˆ(S x )
éliminés, pour les 35 matrices réduites ˆ M . Les matrices ˆ M sont issues des deux procédures de réduction et des deux critères d’arrêt, pour lesquelles N≥227 et ≤0.44. Petit cercle :Optˆ(S x ) ˆ
NAM ; points: ,ˆ B i
NM ; croix : ,2
ˆ B iM . Les deux grands cercles
discontinus indiquent deux solutions décrites dans le texte.
Par ailleurs, le plus haut niveau de réduction est atteint pour N=247, ce qui correspond à une
moyenne de 2,47 connexions par classe de gènes. Cette solution est obtenue par la procédure
B et le critère d’arrêt 2 et présente une valeur de = 0,43. Cette solution est également
entourée par une ligne discontinue sur la Figure V.3. Les profils d’expression modélisés
correspondant à ces 2 solutions sont représentés à la Figure V.4 pour la classe de gènes 3 et en
annexe A.13 pour les autres classes.
Optˆ(S x )
Figure V.4 : Profils d’expression expérimental et modélisés, avant et après réduction paramétrique, en fonction des points de mesure τk. Lignes continues : profil filtré et lissé ( )c kx et intervalle de confiance ( ) 2 ( )c k c kx ; ligne fine en
traits-points : profil modélisé Optˆ ( )c kx ; ligne épaisse en traits-points : profil modélisé Optˆ ( )c kx après réduction paramétrique avec N = 247 et = 0.43; ligne discontinue Optˆ( )S x
: profil modélisé xOpt( )c kˆ après réduction paramétrique avec N =227 et =0.33. Les Opt( ˆS x )
lignes verticales grises délimitent les stades de développement de la drosophile : embryon (E), larve (L), pupe (P) et adulte (A).
73
Chapitre V : Modélisation de réseaux de régulation
On observe que, bien que le soit plus grand qu’avant la réduction
paramétrique, les profils d’expression modélisés après réduction paramétrique reproduisent
relativement bien les tendances globales des profils expérimentaux. On peut donc en conclure
que 2 à 4 connexions par classe de gène, en moyenne, suffisent à représenter le réseau de
régulation de l’expression des gènes de la drosophile.
Optˆ(S x )
)
)
Enfin, notons que la sensibilité de la matrice M décroît avec le processus de réduction
paramétrique. En particulier la variation relative des paramètres lors de l’optimisation non
linéaire s’étend de 0 à 306%, avec une moyenne de 17%, pour la solution caractérisée par
N=227 et =0.33, et de 0 à 145%, avec une moyenne de 12%, pour la solution
caractérisée par N=247 and =0.43. Pour rappel, ces variations s’étendaient 0 à 7,5%,
avec une valeur moyenne de 0,3%, pour la solution non réduite.
Optˆ(S xOptˆ(S x
2.2.3. Interprétation des solutions obtenues
Finalement, on compare les 35 matrices réduites sélectionnées, notées ˆ M , pour en
souligner les similarités. On définit pour cela la matrice nxn C telle que :
35
1
ˆsgn( )cd cdC
M (V.7)
où c et d sont des indices matriciels. La matrice C contient un résumé des similarités entre les
matrices ˆ M : plus souvent un élément Ccd présente une valeur absolue élevée (avec un
maximum de 35), plus la connexion entre les classes c et d est conservée après réduction
paramétrique, et plus l’élément correspondant Ccd a une haute valeur absolue. Par ailleurs, le
signe des éléments Ccd traduit l’effet principal des interactions entre les classes c et d. Ainsi, si
un élément Ccd a une valeur positive (négative), plus les gènes de la classe d ont un effet
activateur (répresseur) sur la transcription des gènes de la classe c. La matrice C est
représentée à la Figure V.5a.
Enfin, pour analyser si certains des paramètres sont éliminés ou maintenus dans la
plupart des schémas de réductions, on se focalise sur les éléments qui ont systématiquement le
même signe dans au moins 80% des matrices ˆ M (i.e. aux éléments Ccd ≤-28 ou Ccd ≥28). On
observe que 15 éléments sont conservés dans la matrice résultant de cette opération, notée
Ccutoff. Ceux-ci correspondent à des connexions nécessaires entre classes de gènes, dont l’effet
activateur ou répresseur est net. Le réseau de régulation correspondant à la matrice Ccutoff est
représenté à la Figure V.5b, et, sous la forme d’un graphe dirigé, à la Figure V.6. Pour rappel,
les fonctions et processus assignés à chaque classe ont été obtenus par Ma et al. (2006) à
l’aide de leur programme GeneMerge qui évalue pour chaque classe si une surreprésentation
est observée dans les ontologies des gènes présents dans la classe.
74
Chapitre V : Modélisation de réseaux de régulation
a b
Figure V.5 Représentations de la matrice C. (a) : Les carrés les plus rouges (bleus) signalent que la connexion correspondante a une action d’activation (répression) dans au moins 80% des 35 matrices ˆ M .; (b) : La matrice Ccutoff contenant les éléments de Ccd -28 ou ≥ 28; les carrés blancs signalent que la connexion correspondante est supprimée dans au moins 80% des 35 matrices ˆ M . les carrés verts signalent que la connexion correspondante est conservée dans plus de 20% des cas que son signe est mal défini, i.e. |Ccd| < 28.
On constate que 3 classes de gènes (3, 7 et 14) présentent un élément non nul sur la
diagonale de la matrice Ccutoff et que ces 3 éléments sont négatifs. Rappelons que les profils
d’expression que l’on cherche à modéliser ici sont exprimés en termes de niveaux
d’expression, c’est-à-dire en logarithmes du rapport de la concentration en ARNm sur une
valeur de référence. Ainsi, l’effet d’auto-répression observé dans ces 3 classes de gènes
traduit, dans l’espace des logarithmes, un effet d’autorégulation qui s’efforcera d’amener les
niveaux d’expression à une valeur constante. Les fonctions associées à ces classes de gènes,
qui correspondent aux ontologies les plus souvent partagées par les protéines à l’intérieur de
ces classes, sont respectivement la dérivation de l’énergie, le développement et la
communication cellulaire, et la perception visuelle (voir chapitre IV section 3.1).
On observe également que 199 paramètres sur les 17²=289 sont éliminés dans plus de
80% des réductions paramétriques, ce qui correspond à 69% du nombre total de paramètres.
En y ajoutant les 15 connexions de la matrice Ccutoff, 214 connexions sont bien définies ; elles
représentent soit une répression, soit une activation, soit une absence de connexion. Seules 75
connexions demeurent mal définies, soit parce que le bruit expérimental est trop important,
soit parce que certaines classes de gènes ont mal été définies, soit encore parce que la
différentiation spatiale entre les cellules ne peut être négligée pour certains gènes.
En outre, on constate que la moitié des éléments non nuls de Ccutoff correspondent à
des connexions avec la classe 3 qui contient une majorité de gènes impliqués dans des
processus cellulaires énergétiques. Il n’est en effet pas étonnant que la classe de gènes avec
cette fonction centrale soit connectée à beaucoup d’autres. La classe 13, dont les principales
fonctions sont la transmission synaptique et le développement du mésoderme, est également
bien connectée au réseau de régulation.
75
Chapitre V : Modélisation de réseaux de régulation
Figure V.6 : Réseau de régulation génique de la drosophile, avec les connexions qui sont conservées dans au moins 80% des réductions paramétriques. La valeur moyenne des éléments de M et leur écart-type sont indiqués pour chaque connexion. Les fonctions les plus représentées dans chaque classe (“cluster”) sont également indiquées ; si aucune fonction n’est indiquée, la classe ne contient pas de fonction suffisamment représentée.
Notons finalement qu’une connexion entre deux classes de gènes n’implique pas que
tous les gènes d’une classe interagissent avec tous les gènes de l’autre classe. Il est probable
que certains gènes d’une classe, comme par exemple un gène codant pour un facteur de
transcription et les protéines qui interagissent avec lui, interagissent avec les gènes que le
facteur de transcription régule, présents dans une autre classe.
Par ailleurs, une classe de gènes peut contenir plusieurs groupes distincts de gènes co-
régulés, indépendants les uns des autres mais présentant globalement les mêmes dépendances
temporelles. Toutefois, cette information ne peut être déduite des données issues de puces à
ADN utilisées sans l’apport d’autres connaissances issues d’autres types d’expériences. En
résumé, la Figure V.6 peut être vue comme un réseau de régulation à un niveau global,
complémentaire aux graphes habituels reliant les gènes qui interagissent entre eux pendant le
processus de régulation génique (Margolin et al. 2006). Dans ce réseau, les gènes co-régulés
sont généralement regroupés dans les mêmes classes et les liens entre classes correspondent
aux interactions dynamiques entre certains gènes de différentes classes.
76
Chapitre V : Modélisation de réseaux de régulation
2.2.4. Etude de robustesse
Les solutions réduites obtenues par la procédure A ont été ensuite soumises aux
perturbations paramétriques décrites à la section 2.1.6.
a) Robustesse aux perturbations des paramètres de régulation
Perturbations individuelles
L’évolution des scores avant et après perturbation individuelle des paramètres de M, i.e. et avec p = ±1% et p = ±5% est représentée à la Figure V.7 en fonction du
nombre N de paramètres éliminés. On y observe, pour chaque valeur de N, les valeurs minimale (
OptNˆ(S x ) )1P =p
Nˆ(S x
1ˆ[ ( )]P pNn S xMi ) et maximale ( 1ˆ[ ( )]P p
NMax S x ) des scores obtenus en perturbant chaque
paramètre individuellement (voir section 2.1.6). Par soucis de lisibilité, l’évolution de ces
scores est représentée en échelle logarithmique.
a b
Figure V.7: Log10 des scores S avant et après les perturbations individuelles en fonction du nombre N de paramètres éliminés. La ligne verticale grise indique la réduction optimale N=227. Ligne bleue en pointillés : log10 du score avant Opt
Nˆ(S x )
perturbation ; ligne verte discontinue et ligne rouge continue : log10 des scores 1P =p
Nˆ[ ( )]Min S x et , respectivement. (a) P1=±1% ; (b) P1 =± 5%. in1P =pˆ[ ( )]NMax S x
Dans cette figure, la courbe discontinue verte est confondue avec la courbe bleue en
pointillés. Cela signifie que, quel que soit le nombre de paramètres dans le réseau de
régulation, il y a toujours au moins un paramètre dont la perturbation ne modifie pas le score
moyen. En revanche, on remarque que, pour N<215 (c’est-à-dire jusqu’à ce que 74% des
paramètres soient fixés à zéro), le modèle est toujours extrêmement sensible à la perturbation
d’au moins un paramètre. Le modèle reste sensible jusqu’à N=241 (lorsque 83% des
paramètres sont éliminés) pour les perturbations à ±5%.
En conséquence, on constate que le modèle linéaire est toujours robuste aux
perturbations de certains paramètres mais ne devient réellement robuste à toutes les
perturbations paramétriques individuelles que lorsque le réseau est réduit à environs 3
77
Chapitre V : Modélisation de réseaux de régulation
connexions par classe de gène en moyenne. Toutefois, à ce niveau, la reproduction des
données devient insuffisante.
Perturbations collectives
Le comportement du score en fonction de N lorsque tous les paramètres sont
perturbés en même temps est représenté à la Figure V.8 pour p=1% or p=10%. On y retrouve l’évolution de la valeur moyenne < > des scores obtenus pour 50 perturbations
aléatoires ainsi que l’intervalle de confiance [< >-σL, >+σR], définis à la
section 2.2.6.
Optˆ(S x
ˆ NS x
)
)
) )
( AllP p
ˆ( AllP pNS x ˆ( AllP p
NS x
a b Figure V.8 : Log10 des scores S avant et après les perturbations collectives en fonction du nombre N de paramètres éliminés. La ligne verticale grise indique la réduction optimale N=227. Ligne bleue en pointillés : log10 du score avant Opt
Nˆ(S x )
perturbation ; ligne noire discontinue : log10 du score moyen pour les 50 perturbations aléatoires ; ligne verte en étoiles et ligne rouge continue : log10 des scores
1Lˆ( )P p
NS x et 1Rˆ( )P p
NS x , respectivement. (a) PAll=1%; (b) PAll=10% .
La première observation faite dans la partie gauche de la Figure V.8b est que, lorsque le
modèle contiens plus de 74 paramètres (N<215), les scores après perturbation sont supérieurs
à celui avant perturbation de plusieurs ordres de grandeur. En effet, ces scores sont en
moyenne de 1060 et 0.5, respectivement. Cela implique que, dans cette région de N, le modèle
linéaire étudié est extrêmement instable face à de petites perturbations collectives de ses
paramètres. Néanmoins, lorsque le nombre de paramètres décroît en-deçà de 48 (N=241), les
scores moyens avant et après perturbation deviennent plus proches. Notons que cette valeur
seuil est nettement plus loin dans la réduction que la valeur de réduction optimale N=227, au-
delà de laquelle les profils d’expression estimés sont considérés comme insatisfaisants pour
reproduire les profils expérimentaux.
78
Chapitre V : Modélisation de réseaux de régulation
Robustesse d’une solution réduite particulière
La robustesse de la solution réduite optimale, pour N=227, est ensuite évaluée. Dans
ce cas, il reste 62 paramètres dans le modèle, la connectivité moyenne est donc de 3 à 4
connexions par classe de gènes. Des profils d’expression estimés typiques de cette solution,
obtenus en perturbant les paramètres de M collectivement et individuellement, sont
représentés à la Figure V.9 et comparés aux données et aux profils estimés non perturbés . Optˆ ( )N tx
a b Figure V.9: Profils d’expression expérimental et estimés pour la classe 11, après la réduction optimale et avant et après perturbations individuelles et collectives des paramètres du modèle. Points bleus : profils expérimentaux ( )kx ; ligne bleue
continue : profils estimés avant perturbation Optˆ ( )kN x ; ligne verte en étoiles et ligne
rouge discontinue : deux profils 1ˆ ( )P pkN x de réseaux réduits correspondent à la
perturbation individuelle P1 menant aux scores Mi et , 1P =pNˆ[ (n S x )] 1P =pˆ[ ( )]NMax S x
respectivement; ligne noire en pointillés: profil estimé d’un ensemble ˆ AllP pN
x ( )t
particulier de perturbations collectives aléatoires PAll. (a) P1=±1% et PAll=1%. Notons que les lignes bleue continue, verte en étoiles, noire en pointillés et rouge discontinue coïncident. (b) P1=±5% et PAll=10%.
On remarque, à la Figure V.9a, que les profils d’expression estimés après réduction
paramétrique jusque N=227 sont clairement insensibles aux faibles perturbations, tant
collectives qu’individuelles, i.e. P1=±1% et PAll=1%. Ce constat est similaire pour toutes les
perturbations aléatoires avec PAll=1% et pour toutes les classes de gènes. Cependant, on voit à
la Figure V.9b que lorsque les paramètres du réseau sont perturbés plus fortement, i.e. lorsque
P1=±5% et plus encore avec PAll=10%, on observe des changements radicaux des profils
estimés et l’apparition de comportements instables. Il est à noter que ceci ne se produit pas
pour toutes les perturbations aléatoires testées avec PAll=10% car, d’une part, certains
paramètres sont moins sensibles au bruit que d’autres et, d’autre part, dans la génération des
pourcentages aléatoires p, certaines valeurs de p sont en réalité très proches de zéro. Cette
figure montre donc que les profils d’expression obtenus après la réduction paramétrique
79
Chapitre V : Modélisation de réseaux de régulation
optimale sont robuste aux faibles perturbations paramétriques alors que les profils des réseaux
moins (ou non) réduits ne sont pas robustes du tout (Figure V.7 et Figure V.8).
b) Robustesse aux perturbations des conditions initiales
Perturbations individuelles
Le comportement du score avant et après perturbation des conditions initiales, avec
Pin1=1% or Pin1=5%, est représenté à la Figure V.10.
a b Figure V.10: Log10 des scores S avant et après les perturbations individuelles en fonction du nombre N de paramètres éliminés. La ligne verticale grise indique la réduction optimale N=227. Ligne bleue en pointillés : log10 du score avant Opt
Nˆ(S x )
perturbation ; ligne verte discontinue et ligne rouge continue : log10 des scores 1P =p
Nˆ[ ( )]inMin S x et , respectivement. (a) Pin1 = ±1% ; (b) Pin1 =± 5%. in1P =pˆ[ ( )]NMax S x
Le modèle linéaire apparaît comme peu sensible aux perturbations de chacune de ses
conditions initiales. En outre, la robustesse du modèle face à ces perturbations semble
dépendre beaucoup moins de la connectivité du réseau de régulation que pour les paramètres
du réseau. Notons enfin que le pic aux environs de N=160 correspond probablement à une
mauvaise optimisation paramétrique avant perturbation qui devient évidemment encore moins
optimale après perturbation.
80
Chapitre V : Modélisation de réseaux de régulation
Perturbations collectives
La Figure V.11 montre le comportement des scores avant et après les perturbations
collectives PinAll=1% et PinAll=10% des conditions initiales.
a b Figure V.11 : Log10 des scores S avant et après les perturbations collectives en fonction du nombre N de paramètres éliminés. La ligne verticale grise indique la réduction optimale N=227. Ligne bleue en pointillés : log10 du score avant Opt
Nˆ(S x )
perturbation ; ligne noire discontinue : log10 du score moyen pour les 50 perturbations aléatoires ; ligne verte en étoiles et ligne rouge continue : log10 des scores
1Lˆ( )P p
NS x et 1Rˆ( )P p
NS x , respectivement.(a) PinAll =1% ; (b) PinAll =10%.
On constate que, pour toutes les valeurs de N, les faibles perturbations aléatoires PinAll=1% ne
modifient pratiquement pas le score moyen. Le score moyen après perturbation reste
généralement en-deçà du score de la réduction optimale non perturbée à N=227. De plus, les
écarts-types sont toujours très petits et, quelle que soit la valeur de la perturbation, il semble
qu’après chaque perturbation, le score augmente d’environs la même valeur. Lorsque PinAll
=5%, les scores et leurs écarts-types augmentent un peu mais restent très proches du score de
la réduction optimale non perturbée N=227.
Robustesse d’une solution réduite particulière
Enfin, on se focalise sur la solution de la réduction optimale N = 227 et on observe, à
la Figure V.12, le comportement des profils d’expression estimés avant et après perturbation
des conditions initiales. On voit que même lorsque les perturbations sont plus grandes
(Pin1=±5% ou PinAll=10%), les profils expérimentaux sont toujours reproduits de manière
satisfaisante avec les conditions initiales perturbées. Il en est de même pour toutes les classes
de gènes. On en déduit qu’avec cet ensemble de paramètre, le modèle linéaire développé est
robuste aux perturbations de ses conditions initiales.
81
Chapitre V : Modélisation de réseaux de régulation
Figure V.12: Profils d’expression expérimental et estimés pour la classe 11, après la réduction optimale et avant et après perturbations individuelles et collectives des conditions initiales Pin1=±5% et PinAll=10%. Points bleus : profils expérimentaux
( )kx ; ligne bleue continue : profils estimés avant perturbation Optˆ ( )kN x ; ligne verte en
étoiles et ligne rouge discontinue : deux profils 1ˆ inP pN ( )k
x de réseaux réduits
correspondent à la perturbation individuelle P1 menant aux scores et 1P =pNˆ[ ( )]inn S xMi
1P =pˆ[ ( )]inNMax S x , respectivement; ligne noire en pointillés: profil estimé d’un ˆ ( )inAllP p
N tx
ensemble particulier de perturbations collectives aléatoires PinAll. Notons que les lignes bleue continue, verte en étoiles, noire en pointillés et rouge discontinue coïncident.
2.2.5. Etude de stabilité
Enfin, on extrapole les profils estimés après le dernier instant de la période de mesure,
en τl = 40 jours ; jusqu’à la mort présumée de l’organisme, fixée à τlife = 80 jours (voir section
2.1.7) de manière à évaluer l’état des variables du modèle développé en prolongeant la
période de temps jusqu’à cette limite maximum. Les profils extrapolés des solutions non
réduites sont représentés pour les paramètres issus de l’estimation linéaire (Figure V.13a) et
de l’optimisation non linéaire (Figure V.13b).
a b Figure V.13 : Profils estimés par le modèle linéaire avec les paramètres obtenus par estimation linéaire (a) et par optimisation non linéaire (b) jusqu’au temps τlife=80 jours de la mort de l’organisme, pour toutes les classes de gènes. La ligne noire verticale désigne la fin de la période de mesure.
82
Chapitre V : Modélisation de réseaux de régulation
On observe (Figure V.13a) que les profils issus de l’estimation paramétrique linéaire
présentent rapidement une divergence du type exponentiel, menant les niveaux d’expression à
atteindre des valeurs invraisemblables. On remarque que cette tendance à diverger diminue
avec l’optimisation paramétrique non linéaire (Figure V.13b) mais qu’elle apparaît toujours
pendant la durée de vie de l’organisme.
Ensuite, comme lors de l’étude de robustesse, on évalue l’évolution de cette propriété
après certaines réductions paramétriques optimales. La Figure V.14 représente les quatre
types de comportements possibles, qui sont tous observés pour ces profils dans les 35
solutions ˆ M sélectionnées.
a b
c d Figure V.14 : Profils estimés par le modèle linéaire avec quatre des meilleurs ensembles ˆ M de paramètres obtenus après réduction jusqu’au temps τxp = 80
jours. (a) ; (b) B, ˆ iNM [1,50]i B, ˆ j
NM [1,50]j ; (c) ˆNAM ; (d) B,
2ˆ k
M [1,50]k , Sur
cette dernière figure, les profils sont estimés jusqu’à 200 jours, pour toutes les classes de gènes. La ligne grise verticale représente le temps τlife = 80 jours de la mort de l’organisme et, dans toutes les figures, la ligne noire verticale désigne la fin de la période de mesure.
Quatre types de comportement sont observés : (a) divergent de manière exponentielle, (b)
convergent vers zéro, (c) convergent vers une valeur non nulle pour certains profils mais
instable pour un profil, et enfin (d) oscillatoire instable. Les comportements divergents (pour
tous ou certains profils) ou oscillatoires instables sont ceux les plus observés dans les
83
Chapitre V : Modélisation de réseaux de régulation
solutions étudiées. Le comportement convergent vers zéro est quant à lui beaucoup plus rare.
Pour rappel, les profils d’expression correspondant ici à des taux d’expression relatifs en
échelle logarithmique, cette convergence vers zéro traduit en réalité une stabilisation moyenne
des concentrations en ARNm vers la valeur de référence (voir II.1). Par ailleurs, aucune
solution de ce modèle ne présente un comportement convergent vers une valeur non nulle
pour tous les profils estimés. Comme représenté à la Figure V.14c, il existe toujours un des
profils qui finit par croître ou décroître de manière monotone. Cette constatation se justifie par
la structure de modèle utilisée. En effet, sans terme indépendant dans l’équation (V.3), celle-ci
ne peut permettre à la fois une annulation une valeur non nulle des profils d’expression et une
annulation de leurs dérivées temporelle que si la matrice M n’est pas de rang plein, i.e. si son
déterminant est nul.
Notons en outre que, dans les cas (c) et (d), les profils d’expression conservent des
valeurs vraisemblables dans la première partie de la période et leur instabilité ou leur
divergence se déclare après la mort présumée de l’organisme. Dès lors l’évaluation de ces
solutions dépend de l’objectif poursuivi : si seules les valeurs prises par les profils importent,
alors ce type de solutions ne peut être exclu ; si l’on désire identifier des solutions
intrinsèquement stables, i.e. dont les valeurs propres sont à partie réelle strictement négative,
alors ces solutions sont inacceptables. Par la suite, sur la base de connaissances biologiques
supplémentaires, l’un ou l’autre comportement stable identifié pourra être choisi comme
critère de sélection des modèles.
Signalons enfin qu’à ce stade de la réduction paramétrique, les modèles sont encore
sensibles aux perturbations paramétriques et ces dernières induisent facilement un
changement de comportement des profils en extrapolation temporelle.
2.3. Autres approches linéaires envisagées
L’interprétation biologique du modèle développé présente des limitations. En effet, les
niveaux d’expression peuvent prendre des valeurs positives ou négatives selon que le gène en
question est respectivement plus ou moins exprimé dans l’échantillon étudié que dans
l’échantillon de référence. Dès lors, les signes des coefficients de la matrice M ne traduisent
en général pas de simples interactions d’activation ou de répression des gènes du réseau de
régulation qui induiraient respectivement une hausse ou une baisse des niveaux d’expression
car l’effet d’une interaction avec une classe de gène dépend du signe du niveaux d’expression
moyen de cette classe régulatrice et de la valeur du niveau d’expression de l’échantillon de
référence. Dès lors, trois nouvelles voies de modélisation sont proposées pour tenter de
simplifier l’interprétation des résultats de l’estimation paramétrique des coefficients de la
matrice M.
84
Chapitre V : Modélisation de réseaux de régulation
2.3.1. Modèle avec terme d’entrée
Premièrement, on ajoute un terme indépendant dans l’équation du modèle linéaire
initial, et ce, pour chaque profil temporel à modéliser. D’un point de vue biologique, l’ajout
de ce terme d’entrée est susceptible de modéliser les interactions des protéines encodées dans
les gènes du réseau de régulation avec de petits métabolites, tels que des ions, ce que le
modèle précédent ne pouvait traiter. Ce terme d’entrée est choisi comme étant un vecteur de
n=17 paramètres constants à estimer. En définissant le vecteur u = (u1,…,un)T, le modèle
initial (V.3) devient :
d ( )( )
d
tt
t
xM x u (V.8)
On constate que les courbes obtenues par intégration de ce modèle après estimation
paramétrique reproduisent les courbes expérimentales avec légèrement moins de précision
que les courbes initiales. En effet, l’écart-quadratique entre les courbes expérimentales et
estimées, après l’étape d’optimisation paramétrique, est de 0.19 alors qu’il était de 0.16 sans
le terme d’entrée. Cette baisse de qualité de reproduction des données est surprenante car le
modèle dispose ici de 17 degrés de libertés supplémentaires. On en déduit que la nouvelle
solution de l’estimation paramétrique linéaire pour ce modèle initialise la recherche
d’optimisation locale en un point de l’espace des paramètres qui, d’une part, ne permet pas de
trouver une solution meilleure que pour le modèle précédent et, d’autre part, rend l’accès à
cette solution particulière (uc=0, c=1,….,n) impossible. On attribue la cause de cette situation
à l’augmentation du nombre de paramètres qui multiplie les minima locaux de la fonction de
coût et fausse l’optimisation paramétrique. Pour preuve, le score obtenu lors de la première
étape de l’estimation paramétrique est ici de 0.21 au lieu de 0.27 sans le terme d’entrée. Dès
lors, il apparu comme logique d’initialiser l’optimisation paramétrique non plus à la solution
de l’étape de moindres carrés mais bien à la solution optimale pour le modèle sans terme
d’entrée et à zéro pour les éléments de u. Néanmoins, on constate que, dans ce cas, les
paramètres de u restent très proches de zéro, ce qui signifie que la recherche paramétrique
locale ne permet pas de s’éloigner de la solution optimale pour le modèle sans terme d’entrée.
Par ailleurs, en observant les valeurs estimées pour les paramètres du vecteur u
(constants pour chaque instant de la série temporelle), on constate que l’effet du terme
d’entrée est, dans la majorité des cas, de translater verticalement les courbes expérimentales
(positivement ou négativement) de manière telle que leur effet régulateur sur les autres classes
de gènes soit toujours du même signe.
L’évolution de avec la procédure A de réduction paramétrique est représentée
à la Figure V.15. Notons que lors de la réduction paramétrique, on choisit ici de n’éliminer
que les éléments de la matrice M et ce, pour faciliter la comparaison des modèles développés.
Les paramètres du vecteur u sont quant à eux toujours conservés. On constate que, tout
comme pour le modèle initial (courbe bleue), la valeur de reste relativement
Optˆ(S x )
)Optˆ(S x
85
Chapitre V : Modélisation de réseaux de régulation
constante ou augmente légèrement une valeur critique de N ici de 215. A ce stade de
réduction, = 0,31. L’écart de 0.44 est, quant à lui, atteint lorsque N=217 et il est de
0.5 lorsque N=227. La réduction paramétrique semble donc a priori presque aussi efficace
avec ce modèle.
Optˆ(S x )
Figure V.15 : Evolution de en fonction de N, le nombre de paramètres éliminés, Optˆ(S x )
en utilisant la procédure A et une optimisation paramétrique non linéaire à chaque itération. Ligne verte : modèle linéaire initial ; Ligne bleue : modèle avec terme d’entrée
Après exécution des 2 procédures et des 2 critères d’arrêt, une sélection est effectuée parmi
les 102 matrices ainsi identifiées pour conserver uniquement les meilleures solutions selon les
mêmes critères que pour le modèle initial (N ≥ 227 et ≤ 0.44). 63 matrices sont ainsi
sélectionnées. Leurs valeurs de N et sont représentées à la Figure V.16a.
Optˆ(S x )
)Optˆ(S x
a b Figure V.16 : Résultats des réductions paramétriques. (a) en fonction du Optˆ(S x )
nombre N de paramètres éliminés, pour les 45 matrices réduites, issues des deux M̂
procédures de réduction et des deux critères d’arrêt, pour lesquelles N≥227 et ≤0.44. Petit cercle :Optˆ(S x ) ˆ
NAM ; points: ,ˆ B i
NM ; croix : ,2
ˆ B iM . Les deux grands cercles
discontinus indiquent deux solutions décrites dans le texte. (b) Profils d’expression expérimental et modélisés, avant et après réduction paramétrique, en fonction des points de mesure τk. Points : Profil expérimental (cx )k . Ligne bleue : profil modélisé
non réduit Optˆ ( )c kx ; ligne verte : profil modélisé Opt ( )c kx̂ après réduction
paramétrique avec N=227 et = 0.23 ; ligne noire : profil modélisé Optˆ(S x ) Optˆ ( )c kx après
réduction paramétrique avec N=239 et = 0.32. Opt( )ˆS x
86
Chapitre V : Modélisation de réseaux de régulation
On observe deux solutions réduites optimales, entourées par une ligne discontinue sur
cette figure. L’une, notée solution 1, correspond à l’écart-quadratique minimum entre les
courbes modélisées et expérimentales après élimination de 227 paramètres, ici de 0.23 au lieu
de 0.33 avec le modèle initial. Le profil estimé par cette solution pour la classe 3 est
représenté à la Figure V.16b en vert. L’autre solution, notée solution 2, correspond au nombre
maximum de paramètres éliminés, selon les mêmes critères que précédemment. Il est de 239
avec un écart-quadratique entre les courbes modélisées et expérimentales de 0.32 au lieu de
247 avec un écart-quadratique entre les courbes modélisées et expérimentales de 0.43. Le
profil estimé par cette solution pour la classe 3 est représenté à la Figure V.16b en noir. Les
profils estimés par ces 2 solutions pour les autres classes se trouvent en annexe A.14.
On constate donc qu’après sélection des solutions, la réduction paramétrique s’avère
plus efficace que pour le modèle initial. Néanmoins, il convient de nuancer ces résultats par
l’augmentation du nombre initial de paramètres. En effet, le modèle avec terme d’entrée
contient 17 paramètres en plus que le modèle initial. Dès lors, pour un même nombre de
paramètres éliminés, on s’attend à ce que le présent modèle reproduisent les données au moins
aussi bien que le modèle initial. Néanmoins, le but poursuivi est ici de pourvoir comparer la
structure et la connectivité des réseaux de régulation obtenus par les différents modèles plutôt
que les valeurs des scores S. Ensuite, afin d’évaluer les similarités existant entre ces solutions,
la matrice CCutoff, telle que définie au point 2.2.3, est représenté à la Figure V.17.
Figure V.17 Représentation de la matrice Ccutoff. Les carrés rouges (bleus) signalent que la connexion correspondante a une action d’activation (répression) dans au moins 80% des 45 matrices ˆ M . Les carrés blancs signalent que la connexion correspondante est supprimée dans au moins 80% des 45 matrices ˆ M . Les carrés verts signalent que la connexion correspondante est mal définie.
On dénombre ici 13 connexions conservées dans au moins 80% des 63 matrices
sélectionnées, dont 3 interactions d’auto-régulation, et 185 connexions éliminées dans au
moins 80% des matrices. Ainsi, 69% des 289 connexions possibles s’avèrent bien définies
pour ce modèle, ce qui équivaut aux performances du modèle initial. Si l’on compare ce
réseau commun avec celui obtenu pour le modèle initial, on constate que 2 connexions et 157
87
Chapitre V : Modélisation de réseaux de régulation
« non-connexions » sont communes aux 2 modèles. L’accord entre les modèles est donc de
55% des 289 connexions possibles.
Par ailleurs, l’étude de robustesse, décrite au point 2.1.6, montre, d’une part, que les
réseaux pleins sont toujours extrêmement sensibles aux perturbations paramétriques et,
d’autre part, que les deux solutions optimales sont ici plus sensibles aux perturbations que la
solution réduite optimale du modèle initial. En effet, les écarts-quadratiques moyens entre les
données et profils estimés, après ces deux réductions optimales et après les perturbations
individuelles P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés sont
respectivement de 95.65 et 1.66, alors que cet écart atteignait 1.19 pour le modèle initial. Les
profils estimés pour ces 2 solutions optimales, avant et après les perturbations individuelles
décrites sont représentés à la Figure V.18. Les classes choisies correspondent au plus grand
écart observé entre profils avant et après perturbation. On observe qu’une légère perturbation
paramétrique individuelle provoque l’apparition de comportements instables et divergents
dans les profils estimés. Ainsi, si certaines perturbations paramétriques modifient peu la
reproduction des données, il en est toujours au moins une qui rend la solution inacceptable.
a b Figure V.18: Profils d’expression expérimental et estimés, après les deux réductions optimales et avant et après les perturbations individuelles P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés. Les classes représentées correspondent aux plus grands écarts observés entre les profils avant et après perturbation. Points bleus : profils expérimentaux ( )kx ; ligne bleue continue :
profils estimés avant perturbation Optˆ ( )kN x ; ligne rouge : profil 1ˆ ( )P pkN x correspondant
à la perturbation individuelle P1 menant au score Ma . (a) Solution 1 (classe 1P =pˆ )]Nx[ (x S
8) ; (b) Solution 2 (classe 4).
Enfin, l’étude de stabilité des profils estimés après extrapolation jusqu’à la mort de
l’organisme révèle deux des quatre types de comportement observés dans le modèle initial :
divergent de manière exponentielle et oscillatoire instable ainsi qu’un nouveau
comportement observé : convergent vers une constante non nulle (pour tous les profils). Les
profils extrapolés pour les 2 solutions optimales sont représentés, pour toutes les classes de
gènes, à la Figure V.19a (solution 1) et à la Figure V.19b (solution 2).
88
Chapitre V : Modélisation de réseaux de régulation
a b Figure V.19 : Profils estimés par le modèle avec translation des profils après les 2 réductions optimales jusqu’au temps τxp = 80 jours, pour toutes les classes de gènes. (a) solution 1 ; (b) solution 2. La ligne noire verticale désigne la fin de la période de mesure.
Notons enfin que dans ce modèle, on observe que les profils peuvent, pour certaines
solutions, atteindre un valeur constante et la conserver à l’infini, contrairement au modèle
initial, pour lequel les plateau observés tendaient toujours à diverger après un certain temps,
plus ou moins long. En ne se focalisant que sur la période de vie de l’organisme, il n’est
toutefois ni possible ni utile de distinguer les 2 phénomènes. Néanmoins, la forte sensibilité à
certaines perturbations paramétriques rend ces solutions aussi fragiles que pour le modèle
initial.
2.3.2. Translation verticale forcée des profils
Deuxièmement, on décide de forcer la translation des profils temporels d’expression
verticalement de manière à ce que ceux-ci conservent constamment un signe positif. Ainsi, en
observant les 17 profils d’expression de la drosophile, on détermine une valeur constante à
ajouter à chaque profil d’expression. Le modèle linéaire (V.3) s’écrit alors:
d '( )'( )
d
tt
t
xM x (V.9)
avec
,( ) min[ ( ) , ( ) 0] ( 1,..., )c c
c tt x t x t c x x n
On espère ainsi profiter de l’avantage que comporte des données positives sans pour autant
augmenter le nombre de paramètres du modèle, comme pour le modèle avec terme d’entrée.
On constate que les courbes obtenues par intégration de ce modèle sont capables de
reproduire les courbes expérimentales translatées très légèrement mieux que le modèle
précédent. En effet, l’écart-quadratique entre les courbes modélisées et expérimentales est de
0.15 alors qu’il était de 0.16 sans translation des données. L’évolution de cet écart avec la
procédure A de réduction paramétrique est représentée à la Figure V.20. On constate que, tout
89
Chapitre V : Modélisation de réseaux de régulation
comme pour le modèle initial (courbe bleue), la valeur de reste relativement
constante ou augmente légèrement une valeur critique de N ici de 190. A ce stade de
réduction, = 0,28. L’écart de 0.44 est, quant à lui, atteint lorsque N=209, soit avec 18
paramètres de plus que le modèle initial et il est de 0.56 lorsque N=227. La réduction
paramétrique semble donc a priori moins efficace avec ce modèle.
Optˆ(S x )
)Optˆ(S x
Figure V.20 : Evolution de en fonction de N, le nombre de paramètres éliminés, en Optˆ(S x )
utilisant la procédure A et une optimisation paramétrique non linéaire à chaque itération. Ligne verte : modèle linéaire initial ; Ligne bleue: modèle avec translation des profils
Après exécution des 2 procédures et des 2 critères d’arrêt, une sélection est effectuée parmi
les 102 matrices ainsi identifiées pour conserver uniquement les meilleures solutions selon les
mêmes critères que pour le modèle initial (N ≥ 227 et ≤ 0.44). 45 matrices sont ainsi
sélectionnées. Leurs valeurs de N et sont représentées à la Figure V.21a.
Optˆ(S x )
)Optˆ(S x
a b Figure V.21 : Résultats des réductions paramétriques. (a) en fonction du Optˆ(S x )
nombre N de paramètres éliminés, pour les 45 matrices réduites, issues des 2 M̂
procédures de réduction et des 2 critères d’arrêt, pour lesquelles N≥227 et ≤0.44. Petit cercle :Optˆ(S x ) ˆ
NAM ; points: ,ˆ B i
NM ; croix : ,2
ˆ B iM . Les deux grands cercles
discontinus indiquent deux solutions décrites dans le texte. (b) Profils d’expression expérimental et modélisés, avant et après réduction paramétrique, pour la classe 3, en fonction des points de mesure τk.. Points : profil expérimental ( )c kx . Ligne
bleue : profil modélisé non réduit Optˆ (cx )k ; ligne verte : profil modélisé Optˆ (cx )k après
réduction paramétrique avec N=227 et =0.30 ; ligne noire : profil modélisé Optˆ(S x )Optˆ ( )c kx après réduction paramétrique avec N=236 et =0.37. Optˆ(x )S
90
Chapitre V : Modélisation de réseaux de régulation
L’examen de la Figure V.21a révèle 2 solutions réduites optimales, entourées par une
ligne discontinue sur cette figure. L’une, notée solution 1, correspond à l’écart-quadratique
minimum entre les courbes modélisées et expérimentales après élimination de 227
paramètres, ici de 0.3 au lieu de 0.33 avec le modèle initial. Le profil estimé par cette solution
pour la classe 3 est représenté à la Figure V.21b en vert. L’autre solution, dite solution 2,
correspond au nombre maximum de paramètres éliminés, selon les mêmes critères que
précédemment. Il est de 236 avec un écart-quadratique entre les courbes modélisées et
expérimentales de 0.37 au lieu de 247 avec un écart-quadratique entre les courbes modélisées
et expérimentales de 0.43. Le profil estimé par cette solution pour la classe 3 est représenté à
la Figure V.21b en noir. Les profils estimés par ces 2 solutions optimales pour les autres
classes se trouvent en annexe A.15. On constate donc qu’après sélection des solutions, la
réduction paramétrique s’avère légèrement plus efficace que pour le modèle initial. Ensuite,
afin d’évaluer les similarités existant entre ces solutions, la matrice CCutoff, telle que définie au
point 2.2.3, est représentée à la Figure V.22.
Figure V.22 Représentation de la matrice Ccutoff. Les carrés rouges (bleus) signalent que la connexion correspondante a une action d’activation (répression) dans au moins 80% des 45 matrices ˆ M . Les carrés blancs signalent que la connexion correspondante est supprimée dans au moins 80% des 45 matrices ˆ M . Les carrés verts signalent que la connexion correspondante est mal définie.
On dénombre ici 11 connexions conservées dans au moins 80% des cas et 191 connexions
éliminées dans au moins 80% des cas, dont trois interactions d’auto-régulation. On retrouve
également ce résultat dans les 3 autres modèles linéaires étudiés à la fin du chapitre. Ainsi,
70% des 289 connexions possibles s’avèrent bien définies pour ce modèle, ce qui équivaut
aux performances du modèle initial. Si l’on compare ce réseau commun avec celui obtenu
pour le modèle initial, on constate que 6 connexions et 158 « non-connexions » sont
communes aux 2 modèles. L’accord entre les modèles est donc de 55 % des 289 connexions
possibles.
91
Chapitre V : Modélisation de réseaux de régulation
Par ailleurs, l’étude de robustesse, décrite au point 2.1.6, montre, d’une part, que les
réseaux pleins sont toujours extrêmement sensibles aux perturbations paramétriques et,
d’autre part, que les 2 solutions optimales sont ici un peu moins sensibles aux perturbations
que la solution réduite optimale du modèle initial. En effet, les écarts-quadratiques moyens
entre les données et profils estimés, après ces 2 réductions optimales et après les perturbations
individuelles P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés sont
respectivement de 0.79 et 0.91, alors que cet écart atteignait 1.19 pour le modèle initial. Les
profils estimés pour ces 2 solutions optimales, avant et après les perturbations individuelles
décrites sont représentés à la Figure V.23. Les classes choisies correspondent au plus grand
écart observé entre profils avant et après perturbation. On constate donc que la robustesse aux
perturbations paramétriques est un peu améliorée dans ce modèle mais qu’elle reste non
négligeable
a b Figure V.23: Profils d’expression expérimental et estimés, après les 2 réductions optimales et avant et après les perturbations individuelles P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés. Les classes représentées correspondent aux plus grands écarts observés entre les profils avant et après perturbation. Points bleus : profils expérimentaux ( )kx ; ligne bleue continue : profils estimés avant perturbation
Optˆ ( )kNx ; ligne rouge : profil 1ˆ ( )P pkN x correspondant à la perturbation individuelle P1
menant au score Ma . (a) Solution 1 (classe 6) (b) Solution 2 (classe 15) 1P =pˆ )]Nx[ (x S
Enfin, l’étude de stabilité des profils estimés après extrapolation jusqu’à la mort de
l’organisme révèle les même quatre types de comportement observés dans le modèle initial :
convergent vers une constante, convergent vers zéro, divergent de manière exponentielle et
oscillatoire instable. Les profils extrapolés pour les solutions optimales sont représentés, pour
toutes les classes de gènes, à la Figure V.24a (solution 1) et à la Figure V.24b (solution 2). Si
les profils de la solution 1 tendent lentement vers zéro, ouvrant ainsi la porte à une
interprétation biologique plausible, ceux de la solution 2 tendent à diverger avant la mort de
l’organisme. Par ailleurs, ces derniers profils prennent rapidement des valeurs négatives,
remettant ainsi en question l’utilité même de ce modèle. On pourrait dès lors, par la suite,
imposer une contrainte lors de la réduction paramétrique de manière à éliminer de telles
solutions.
92
Chapitre V : Modélisation de réseaux de régulation
a b
Figure V.24 : Profils estimés par le modèle avec translation des profils après les 2 réductions optimales jusqu’au temps τxp = 80 jours, pour toutes les classes de gènes. La ligne noire verticale désigne la fin de la période de mesure. (a) solution 1 ; (b) solution 2
2.3.3. Données exprimées en concentrations relatives en ARNm
Troisièmement, on propose de considérer les taux d’expression ( )cX plutôt que leur
forme logarithmique ( )cx . En effet, les données issues des puces à ADN sont généralement
exprimées sous la forme de logarithmes des concentrations relatives en ARNm ou, plus
précisément, sous forme de rapports d’intensités de fluorescence entre les échantillons étudiés
et un échantillon de référence. En définissant le vecteur , l’équation (V.3)
devient donc : 1 2( , ,...,X XX )T
nX
d ( )( )
d
tt
t
XM X (V.10)
Dans ce cas, la positivité des profils temporels à modéliser est imposée et
l’interprétation biologique des éléments de M devient plus aisée puisqu’ils correspondent
alors véritablement à de simples interactions d’activation ou de répression des gènes du réseau
de régulation. En effet, en considérant les définitions (I.2) et (IV.4) :
ref
[ARNm ]( )( )
[ARNm ]
g kg k
g
Y
et ( ) ( )c k g k g cX Y
(V.11)
et comme la concentration dans l’échantillon de référence est constante dans le
temps, le modèle peut être exprimé comme :
ref[ARNm ]g
d[ARNm ]( )
)d
c tt
t M[ARNm]( (V.12)
où est une concentration théorique moyenne en ARNm associée au profil
d’expression
[ARNm ]c
( )cX de la classe c et [ARNm le vecteur des n variables [A . ] RNm ]c
93
Chapitre V : Modélisation de réseaux de régulation
Dans notre problème, toutefois, deux approches peuvent être suivies. D’une part, les
profils d’expression Yg(τκ) en concentrations relatives en ARNm pour les 4005 gènes de la
drosophile peuvent être considérés pour une nouvelle classification. On utilise alors les profils
moyens des nouvelles classes de gènes comme données à modéliser. Malheureusement, la
méthode SSC, conçue pour classifier les profils de niveaux d’expression, s’est avérée
incapable de classifier les données Yg(τκ) d’exponentielles de ces profils (voir chapitre IV).
C’est pourquoi une nouvelle méthode de classification a été développée pour classifier les
profils Yg(τκ). La modélisation des nouveaux profils moyens formés sera, quant à elle,
développée au point 3 de ce chapitre.
D’autre part, on peut conserver les classes définies par SSC lors de la classification des profils yg(τκ) et considérer simplement les profils moyens d’expression ( )cX des 17 classes
de gènes en les calculant cette fois à partir des profils Yg(τκ). Devant l’impossibilité de
classifier les profils Yg(τκ) avec SSC, cette première option a d’abord été choisie. On constate,
dans ce cas, que les courbes obtenues par intégration de ce modèle après estimation
paramétrique reproduisent les courbes expérimentales avec une très bonne précision.
L’évolution de cet écart avec la procédure A de réduction paramétrique est représentée à la
Figure V.25. En définissant de la même manière que dans l’équation (V.3), On constate
que, tout comme pour le modèle initial (courbe bleue), la valeur de reste relativement
constante ou augmente légèrement une valeur critique de N ici de 252. A ce stade de
réduction, = 0,49. Les courbes des 2 modèles se confondent pratiquement jusqu’à
N=227, où = 0,44. La réduction paramétrique semble donc aussi efficace avec ce
modèle qu’ave le modèle initial pour N<227 et nettement plus efficace par la suite. Signalons
toutefois que seule la forme de ces courbes, et plus particulièrement l’endroit où le score
augmente de manière brutale, est à observer sur cette figure car les valeurs de scores
concernent des profils dans des échelles différentes et ne sont, par conséquent, pas
comparables.
X̂ x̂Opt( )ˆS X
Optˆ(S XOptˆ(S X
)
)
Figure V.25 : Evolution de en fonction de N, le nombre de paramètres Optˆ(S X )éliminés, en utilisant la procédure A et une optimisation paramétrique non linéaire à chaque itération. Ligne verte : modèle linéaire initial ; Ligne bleue: modèle en considérant les données sous forme de concentrations relatives
94
Chapitre V : Modélisation de réseaux de régulation
Après exécution des 2 procédures et des 2 critères d’arrêt, une sélection est effectuée
parmi les 102 matrices ainsi identifiées pour conserver uniquement les meilleures
solutions selon les mêmes critères que pour le modèle initial (N ≥ 227 et ≤ 0.44). Bien
que ces valeurs aient été définies dans une échelle logarithmique, elles sont également
choisies ici de manière à faciliter la comparaison des résultats avec les différents modèles. 42
matrices sont ainsi sélectionnées. Leurs valeurs de N et sont représentées à la Figure
V.26a.
Optˆ(S X )
)Optˆ(S X
a b Figure V.26 : Résultats des réductions paramétriques. (a) en fonction du Optˆ(S X )
nombre N de paramètres éliminés, pour les 45 matrices ˆ M réduites, issues des deux procédures de réduction et des deux critères d’arrêt, pour lesquelles N≥227
et ≤0.44. Petit cercle :Optˆ(S X ) ˆNAM ; points: ,ˆ B i
NM ; croix : ,2
ˆ B iM . Les deux grands cercles
discontinus indiquent deux solutions décrites dans le texte. (b) Profils d’expression expérimental et modélisés, avant et après réduction paramétrique, en fonction des points de mesure τk. Points : Profil expérimental (cX )k . Ligne bleue : profil modélisé
non réduit Optˆ ( )c kX ; ligne noire : profil modélisé Opt ( )c kX̂ après réduction
paramétrique avec N = 227 et = 0.33. Optˆ(S x )
L’examen de cette figure révèle une solution réduite optimale, entourée par une ligne
discontinue sur cette figure. Celle-ci correspond à l’écart-quadratique minimum entre les
courbes modélisées et expérimentales après élimination de 227 paramètres : 0.33. Le profil
estimé par cette solution pour la classe 3 est représenté à la Figure V.26b en noir. Les profils
estimés par cette solution réduite optimale pour les autres classes sont en annexe A.16. On
constate donc qu’après sélection des solutions, les scores obtenus et l’examen visuel des
profils estimés montrent que la réduction paramétrique s’avère aussi efficace que pour le
modèle initial. Ensuite, afin d’évaluer les similarités existant entre ces solutions, la matrice
CCutoff, telle que définie au point 2.2.3, est représentée à la Figure V.27. On dénombre ici 14
connexions conservées dans au moins 80% des 42 matrices sélectionnées et 189 connexions
éliminées dans au moins 80% des cas. Ainsi, 70% des 289 connexions possibles s’avèrent
bien définies pour ce modèle, ce qui équivaut aux performances du modèle initial. Si l’on
compare ce réseau commun avec celui obtenu pour le modèle initial, on constate que 4
connexions et 152 non-connexions sont communes aux 2 modèles. L’accord entre les modèles
est donc de 53 % des 289 connexions possibles.
95
Chapitre V : Modélisation de réseaux de régulation
Figure V.27 Représentation de la matrice Ccutoff. Les carrés rouges (bleus) signalent que la connexion correspondante a une action d’activation (répression) dans au moins 80% des 42 matrices ˆ M . Les carrés blancs signalent que la connexion correspondante est supprimée dans au moins 80% des 42 matrices ˆ M . Les carrés verts signalent que la connexion correspondante est mal définie.
Par ailleurs, l’étude de robustesse, décrite au point 2.1.6, montre, d’une part, que les
réseaux pleins sont toujours extrêmement sensibles aux perturbations paramétriques et,
d’autre part, que la solution réduite optimale est ici un peu moins sensibles aux perturbations
que la solution réduite optimale du modèle initial. En effet, l’écart-quadratique moyen entre
les données et profils estimés, après cette réduction optimale et après la perturbation
individuelle P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés est de
0.55. Le profil estimé pour cette solution, avant et après perturbation est représenté à la Figure
V.28, pour la classe de gènes correspondant au plus grand écart observé entre profils avant et
après perturbation.
Figure V.28: Profils d’expression expérimental et estimés, après la réduction optimale (classe 12) et avant et après les perturbations individuelles P1=±5% menant aux plus grands écarts entre profils initiaux et perturbés. Les classes représentées correspondent aux plus grands écarts observés entre les profils avant et après perturbation. Points bleus : profils expérimentaux ( )kX ; ligne bleue
continue: profils estimés avant perturbation Optˆ ( )kN X ; ligne rouge : profil 1ˆ ( )P pkN X
correspondant à la perturbation individuelle P1 menant au score . 1P =ˆ[ ( Nx S X p )]Ma
96
Chapitre V : Modélisation de réseaux de régulation
Enfin, l’étude de stabilité des profils estimés après extrapolation jusqu’à la mort de
l’organisme révèle trois des quatre types de comportement observés dans le modèle initial :
convergent vers une constante, divergent de manière exponentielle et oscillatoire instable. Les
profils extrapolés pour la solution optimale sont représentés, pour toutes les classes de gènes,
à la Figure V.29.
Figure V.29 : Profils estimés par le modèle avec translation des profils après la réduction optimale jusqu’au temps τxp = 80 jours, pour toutes les classes de gènes. La ligne noire verticale désigne la fin de la période de mesure.
2.3.4. Comparaison des modèles linéaires
Le Tableau V.1 reprend les résultats obtenus avec les quatre modèles linéaires
développés ci-avant.
Modèle d ( )( )
d
tt
t
xM x
d ( )( )
d
tt
t
xM x u
d '( )'( )
d
tt
t
xM x
d ( )( )
d
tt
t
XM X
Equation (V.3) (V.8) (V.9) (V.10)
Nombre de paramètres 289 306 289 289 Optˆ(S x ) non réduit 0.16 0.19 0.15 0.17
N solution 1 227 227 227 227 Optˆ(S x ) solution 1 0.33 0.23 0.30 0.33
N solution 2 247 239 236 - Optˆ(S x ) solution 2 0.43 0.32 0.37 -
ˆ M / 102 35 63 45 42 Tableau V.1 Récapitulatif des résultats obtenus pour les quatre modèles linéaires.
On constate que les quatre modèles linéaires présentent des résultats similaires. La meilleure
reproduction des données après réduction paramétrique est atteinte par la solution 1 du
modèle (V.8) avec terme d’entrée et le plus grand nombre de paramètres éliminés est atteint
par la solution 2 du modèle (V.3) initial. Signalons enfin que les valeurs de scores du modèle
(V.10), définis en échelle non logarithmique, ne sont pas directement comparables avec ceux
des autres modèles.
97
Chapitre V : Modélisation de réseaux de régulation
2.4. Conclusions
Les résultats de la modélisation dynamique linéaire des profils d’expression des gènes
de la drosophile montrent qu’avec une structure de modèle simple, dans laquelle l’évolution
temporelle du niveau d’expression d’une classe de gènes est exprimée comme une
combinaison linéaire, à coefficients constants, des niveaux d’expression de toutes les classes
de gènes, les scores sont impressionnants : l’écart entre les profils d’expression
expérimentaux et modélisés est de 0,16 en moyenne. Ceci montre qu’un modèle linéaire ne
peut a priori pas être exclu pour modéliser le développement d’un organisme.
Par ailleurs, on cherche ici à établir des connexions entre des classes de gènes et non
entre des gènes individuels. Dès lors, les connexions en question englobent en fait un
ensemble de processus biologiques plus complexes que la simple action de régulation d’un
gène par un facteur de transcription et l’utilisation de modèles dits « physiques », i.e. dont la
formulation mathématique traduit explicitement un ou plusieurs phénomène(s) physique(s),
ne permettrait pas de meilleure interprétation des paramètres estimés. Il est donc logique de
commencer cette approche de modélisation par la formulation mathématique la plus simple,
i.e. un modèle linéaire.
On constate ensuite que la puissance de l’estimation paramétrique en 2 étapes est ici
remarquable. La première étape est analytique et rapide mais souffre d’erreurs dues à
l’estimation des dérivées temporelles. Les valeurs des paramètres obtenues lors de cette
première étape sont alors utilisées comme valeurs initiales d’une seconde estimation
paramétrique, non linéaire et donc nécessitant plus de temps de calcul, dans laquelle tous les
paramètres sont libérés et optimisés. L’amélioration acquise en passant de la première à la
seconde étape est visible dans la reproduction des profils (Figure V.1 et annexe A.12),
diminuant l’écart entre les profils expérimentaux et modélisés de 0,27 à 0,16. Remarquons
enfin que la seconde étape sans la première, et donc sans estimations initiales fiables, est
beaucoup moins efficace et plus propice à maintenir le système dans un minimum local de la
fonction de coût.
En outre, deux remarques doivent être faites au sujet de la structure de modèle choisie.
Premièrement, cette structure est linéaire en x, et donc linéaire en le logarithme de la
concentration relative X en ARNm par rapport à une référence. Ainsi, si l’on considère les
concentrations moyennes en ARNm pour chaque classe de gènes c, dans l’échantillon analysé
ARNmc
et dans l’échantillon de référence refARNm
c, et si l’on néglige l’étape de filtrage,
le modèle peut s’écrire :
2 ref
d ARNm ( ) ARNm ( )ln(2) ARNm ( ) log
d ARNm
c k d kc k cd
d d
Mt
(V.13)
98
Chapitre V : Modélisation de réseaux de régulation
Cela signifie donc que le modèle développé dans ce travail est bien non linéaire en les
concentrations en ARNm. Ainsi, un effet d’auto-répression de la classe c dans le réseau
signifie, dans l’espace des logarithmes des concentrations en ARNm, que la valeur de la
concentration en ARNm tendra à atteindre la valeur de référence refARNm
c.
Deuxièmement, si l’on suppose que les 17 courbes d’expression peuvent être décrites
analytiquement par une fonction du temps contenant 17 paramètres, on peut dans ce cas
définir les dérivées temporelles de x explicitement et M a alors une solution unique constante
et analytique. Ce raisonnement montre que la dynamique de tout vecteur x(t) de dimension n
qui peut être approché par n fonctions à n paramètres, peut être représentée par un système
dynamique autonome dx(t)/dt = M x(t). Donc, le fait que la dynamique du réseau de
régulation de l’expression des gènes des 17 classes de gènes puisse être représentée par un
modèle linéaire n’est pas surprenante. En revanche, le nombre de paramètres de M qui
peuvent être éliminés sans grande perte de précision, est moins évident. Nos résultats
soutiennent l’hypothèse de faible connectivité (en moyenne 3 connexions par classe de gènes)
du réseau de régulation de l’expression des gènes de la drosophile sur la base de séries
temporelles de données issues de puces à ADN et sans hypothèse a priori. Cette conclusion
corrobore de manière générale des résultats précédents de modélisation de réseaux de
régulation de l’expression des gènes (Holter et. al, 2001). Elle est également en accord avec
les résultats expérimentaux à propos de la faible connectivité des réseaux de régulation de
l’expression des gènes. Par exemple, Thieffry et. al (1998) ont analysé la régulation de
l’expression des gènes chez la bactérie E. coli et ont établi une connectivité moyenne du
réseau de régulation de 3, sur la base du nombre de facteurs de transcription par gène et
l’existence de connexions d’auto-régulation de l’expression des gènes. Bien que ces résultats
aient été obtenus chez un organisme procaryote, ils corroborent ceux obtenus dans ce travail
chez la drosophile.
Ensuite, les différents schémas de réduction paramétrique révèlent 15 connexions qui
sont presque toujours conservées avec le même signe et 199 connexions qui sont presque
toujours éliminées. Seules 75 connexions diffèrent selon les réductions. Ce nombre peut
sembler encore élevé mais ce résultat est malgré tout encourageant étant donné le bruit que
contiennent données, les approximations et les choix faits. En outre, bien que l’interprétation
biologique du réseau de régulation de l’expression des gènes obtenu soit encore prématurée,
ses connexions semblent biologiquement pertinentes. L’examen des matrices Ccutoff obtenues
avec les autres modèles linéaires étudiés montrent des résultats similaires.
Le modèle linéaire ne peut donc pas être exclu sur la base de ces résultats. Toutefois,
ce modèle est sérieusement remis en question par l’analyse de robustesse aux perturbations
paramétriques. En effet, cette analyse a montré que le modèle linéaire d’un réseau pleinement
connecté est extrêmement sensible à toutes les perturbations paramétriques, aussi petites
soient elles. Cette tendance reste vraie pour les réseaux réduits pour lesquels la connectivité
moyenne dépasse 3 à 4 connexions par classe de gènes. A ce stade, le modèle commence à
99
Chapitre V : Modélisation de réseaux de régulation
devenir robuste à certaines perturbations, mais pas à toutes. Il devient réellement robuste
lorsque le nombre moyen de connexions par classe est inférieur à 2.5. Malheureusement, à ce
stade le modèle n’est plus capable de reproduire les profils expérimentaux de manière
satisfaisante. Notons également que le modèle est nettement plus robuste aux perturbations
des conditions initiales qu’aux paramètres du réseau lui-même. On peut donc en conclure que
les modèles linéaires semblent gagner en robustesse lorsque le nombre de paramètres décroît,
mais qu’ils ne deviennent réellement robustes que lorsqu’ils perdent leur capacité à reproduire
les données correctement. Pour ces deux critères, la validité du modèle linéaire dépend donc
des niveaux d’exigence d’un point de vue biologique. En revanche, les profils d’expression
perturbés tendent parfois à présenter des comportements divergents suite à une perturbation,
ce qui ôte toute plausibilité biologique aux solutions obtenues. Notons toutefois que certaines
solutions particulières présentent un comportement convergent.
Enfin, en extrapolant les profils estimés par les solutions paramétriques pleines et
réduites optimales, on constate que les réseaux totalement connectés induisent
systématiquement l’apparition d’instabilités après un temps inférieur à la durée de vie
l’organisme et que les différentes réductions paramétriques peuvent, dans certains cas, soit
stabiliser le réseau vers un état stationnaire, soit mener à des solutions de type oscillatoire
pour lesquelles l’apparition d’instabilités est retardée. Toutefois, si un simple examen des
valeurs atteintes par les niveaux d’expression de ces solutions oscillatoires après extrapolation
jusqu’à la mort de l’organisme ne permet pas d’exclure directement ces solutions, on
comprend aisément que ces solutions instables ne peuvent être acceptables étant donné la
faible amplitude des perturbations réalisées.
Signalons également que dans le cas des solutions non divergentes pendant la durée de
vie de l’organisme, la tendance observée des profils d’expression de ces solutions à tendre
vers un constante, en échelle logarithmique, traduit une stabilisation des concentrations en
ARNm vers des valeurs de concentrations en ARNm des gènes correspondants dans les
échantillons de référence de l’expérience. Ainsi, on constate que pour ce type de solutions, le
modèle linéaire atteint un état stationnaire dans lequel les concentrations en ARNm
conservent une valeur constante. Cette tendance à la stabilisation des concentrations survenant
après le passage au stade adulte, on peut imaginer qu’elle correspond à la fin du
développement de l’organisme étudié.
Finalement, nous avons étendu notre analyse à 3 nouvelles structures de modèle: ajout
d’un terme d’entrée, translation forcée des profils d’expression et considération des taux
d’expression en échelle non logarithmique. Nous avons pu constater que ces trois modèles
présentaient des réductions paramétriques légèrement plus efficaces que le modèle initial et
qu’ils lui équivalaient globalement en termes de reproduction des profils expérimentaux.
Toutefois, comme dans le modèle initial, une généralement forte sensibilité paramétrique et
l’apparition de comportements divergents et instables ont également été observés dans
certaines solutions de ces modèles.
100
Chapitre V : Modélisation de réseaux de régulation
101
Pour conclure, on constate que si certaines solutions des modèles linéaires s’avèrent
tantôt « robustes » tantôt « stables », elles le sont généralement au détriment de la bonne
reproduction des données, et vice versa. Le modèle linéaire n’est donc jamais à la fois robuste
et stable par rapport à toutes les perturbations possibles. Dès lors, le développement de
modèles non linéaires apparaît comme une suite logique à cette étude pour concilier, d’une
part, une bonne qualité de reproduction des données et, d’autre part, les caractéristiques de
robustesse paramétrique et de stabilité inhérentes au système de régulation génique.
Chapitre V : Modélisation de réseaux de régulation
3. APPROCHE NON LINEAIRE
3.1. Introduction
Les modèles linéaires ont montré ci-avant leur capacité à reproduire avec une bonne
précision les profils temporels d’expression de gènes. Néanmoins, leur sensibilité
paramétrique généralement haute et leur tendance à un comportement divergent après
extrapolation dans le temps les rendent peu adaptés aux réseaux de régulation de l’expression
des gènes. En effet, on sait que les réseaux de régulation ont une grande robustesse
paramétrique en ce sens que la topologie du réseau est capable d’absorber les variations
paramétriques inhérentes à la nature stochastique des phénomènes moléculaires impliqués
dans le processus de régulation (Kitano 2004). En outre, le fait que les modèles linéaires
puissent présenter un comportement divergent peut poser problème lorsque celui-ci survient
pendant la durée de vie de l’organisme car on suppose généralement que le système de
régulation atteint un état stationnaire une fois l’organisme arrivé à l’âge adulte. Ces
considérations nous orientent donc vers des structures de modèles non linéaires pour
représenter les réseaux d’expression des gènes. Ainsi, les objectifs poursuivis dans le
développement de ces modèles non linéaires sont, outre la bonne reproduction des données
d’expression, une robustesse paramétrique significativement meilleure que celle des modèles
linéaires, l’absence de divergence et la possibilité d’existence de points attractifs vers lesquels
les profils d’expression pourraient se stabiliser pendant la durée de vie de l’organisme.
Plus particulièrement, nous nous intéressons à des modèles dont les paramètres
permettent une interprétation physique. Pour cela, nous choisissons, comme c’est souvent le
cas, d’étudier des modèles qui décrivent explicitement, d’une part, l’activation et la répression
de la transcription d’un gène et, d’autre part, la dégradation du produit de ce gène (Smolen et
al. 2000 ; De Jong 2002).
Par ailleurs, les données sont ici considérées sous la forme de concentrations relatives
(et non en échelle logarithmique) et ce, dans le but de se rapprocher d’une représentation des
interactions de régulation entre les gènes comme un système de réactions biochimiques. Ce
choix offre l’avantage d’imposer la positivité des variables et, par conséquence, de permettre
une interprétation physique des paramètres de régulation plus aisée qu’en considérant les
niveaux d’expression de gènes. En effet, les niveaux d’expression de gènes pouvant être
négatifs, le signe des paramètres de régulation qui multiplient un niveau d’expression ne
traduit pas toujours le même type d’influence (activation ou répression). En considérant les
concentrations relatives en ARNm, on simplifie l’interprétation de ces paramètres. Rappelons
(voir chapitre I) que ce choix implique de supposer que les concentrations en ARNm dans les
échantillons étudiés sont suffisamment faibles, par rapport au nombre de réplicas présent dans
les spots des puces à ADN, que pour pouvoir accepter l’hypothèse de linéarité de la relation
entre l’amplitude des signaux fluorescents obtenus par puces à ADN et les concentrations
correspondantes en ARNm dans l’échantillon étudié (voir équation I.6).
102
Chapitre V : Modélisation de réseaux de régulation
De plus, en nous basant sur les résultats obtenus lors de la détection automatique des
limites des stades de développement, nous proposons d’employer notre méthode de
modélisation en considérant les profils d’expression, d’une part, pendant la série temporelle
complète du développement de l’organisme, et d’autre part, à l’intérieur de chaque stade de
développement. En conséquence, les profils d’expression de gènes étudiés sont à chaque fois
classifiés selon la période du développement étudiée. Comme cela a déjà été expliqué
précédemment (voir section 2.3.3) la méthode de classification hiérarchique est alors préférée
à la méthode Smoothing Spline Clustering (Ma et al. 2006) en raison de sa simplicité, sa
rapidité et sa capacité à classifier les profils d’expression en concentrations relatives.
Ensuite, comme nous le verrons à la section suivante, la non-linéarité des modèles
nous prive d’une première estimation des paramètres obtenue par résolution analytique,
comme c’était le cas lors de la première étape de l’estimation paramétrique pour les modèles
linéaires (voir section 2.1.4). Dès lors, le développement d’une nouvelle approche est
nécessaire. Ainsi, par opposition à la démarche « top-down » poursuivie avec les modèles
linéaires, où un réseau plein, obtenu à partir d’une solution analytique, était réduit jusqu’à
obtenir un réseau simplifié plus proche de la réalité biologique, on choisit ici une approche en
deux temps : une première phase « bottom-up », pendant laquelle les réseaux génétiques sont
construits à partir d’une solution approchée (à partir des dérivées temporelles) ou nulle
(aucune connexion dans le réseau) et en libérant de nouvelles connections au fur et à mesure
des optimisations paramétriques, et une seconde phase « top-down », au cours de laquelle de
nouvelles méthodes de réduction paramétrique sont appliquées aux réseaux ainsi construits.
Cette méthode est décrite à la section 3.2.5. Les solutions sont analysées en termes de
reproduction des données, de robustesse aux perturbations paramétriques, de stabilité des
profils après extrapolation temporelle et de nombre de connexions, selon quatre critères
d’évaluation décrits à la section 3.2.6.
Enfin, nous proposons de valider les modèles développés de 2 manières.
Premièrement, on utilise les modèles développés pour reproduire les profils d’expression réels
d’un sous-ensemble de gènes impliqués dans un même processus biologique. Parmi les sous-
ensembles de gènes de la drosophile dont la régulation a été étudiée dans la littérature, tels
que les sous-réseaux de segmentation de l'organisme (Nüsslein-Volhard et Wieschaus 1980,
Von Dassow et al. 2002, Albert et Othmer 2003, Ingolia 2004, Schroeder et al. 2004, Levine
& Davidson 2005, Moussian & Roth 2005, Chaves et al. 2006, Perkins 2006, González et al.
2006, Goltsev al. 2007, Sánchez et al. 2007, Segal et al. 2008, Fomekong-Nanfack et al.
2009, Ashyraliyev et al. 2009, Reeves & Stathopoulos 2009), la phototransduction (Hardie
2001, Landry et al. 2007) ou le développement de l'aile de la drosophile (Guss et al. 2001,
Yan et al. 2004, Hersh et al. 2007), on choisit d'étudier le développement musculaire de la
drosophile (Giot et al. 2003, Arbeitman et al. 2002, Zhao et al. 2006, Guo et al. 2007, Le
Song et al. 2009). Les méthodes développées sont donc ici appliquées à 20 gènes impliqués
dans le développement musculaire, selon Arbeitman et al. 2002 et Zhao et al. 2006, et les
103
Chapitre V : Modélisation de réseaux de régulation
connexions des réseaux obtenus seront finalement confrontées aux connaissances
expérimentales des relations entre les gènes étudiés.
Deuxièmement, des profils d’expression synthétiques sont générés à partir de réseaux
aux connections et paramètres aléatoires et bruités (voir section 3.2.2). Ces profils sont alors
utilisés comme données pour reconstruire les réseaux de régulation. On confronte finalement
les paramètres ainsi estimés à leurs valeurs réelles connues.
3.2. Méthodes
3.2.1. Données réelles étudiées
Les profils d’expression des 4005 gènes de la drosophile (Arbeitman et al. 2002) sont
ici étudiés, d’une part, en considérant la série complète (l=67 points de mesure pendant 40
jours) et, d’autre part, dans chacun des stades de développement traversés par l’organisme : le
stade embryonnaire (l=31 points de mesure pendant 24 heures) ; le stade larvaire (l=10 points
de mesure pendant 81 heures) et le stade de pupe ou métamorphose (l=18 points de mesure
pendant 111 heures). Toutefois, comme les résultats obtenus pour les stades de larve et de
pupe ont confirmé les tendances observées dans la modélisation des données du stade
embryonnaire et de la série temporelle complète, ceux-ci sont placé en appendice au chapitre
V, à la fin de ce travail et ce, par souci de concision. Notons également qu’en raison de la très
faible variabilité des niveaux d’expression des gènes dans le stade adulte, celui-ci n’a pas
étudié séparément.
Enfin, un sous-ensemble de 20 gènes impliqués, selon Arbeitman et al. (2002) et Zhao
et al. (2006), dans le développement musculaire et sélectionnés à partir de leur apparition
dans la littérature, est étudié séparément pour valider les modèles développés. Les identifiants
de ces gènes se trouvent en annexe A.17.
3.2.2. Données synthétiques étudiées
Enfin, des profils d’expression synthétiques sont générés à partir de valeurs aléatoires
de paramètres des modèles développés ci-après pour valider ces-derniers in numero. Les
dimensions du réseau synthétique (nombre de gènes, connectivité de chaque gène, nombre et
valeur des instants de mesure) sont choisies comme identiques à celles du sous-ensemble de
gènes du développement musculaire et ce, pour confronter les résultats obtenus dans la
modélisation du sous-réseau musculaire avec ceux obtenus pour un sous-réseau aléatoire
similaire. Ainsi, on génère un réseau aléatoire de 20 nœuds et on choisit, pour chaque nœud,
une connectivité aléatoire inférieure ou égale à 4. On intègre ensuite les différents modèles
développés pour générer 20 profils sur les 67 instants réels de mesures et on ajoute un bruit
blanc, de distribution normale, de moyenne nulle et d’écart-type 0.25. Cette valeur d’écart-
type est choisie après examen visuel des profils bruités pour ressembler autant que possible
104
Chapitre V : Modélisation de réseaux de régulation
aux profils expérimentaux réels. On utilise alors ces données synthétiques pour tenter de
retrouver les paramètres initiaux.
3.2.3. Classification et prétraitement des données
Afin de regrouper les gènes co-exprimés pendant la période étudiée, les données
d’expression sont classifiées de manière hiérarchique selon la méthode décrite au chapitre IV
(section 2.2.3). Par ailleurs, étant donné le faible nombre de profils à classifier pour le sous-
ensemble de gènes impliqués dans le développement musculaire, les classes formées sont
peuplées de 1 à 6 gènes et, par conséquent, les profils moyens associés à ces classes formées
souffrent beaucoup plus du bruit de mesure que lorsque les classes sont plus peuplées. Dès
lors, il convient de soumettre ces 20 profils d’expression au filtrage en moyennes mobiles
décrit aux équations (V.1). Notons que ce filtrage n’est pas nécessaire pour les données
classifiées car en considérant un profil moyen pour chaque classe, le bruit est
significativement réduit (chapitre IV).
Lors de cette classification, les profils sont comparés indépendamment de leur
translation et des facteurs d’échelle et ce, pour ne les comparer que sur la base de leur forme (voir chapitre IV, section 2.2.3). Dès lors, les n profils moyens ( )c kX , définis en (IV.14),
associés à chaque classe de gènes, sont translatés et normalisés de manière à ce que leurs
moyennes soient égales entre elles, leurs variances soient égales à 1 et leurs valeurs soient
positives à chaque instant. Ainsi, les interactions entre les classes de gènes seront identifiées
sur la base de la forme des profils uniquement. On note ( )c kX les n profils moyens
normalisés et 1( ) ( ),..., ( )k k nX X k X le vecteur des taux d’expression des n classes de gènes
à l’instant τk.
Enfin, pour garder une fréquence d’échantillonnage élevée et constante tout le long de
la série temporelle, les profils obtenus sont interpolés sur l’intervalle de temps étudié divisé en
1000 points de mesures artificiels, en utilisant la routine csaps du programme Matlab. Ces
profils interpolés sont alors utilisés pour estimer les dérivées temp1orelles ddc kX
t
des
profils d’expression aux instants de mesure réels. Signalons que tous les calculs ultérieurs
sont effectués en ne considérant que les instants de mesure réels. Par ailleurs, dans la
modélisation linéaire des profils sur la série temporelle complète, les instants initial et final τ1
et τl avaient été supprimés de la série, en raison du manque d’information sur la valeur des
dérivées temporelles des profils d’expression à ces instants (voir section 2.1.4). Ici, vu le
nombre parfois faible de points de mesure à l’intérieur des stades de développement, ces
points de mesure sont conservés.
105
Chapitre V : Modélisation de réseaux de régulation
3.2.4. Structures de modèle étudiées
Quatre structures de modèle non linéaires, notées m de manière générique, sont
envisagées dans ce travail. Dans un premier temps, leur construction est réalisée en focalisant
le raisonnement sur des interactions entre gènes individuels et non entre classes de gènes. Ces
quatre structures décrivent toutes l’évolution temporelle de la concentration relative en
ARNm ( )cX t d’un gène c à l’aide d’un terme de transcription ( )cR X , soit constant soit
dépendant de l’état X des concentrations relatives de tous les gènes, et un terme de dégradation composé d’un facteur ( )c X , constant ou non, multiplié par la concentration
relative ( )cX t du gène c décrit. d ( )
( ) ( ) ( )d
cc c c
X tR X t
t X X (V.14)
La formulation mathématique non linéaire de ( )cR X et ( )c X est inspirée des
modèles développés pour le réseau de régulation de la bactérie Escherichia coli lors de la
diauxie glucose-lactose (Albert et Rooman, 2010). Dans leur étude, la formulation mathématique du terme de transcription ( )cR X est basée sur la probabilité , c P X qu’un
gène c soit transcrit avec un taux maximal ρc, étant donné l’état X des concentrations
relatives du système. Cette probabilité est obtenue à partir d’un exemple simple. Si deux
facteurs de transcription j et k peuvent se lier en amont d’un gène c, pour en activer ou en
réprimer l’expression, avec Acj et Ack proportionnels à la fréquence de collision ainsi qu’à
l’affinité entre le promoteur du gène c et ces facteurs de transcription j et k, alors la probabilité qu’a le facteur de transcription j de se fixer en amont du gène c s’écrit : ,c jP
,1
c j j
c j j ck k
A Xc j
A X A X
P (V.15)
où les constantes Acj et Ack sont positives par définition.
Par ailleurs, pour qu’un gène soit transcrit, il faut que son promoteur soit occupé par
un activateur et non un répresseur. Dès lors, en généralisant cette équation à l’ensemble des n
gènes considérés et en distinguant les actions d’activation et de répression de transcription,
respectivement quantifiées par les paramètres définis positifs Ac = Ac1,…, Acn et Bc = Bc1,…, Bcn, la probabilité , c P X qu’un gène c soit transcrit avec un taux maximal ρc, étant donné
l’état X du système est donnée par la probabilité qu’un activateur se lie au promoteur de ce
gène c :
, , 1 ,c A c B c P X P X A P X B (V.16)
avec 1
1
( )
,1 (
n
cj jj
A c n
cj jj
)
A X t
A X t
P X A et 1
1
( )
,1 (
n
cj jj
B c n
cj jj
)
B X t
B X t
P X B (V.17)
106
Chapitre V : Modélisation de réseaux de régulation
D’où, 1
1 1
( )
( ) ,
1 ( ) 1
n
cj jj
c c c c n n
cj j cj jj j
A X t
R
( )A X t B X t
X P X (V.18)
Ensuite, Albert et Rooman (2010) ont choisi de modéliser le facteur de dégradation ( )c X de manière à traduire un effet de saturation des interactions que le produit d’un gène
peut avoir avec l’ADN et les produits des autres gènes lorsque celui-ci est très fortement
exprimé :
1
1
( )
1
n
cj jj
n
cj jj
K X
c cc
K X
K K e
e
X (V.19)
où représentent respectivement les taux maximum et minimum de dégradation du
produit du gène c et l’influence du produit du gène j sur la dégradation du gène c.
et cK Kc
cjK
Finalement, en considérant que les profils classifiés ( )c kX correspondent cette fois à
une moyenne des profils des gènes contenus dans chaque classe, Albert et Rooman (2010) ont
montré que les formulations mathématiques (V.18) et (V.19) restent valables si l’on modélise
les profils d’expression de classes de gènes plutôt que de gènes individuels. Les constantes ρc, γc,
1 2 3 4, , ,c c c c représentent alors une combinaison d’interactions impliquant les gènes de la
classe c et les paramètres Acj, Bcj, Tcj et Ecj une combinaison des interactions entre les gènes
des classes c et j. Dans la suite de ce travail, le raisonnement ci-dessus sera exploité en
gardant à l’esprit que c désigne bien une classe de gènes et non un gène isolé.
Dans ce travail, la formulation mathématique du terme de transcription comme un
quotient de polynômes (V.18) est appliquée dans un premier modèle, en gardant à l’esprit que
ce dernier a été développé pour modéliser le réseau de régulation d’un organisme procaryote
sur la base d’interactions entre gènes isolés plutôt qu’entre classes de gènes. Dans ce modèle, le facteur de dégradation ( )c X est choisi comme une simple constante γc. Ce modèle est
exprimé à l’équation (V.20). Etant donné que ce modèle est constitué d’un terme non constant
(noté « N ») exprimé comme un quotient de polynômes (notée « pol ») et d’un terme constant (noté « C »), il est noté . pol
NCm
Ensuite, la formulation mathématique en exponentielle (notée « e ») en (V.19) est
appliquée à trois autres modèles non linéaires, tantôt sur les deux termes du modèles, tantôt sur un seul terme, l’autre étant constant. Ces modèles sont notés , et selon la
formulation mathématique des deux termes qui les composent. Comme nous le verrons dans
l’analyse des résultats, à la section 3.3, cette formulation mathématique en exponentielle
permet une modélisation plus souple que la précédente (V.18). Ces trois modèles sont
exprimés aux équations (V.21) à (V.23).
eNNm e
NCm eCNm
107
Chapitre V : Modélisation de réseaux de régulation
polNCm : formulation polynomiale, terme de transcription probabiliste
1 1
1 1
( )d ( )
( ) ( )d
1 ( ) 1 ( )
n
cj jjc
c cn n
cj j cj jj j
A X tX t
c cX t f tt
A X t B X t
(V.20)
eNNm : formulation en exponentielle, deux termes non constants
1 1
1 1
( ) ( )1 2 3 4
2
( ) ( )
d ( )( ) ( )
d1 1
n n
cj j cj jj j
n q
cj j cj jj j
T X t E X t
c c c c cc c
T X t E X t
X t e eX t f t
te e
(V.21)
eNCm : formulation en exponentielle, terme de dégradation constant
1
1
( )1 2
3
( )
d ( )( ) ( )
d1
n
cj jj
n
cj jj
T X t
c c cc c c
T X t
X t eX t f t
te
(V.22)
eCNm : formulation en exponentielle, terme de transcription constant
1
1
( )3 4
4
( )
d ( )( ) ( )
d1
n
cj jj
q
cj jj
E X t
c c cc c
E X t
X t eX t f t
te
c
(V.23)
où les paramètres ρc, γc,
1 2 3 4, , ,c c c c , Acj, Bcj, Tcj et Ecj sont des paramètres à identifier.
Les paramètres de ces quatre modèles peuvent être interprétés physiquement de la manière
suivante : ρc est le taux maximal de transcription associé à la classe c ; γc est le taux de dégradation des produits des gènes de la classe c ; 1 et c
2c
3 et c
sont des constantes
caractéristiques de la transcription de la classe c ; 4c
3 4,c c
sont des constantes
caractéristiques de la dégradation des produits des gènes de la classe c ; les Acj, Bcj et Tcj
quantifient, respectivement, l’effet d’activation, l’effet de répression, et, plus généralement,
l’influence, de l’expression de la classe j sur la transcription de la classe c ; enfin, les Ecj
traduisent l’influence de l’expression de la classe j sur la dégradation des produits des gène de la classe c. Notons qu’en plus des paramètres ρc, γc,
1 2, ,c c spécifiques à chaque classe
c, chaque connexion de régulation j c est définie par un paramètre dans les modèles et
, respectivement Tcj et Ecj, et par deux paramètres dans les modèles et ,
respectivement {Acj , Bcj} et {Tcj , Ecj}.
eNCm
eNNme
CNm polNCm
Signalons enfin que toutes les combinaisons des deux formulations mathématiques
non linéaires avec des termes constants ne sont pas envisagées. En effet, un modèle dont les
deux termes seraient constants ne traduirait aucune interaction entre les gènes et un modèle
dont la transcription serait modélisée comme dans l’équation (V.18) et la dégradation des
108
Chapitre V : Modélisation de réseaux de régulation
produits des gènes comme dans les équations (V.19) comprendrait un nombre très élevé de
paramètres (n(3n+3)), ce qui risquerait de rendre le problème sous-déterminé.
Enfin, pour pouvoir comparer les résultats obtenus par ces modèles avec les
précédents, cette méthode est également appliquée au modèle linéaire le plus simple :
linm : modèle linéaire
5
1
d ( )( ) ( )
d
nc
cj j cj
X tM X t f t
t
(V.24)
où les Mcj sont des paramètres à identifier.
Dans la suite du travail, on note de manière générique m les cinq modèles étudiés et
, 1, ,m mj j s θ l’ensemble de leurs s paramètres, comprenant tous les paramètres à
estimer dans les équations (V.20) à (V.24) ainsi que les n valeurs initiales 1ˆ ( )m
cX (c=1,…,n)
des profils estimés.
3.2.5. Estimation paramétrique
Pour faire face à la complexité du problème posé et au nombre élevé de combinaisons
de connexions possibles, nous proposons, comme lors de la modélisation linéaire du réseau de
régulation de la drosophile, de décomposer l’estimation des paramètres en trois étapes.
Premièrement, une solution est identifiée pour reproduire les dérivées temporelles des profils
d’expression. Le problème différentiel est ainsi réduit à un problème algébrique, ce qui
diminue grandement le temps de calcul. Deuxièmement, la solution obtenue à la première
étape, optimale pour les dérivées temporelles des profils d’expression, est optimisée pour la
reproduction des profils d’expression et pour identifier une connectivité maximale utile du
réseau. Troisièmement, on effectue l’étape de réduction paramétrique pour se défaire des
paramètres peu utiles ou pour optimiser d’autres caractéristiques du modèle, i.e. la robustesse
aux perturbations paramétriques et la stabilité des profils d’expression après extrapolation
temporelle.
a) Construction algébrique des réseaux de régulation
Cette première étape consiste à identifier, pour chaque classe c, quelles sont les
connexions régulatrices qui permettent la meilleure reproduction des dérivées temporelles du
profil d’expression ( )c kX . Pour cela, on utilise les profils d’expression expérimentaux
( )c kX comme variables explicatives dans le membre de droite des équations différentielles
(V.20) à (V.24) et on confronte les profils estimés ( )mc kf par les cinq modèles m avec les
profils ddc kX
t
obtenus à partir d’une simple interpolation des données. Dans ce cas, les
109
Chapitre V : Modélisation de réseaux de régulation
profils d’expression et leurs dérivées temporelles sont considérés comme des variables
indépendantes. Cette procédure est dite « algébrique » car elle ne nécessite pas l’intégration
des équations différentielles, ce qui diminue grandement son temps de calcul. En outre, elle
permet, d’une part, de découpler le problème en n sous-problèmes, un pour chaque classe c,
et, d’autre part, de construire le réseau de régulation rapidement et de manière systématique
en ajoutant une à une toutes les connexions régulatrices possibles pour chaque classe c du
réseau. On définit alors la « connectivité » q d’un modèle comme le nombre de connexions
entrantes par nœud du réseau. Dans un premier temps, nous ne considérons qu’une
connectivité constante, c’est-à-dire pour laquelle chaque classe de gènes est régulée par un
même nombre de classes.
Ainsi, pour chaque modèle m, le réseau de départ ne contient aucune connexion, i.e.
q=0. Ensuite pour q=1, on évalue tout d’abord, pour chaque classe de gènes c, l’effet de
l’ajout au réseau de chaque connexion régulatrice possible venant d’une des n classes de
gènes (les connexions de et vers un même nœud sont autorisées) pour calculer le profil
temporel de la fonction , ( )m qc kf . Rappelons que pour les modèles et , une
connexion de régulation est définie par 2 paramètres. Les paramètres sont alors identifiés de
manière à optimiser l’écart quadratique
polNCm e
NNm
,m qcJ entre le profil temporel de la fonction
, ( )m qc kf et celui de l’estimation de la dérivée du profil d’expression de la classe de gènes c :
2
, ,
1
d1( )
d
lc km q m q
c c kk
XJ f
l t
(V.25)
On utilise tout d’abord l’algorithme global d’optimisation Direct (Chiter 2006). Ce dernier
fonctionne de manière dichotomique en partant, pour chaque paramètre j, de la moyenne des
valeurs limites jmin et jmax prédéfinies, et en évaluant, à chaque itération, l’effet de
l’augmentation et de la diminution de ce paramètre. Ainsi, le paramètre j prendra tout d’abord
la valeur min max
+
2
j j . L’algorithme évaluera ensuite, pour chaque paramètre j, la valeur de la
fonction de coût pour min max2
3
j jj
et en
min max 2
3
j jj
et choisira la valeur pour laquelle
la diminution de la fonction de coût est la plus importante. L’algorithme se poursuit jusqu’à
une valeur seuil d’itérations, fixée de manière à ce qu’une convergence de la valeur de la
fonction soit observée. On utilise ensuite la solution obtenue par cet algorithme comme
initialisation pour un algorithme local d’optimisation implémenté dans la routine fmincon du
programme Matlab. Celui-ci utilise un algorithme de programmation quadratique séquentielle
(SQP). Les deux algorithmes d’optimisation cités ci-dessus opèrent sous deux contraintes : les
paramètres Acj et Bcj sont définis positifs par définition et tous les paramètres sont, en valeur
absolue, inférieure ou égale à une valeur seuil. En effet, sans cette dernière contrainte, il
s’avère que certains paramètres tendent à prendre des valeurs toujours plus grandes au fur et à
110
Chapitre V : Modélisation de réseaux de régulation
mesure des optimisations et ce, au détriment de la plausibilité du réseau de régulation obtenu.
La valeur seuil est fixée à 10, de manière à ce que les paramètres conservent des valeurs de
l’ordre de grandeur des valeurs de ( )c kX . En comparant les n valeurs de ,m qcJ , on identifie
enfin la connexion pour laquelle cet écart est minimum et on la conserve pour la suite.
Ensuite, on répète cette procédure pour les valeurs suivantes de q (jusque n) en ne considérant
chaque fois que les (n – q + 1) connexions encore possibles jusqu’à obtenir, pour q = n, une
connexion provenant des n classes de gènes. Notons qu’à chaque itération tous les paramètres
sont à nouveau estimés, seules les connexions identifiées aux itérations précédentes sont
conservées. Enfin, on réitère cette méthode pour chaque classe de gènes c=1,…,n. Comme
nous le verrons ci-après les résultats de cette étapes sont utilisés de deux manières (1) les
paramètres identifiés sont utilisés comme initialisation des paramètres pour q = 1 uniquement
et (2) la séquence de connexions régulatrices identifiées comme optimale lors de cette étape
préliminaire est utilisée pour définir la structure du réseau de régulation, pour une
connectivité q donnée.
b) Optimisation paramétrique et connectivité maximale utile
La solution obtenue à l’étape précédente étant optimale pour reproduire les dérivées
temporelles des profils d’expression et non les profils d’expression eux-mêmes, elle souffre
de l’erreur d’estimation des dérivées temporelles des profils lors de l’interpolation des profils
d’expression. Par ailleurs, elle est obtenue en traitant les profils d’expression et leurs dérivées
temporelles comme des variables indépendantes. C’est pourquoi, il est ensuite nécessaire
d’optimiser les paramètres obtenus, en intégrant les équations différentielles à chaque
itération, pour que les profils ˆ ( )mc kX estimés par le modèle m reproduisent au mieux les
profils expérimentaux ( )c kX . Pour cela, on considère, pour chaque valeur de q=1,…,n, le
réseau formé par les nq connexions identifiées à l’étape précédente. Pour q=1, l’optimisation
est initialisée soit à la valeur des paramètres optimaux pour les dérivées temporelles estimées
ddc kX
t
, soit à la solution nulle (tous les paramètres égaux à zéro). Dans chaque cas, ces deux
initialisations sont évaluées et celle qui mène à la plus faible valeur de la fonction de coût est
conservée. Ensuite pour q > 1, on initialise la recherche à la solution de la connectivité q – 1
précédente. Les nouvelles connexions libérées sont quant à elles initialisées à zéro. On utilise
alors l’algorithme local d’optimisation implémenté dans la routine fmincon du programme
Matlab, sous les mêmes contraintes que dans l’étape précédente, pour minimiser l’écart
quadratique moyen entre les profils ,m q ,ˆ ( )m qc kX estimés par ce modèle (m, q) de réseau et
les profils expérimentaux normalisés c kX :
2,
1 1
1 ˆ ( )n l
m q m qc k c k
c k
X Xnl
, (V.26)
111
Chapitre V : Modélisation de réseaux de régulation
Notons que cette fonction n’est pas pondérée par l’inverse de la variance de profils
d’expression, comme c’était le cas pour le modèle linéaire. Ce choix se justifie par le fait que
dans la classification hiérarchique utilisée dans la présente étude, les profils moyens des
classes de gènes sont calculés à partir des profils des gènes de la classe correspondante après
superposition sur le profil représentatif de la classe (voir chapitre IV). Dès lors, l’écart-type
apparaissant lors de cette opération varie beaucoup moins que celui obtenu avec la méthode
SSC. Dès lors, cet écart-type correspond plus au bruit de mesure encadrant les profils
d’expression qu’aux tendances que ces profils suivent. C’est pourquoi cette pondération n’a
pas été considérée ici. Il serait toutefois intéressant de vérifier cela en répétant la présente
étude avec une pondération par la disparité des données.
Ainsi, la procédure décrite ci-dessus montre bien l’aspect « bottom-up » de l’approche
puisque à chaque étape, on libère de nouveaux degrés de liberté en générant de nouvelles
connections dans le réseau de régulation.
Enfin, pour chaque modèle m, on observe l’évolution de avec q et on identifie la
« connectivité maximale utile » au-delà de laquelle ne diminue plus
significativement. On considère alors que suffisamment de connections ont été générées pour
reproduire les données et on abandonne les autres valeurs de q pour ce modèle m.
,m qmax
mq ,m q
c) Réduction paramétrique
L’objectif de cette dernière étape est de se défaire des paramètres inutiles. En effet, les
solutions (m,qmax) supposent une connectivité égale pour chaque nœud du réseau. Dès lors, on
propose de lever cette hypothèse en autorisant l’élimination de certains paramètres pour
réduire la connectivité de certains nœuds en conservant une bonne reproduction des données
ou en améliorant la robustesse paramétrique de la solution.
Notons tout d’abord que les procédures d’élimination développées dans cette section
ne s’appliquent pas à tous les s paramètres (j=1,…,s) mais uniquement au sous-
ensemble
, ,m q m qj θ
,, , 1, , m qm qj j v s ,m qξ θ des v paramètres définissant les connexions du
réseau, à savoir les Acj, Bcj, Tcj et Ecj. Les autres paramètres ainsi que les n valeurs initiales ˆ ( )m
c kX (c=1,…,n) des profils estimés sont toujours conservées.
En outre, on impose que l’évolution temporelle de la concentration relative en ARNm ( )c kX de la classe de gène c (c=1,…,n) soit toujours gouvernée par la concentration relative
en ARNm d’au moins une classe de gène et ce, pour éviter d’obtenir des profils d’expression
estimés constants, observés uniquement dans le stade adulte dans les données étudiées. En
d’autre termes, il restera toujours au moins un paramètre de pour chaque classe de gènes. ,m qξ
Enfin, comme l’élimination de paramètres réduit le nombre de degrés de liberté, elle
ne peut en principe qu’augmenter l’écart entre les profils estimés et les profils expérimentaux.
112
Chapitre V : Modélisation de réseaux de régulation
On désire, dans cette méthode, pouvoir éliminer le plus de paramètres possible sans que cet
écart ne devienne trop important. C’est pourquoi on choisit d’interrompre cette procédure
lorsque cet écart moyen dépasse un seuil σmax (typiquement 0.5) qui sera choisi lors de
l’examen des profils estimés avant l’étape de réduction paramétrique. Cette valeur seuil est
choisie parce qu’au-delà de celle-ci on observe systématiquement que les écarts entre profils
expérimentaux et estimés deviennent significativement importants. On en déduit que la
solution correspondante n’est pas capable de reproduire les profils expérimentaux de manière
satisfaisante. Il convient toutefois de garder à l’esprit que cette valeur est une moyenne sur
toutes les classes de gènes et que par conséquent, un examen visuel de tous les profils estimés
est nécessaire pour distinguer les solutions qui reproduisent tous les profils de manière
correcte de ceux qui reproduisent très bien la plupart des profils et mal un ou deux profils. On
pourrait, à l’avenir, rendre ce critère plus performant en le combinant, par exemple, avec un seuil spécifique au profil de chaque classe c. La procédure de réduction paramétrique
s’interrompt donc ici lorsqu’un des deux critères définis est atteint ou lorsqu’aucun paramètre
ne satisfait plus à la condition d’élimination choisie. Ainsi, si l’on note CE le critère
d’élimination du paramètre dans la procédure r et
maxc
rj
, ,m q rj
,, , , 1, ,v
nm qm q m q
c c k k
ξ ξ le
sous-ensemble de paramètres intervenant dans la régulation de la classe de gènes c, on a :
, , , , , ,, , max[1, ] | CE 0 [1, ], 1, , 0 : 0m q r m q r m q rr m q rj j c jk
vj v c n k
n
(V.27)
Après chaque élimination d’un paramètre, les paramètres restants sont à nouveau
optimisés à l’aide de la routine fmincon de Matlab. Cette procédure de réduction est réitérée
jusqu’à ce que la condition ci-dessus ne soit plus vérifiée. Cinq méthodes de réduction, notées
r de manière générique, sont proposées pour le choix des paramètres à éliminer. : élimination des paramètres à faible valeur absolue vr
Dans cette méthode, on choisit d’éliminer, à chaque itération, le paramètre restant le
plus faible en valeur absolue. Ainsi, pour k=1,…,v ≤ s:
, , , , , ,[1, ] | min : 0v vm q r m q r m q rj k
kj v (V.28) v
j ξ ξ ξ
A chaque itération, on pose le paramètre satisfaisant à cette condition égal à 0 et on optimise
les paramètres restants pour minimiser l’écart entre les profils , , vm q r , ,ˆ ( )vm q r
cX k estimés
par ce modèle (m,q, ) et les profils expérimentaux vr ( )c kX .
r : élimination des paramètres qui influencent peu la reproduction des données
Dans cette méthode, on élimine les paramètres qui semblent les moins utiles pour
reproduire les données. Ainsi, on évalue systématiquement l’écart quadratique moyen , ,m q r
113
Chapitre V : Modélisation de réseaux de régulation
entre les profils expérimentaux ( )c kX et les profils , ,ˆ ( )m q rcX
k estimés par ce modèle
(m,q, r ) après l’élimination de chacun des paramètres , ,m q rj
restants (sans optimiser les
autres paramètres). On identifie alors le paramètre qui, lorsqu’il est éliminé donne lieu à un
écart minimum. On le pose égal à 0, puis on optimise les paramètres restants pour minimiser
l’écart , ,m q r . On élimine ainsi, les paramètres le moins sensibles du modèle, i.e. ceux dont
l’élimination modifie le moins la fonction , ,m q r . On a donc pour k=1,…,v ≤ s:
, , , ,, , , ,[1, ] | ( 0) min ) : 0m q r m q m q rm q r m q rj jk
k
, ,( 0rj v
p
(V.29)
: élimination des paramètres les plus sensibles aux perturbations r
Dans cette méthode, on élimine à chaque itération le paramètre le plus sensible à une
faible perturbation car, comme discuté plus haut, on considère ici qu’un modèle
biologiquement pertinent doit être robuste aux faibles perturbations paramétriques. Ainsi, on
évalue systématiquement l’écart quadratique moyen , , pm q r entre les profils expérimentaux
( k )cX et les profils , ,ˆ ( )pm q r
cX k estimés par ce modèle (m,q, ) avant et après la
perturbation individuelle de ±1% de chacun des paramètres restants (sans optimiser les autres
paramètres), de la même manière que lors de l’étude de robustesse du modèle linéaire (voir
section 2.1.6). En notant
pr
, , pm q rj les valeurs perturbées des
, , pm qj
r, on identifie alors la
différence maximale , , pm q r observée entre la fonction , ,(
, ,)ppm q r m q r
j après chaque
perturbation et la fonction , , pm q r avant perturbation. On élimine définitivement le paramètre
dont la perturbation individuelle mène à la différence maximale observée entre ces fonctions
pour toutes les éliminations possibles. On élimine ainsi les paramètres les plus sensibles du
modèle, i.e. ceux dont l’élimination modifie le plus la fonction , , pm q r . On a donc pour
k=1,…,v ≤ s :
, , , , , ,, , , , , ,
, , , ,, , , , , ,
[1, ]
avec
j v
F
θ
| ( ) ( ) = : 0
max ( ) ( )
p p pp p p
p pp p p
m q r m q r m q rm q r m q r m q rj j j
m q r m q rm q r m q r m q rk k
k
s
(V.30)
: élimination des paramètres les moins sensibles au sens de Fisher r
Dans cette méthode, on effectue une analyse de sensibilité paramétrique pour chaque
solution réduite. On définit ainsi une nouvelle sensibilité, dite « au sens de Fisher », des
paramètres du modèle. Cette dernière est à distinguer de la sensibilité aux perturbations
paramétriques en ce sens qu’elle correspond à des variations paramétriques infinitésimales et
qu’elle est obtenue analytiquement. Pour ce faire, on intègre les équations différentielles avec
l’ensemble de tous les paramètres résiduels. Ainsi, en posant : , , ; 1, ,Fm q rj j
114
Chapitre V : Modélisation de réseaux de régulation
, ,ˆˆ ( , ) ( ) , 1,...,Fm q rc kt X c n
X θ (V.31)
et , ,ˆ( , , ) , 1,...,Fm q rct f c n
f X θ , (V.32)
on a : ˆd ( , ) ˆ( , )d
t
t
X θf X θ . (V.33)
D’où, ˆ ˆ ˆd d ( , ) ( , ) d ( , ) ( , )
ˆd d d
t t
t
X θ f X θ X θ f X θ
θ θX
ˆθ
. (V.34)
Comme θ et t sont indépendants, on peut écrire :
ˆ ˆd ( , ) ( , )
d
t t
X θ X θ
θ θ et
ˆ ˆd ( , ) ( , )
d
t
t t
X θ X θ t
. (V.35)
et ˆ ˆd d ( , ) d d ( , )
d d d d
t t
t t
X θ X θ
θ θ . (V.36)
Dès lors, en définissant la fonction de sensibilité G :
, ,
, ,
ˆˆ ˆ ( )d ( , ) ( , )( , ) , 1,..., et 1,...,
d
F
F
m q rc k
m q rj
Xt tt c
X θ X θG θ
θ θn j s , (V.37)
on peut résoudre analytiquement les équations de sensibilité du modèle (m,q, ) : Fr
ˆ ˆd ( , ) ( , ) ( , )
( , )ˆd
tt
t
G θ f X θ f X θ
G θθX
(V.38)
avec la condition initiale, pour j=1,…,v ≤ s :
, ,
, , , ,
, ,1
0 0
0
1 pour ( )1
0 sinon
ˆˆ avec
ˆˆ ( , )( , )( ) ( , )
F
F F
F
m q rm q r m q rcj cm q r
j
t
t
XX
tt
X θX θG θ G θ
θ θ (V.39)
115
Chapitre V : Modélisation de réseaux de régulation
La dernière égalité provient du fait que les conditions initiales 1ˆ ( , )X θ
ˆ
font partie des
paramètres de θ à estimer. Dès lors, les dérivées des conditions initiales 1( , )X
1ˆ ( , )
θ par rapport
à elles-mêmes sont égales à 1 et les dérivées des conditions initiales X θ par rapport aux
autres paramètres de θ sont nulles.
On construit alors, pour la solution (m,q, Fr ), la matrice d’information de
Fisher , , , , , , 1,...,F Fm q r m q rijF i j s
F (Chu & Hahn 2009) ainsi que sa matrice de
corrélation , , , , , , 1,F Fm q r m q rij ...,K i j
K s en sommant le produit des fonctions de
sensibilité sur tous les instants de la série temporelle (Daun et al. 2008) :
, , T
1
( , ) ( , )F
lm q r
kk
k
F G θ G θ (V.40)
soit
, , , ,, ,
, , , ,1 1
ˆ ˆ( , ) ( , )F F
F
F
m q r m q rpng k gm q r
ij m q r m q rg k i j
X XF
θ θ
F
k (V.41)
et ( , 1,..., )F
F
F F
m,q,rijm,q,r
ijm,q,r m,q,r
ii jj
FK = i j
F F
v (V.42)
On choisit ensuite d’éliminer à chaque itération, parmi les paramètres qui présentent une forte
corrélation avec au moins un autre paramètre, le paramètre le moins sensible au sens de
Fisher. En effet, si 2 paramètres sont corrélés, on peut supposer qu’il y a une redondance dans
l’information qu’ils apportent. En outre, l’élimination des paramètres les moins sensibles est
une méthode classique de réduction paramétrique car elle améliore la précision du modèle
(Sun & Hahn 2006). Pour cela, plusieurs quantificateurs scalaires de la matrice F (trace,
déterminant, valeur propre minimale), utilisés classiquement comme critères de la sensibilité
globale du modèle (Chu & Hahn 2009) ont été testés. Au final, peu de résultats se sont révélés
exploitables. C’est pourquoi le critère choisi est ici simplement la valeur de la diagonale de la
matrice d’information de Fisher. On élimine donc le paramètre , , Fm q rj
si et seulement si les
conditions 1° et 2° sont satisfaites :
1° (V.43) , ,[1, ] | 0.9Fm q rjkk v k j K
2° , , = min | 1° , =1,...,F Fm q r m,q,rjj ii
iF F i
v s (V.44)
116
Chapitre V : Modélisation de réseaux de régulation
La condition 1° impose la corrélation entre le paramètre , , Fm q rj
considéré et un autre
paramètre , , Fm q rk
, ,
restant et la condition 2° impose la faible sensibilité au sens du Fisher du
paramètre Fm q rj
. Ainsi,
, ,[1; ] | 1° 2° : 0Fm q rjj v
(w=1,…,v ≤ s) (V.45)
: élimination des paramètres les plus sensibles au sens de Fisher Fr
Dans cette méthode, on procède au raisonnement inverse à celui pour . Au lieu
d’éliminer les paramètres corrélés les moins sensibles, on élimine les paramètres corrélés les
plus sensibles, pour se rapprocher de l’objectif de robustesse paramétrique poursuivi dans ce
travail même si la précision des paramètres obtenus ne pourra qu’être moins bonne qu’avec la
méthode de réduction précédente. Dès lors, le paramètre
Fr
, , Fm q rj
est éliminé si et seulement si
les conditions 1° et 3° sont satisfaites :
1° (V.46) , ,[1, ] | 0.9Fm q rjkk v k j K
3° , , = max | 1° , =1,...,F Fm q r m,q,rjj ii
kF F i
v s (V.47)
Ainsi, , ,[1; ] | 1° 3° : 0Fm q rjj v
(V.48)
3.2.6. Critères d’évaluation des solutions
Les solutions, réduites ou non, sont évaluées selon 4 critères détaillés ci-après : (1) la
bonne reproduction des données d’expression, (2) la robustesse paramétrique, (3) la valeur
des éventuels points attractifs pendant la durée de vie de l’organisme et (4) le niveau de
réduction paramétrique. La sensibilité au sens de Fisher a également été étudiée mais il s’est
avéré que les quantificateurs de la matrice d’information de Fisher (trace, déterminant, etc.)
variaient peu. Cette situation s’explique par le fait que celle-ci est calculée en considérant
l’ensemble de tous les paramètres et que les modèles sont particulièrement sensibles, au
sens de Fisher, aux conditions initiales. Or, celles-ci sont toujours conservées dans cette étape
de réduction paramétrique. C’est pourquoi ce critère n’est pas examiné.
θ
(1) On évalue la capacité des solutions à reproduire les données en observant la valeur
de l’écart quadratique moyen entre les profils , ,m q r , ,ˆ ( )m q rcX k estimés par ce modèle
(m,q,r) après réduction et les profils expérimentaux ( )c kX en fonction du nombre de
paramètres nécessaires.
(2) On évalue la robustesse paramétrique de la solution étudiée en perturbant chaque
paramètre par l’ajout de ± 1% de sa valeur absolue, de la même manière que lors de l’analyse
de robustesse paramétrique du modèle linéaire à la section 2.1.6 de ce chapitre. En notant
les valeurs perturbées des , on identifie alors, pour chaque perturbation, le plus , ,m q rj
, ,m q rj
117
Chapitre V : Modélisation de réseaux de régulation
grand écart , pour une classe donnée c’ et à un instant donné k’, entre la valeur
expérimentale
, , , ,', ' (m q r m q r
jc k )
' '( )cc kX et estimée , , , ,''
ˆ ( ,m q r m q r )j kcX par ce modèle perturbé. On détermine
ensuite la perturbation qui maximise cet écart local et on quantifie la robustesse
paramétrique de la solution (m,q,r) en considérant l’écart quadratique moyen
entre les profils expérimentaux
, ,'
m q rj
, ,, ,'( )m q rm q r
j
( )c kX et les profils , ,, ,'
ˆ ( ,m q rm q rc jX )k estimés par ce modèle
perturbé :
, ,', '
m q rc k , ,( )m q r , ,, , ,
,
ˆmax ( , )m q rm q r wj c k c j k
c kX X
(V.49)
, , , , , ,' ', '( ) max ( )r m q r m q r m q r
jj c kj
, ,', ' | m q
c k' [1, ]j v (V.50)
2, ,( )m q r
, ,
, , , ,, ,pert ' 'i
1 1
1 ˆ ( , )n l
m q r m q rm q ri k kj j
i k
X Xnl
, ,m q r (V.51)
Ainsi, si la valeur de pertm q r est faible, cela signifie qu’en perturbant chacun des paramètres
du modèle (m,q,r), celui-ci est suffisamment robuste que pour continuer à reproduire
correctement les données. Notons que cet objectif de grande robustesse paramétrique
implique une faible sensibilité paramétrique et donc une faible précision de la valeur des
paramètres estimés mais, comme cela a déjà été expliqué précédemment (voir section 3.1),
étant donné la nature stochastique des processus moléculaires à l’origine des interactions entre
gènes et produits de gènes, on ne cherche pas ici à obtenir une grande précision sur la valeur
des paramètres estimés. Il s’agit surtout d’identifier une structure du réseau robuste aux
variations paramétriques dues à cette nature stochastique.
(3) On observe leur comportement en extrapolant les profils estimés au-delà de la
période de temps de mesure et on quantifie la « stabilité » des profils d’expression par la
moyenne, pour chaque profil c, des écarts entre les profils estimés après une période
d’extrapolation [τl,τxp] après la période de mesure [τ1,τl] et la valeur moyenne du profil estimé
pendant la période de mesure. Cette nouvelle période [τl,τxp] est fixée à 3 fois la période de
mesure, mais ne doit pas dépasser la durée de vie de l’organisme τlife = 80 jours (voir section
2.1.7).
, ,
xpec
m q r , , , ,xp
1 1
1 life
1 1 ˆ ˆ( )
min 3( ) ,
n lm q r m q ri k i l
i k
l l
X Xn l
av
(V.52)
Ainsi, si la valeur de est faible, les profils estimés tendent à se stabiliser vers de points
attractifs à des valeurs plausibles pendant la durée de vie de l’organisme.
, ,m q r
(4) Enfin, on compare naturellement les niveaux de réduction paramétrique atteints par
les différents modèles et procédures de réduction en comparant à la fois le nombre de
connexions et le nombre de paramètres dans les réseaux avant et après réduction.
118
Chapitre V : Modélisation de réseaux de régulation
3.3. Résultats
La méthode de modélisation décrite ci-avant est appliquée à quatre séries
temporelles de classes de profils d’expression, à savoir le stade embryonnaire (l=31), le stade
larvaire (l=10) et le stade de pupe ou métamorphose (l=18), tous deux en appendice de ce
chapitre, et la série complète (l=67). Ensuite, les modèles sont développés pour deux séries
ensembles réduits de gènes : le sous-réseau de régulation du développement musculaire (voir
section 3.2.1) et les réseaux synthétiques (voir section 3.2.2).
3.3.1. Stade embryonnaire
La classification hiérarchique des données d’expression des 4005 gènes de la
drosophile pendant le stade embryonnaire mène à 10 classes de gènes (voir chapitre IV
section 2.2.2). Les profils moyens de ces classes sont alors utilisés dans la modélisation du
réseau de régulation.
a) Construction algébrique des réseaux de régulation
En appliquant la méthode décrite au point 3.2.5, on construit l’architecture des réseaux
pour les cinq modèles m étudiés. La Figure V.30a représente le pourcentage de connexions
communes aux cinq modèles à chaque étape de cette construction et ce, sans tenir compte des
signes attribués à ces connexions.
a b
Figure V.30 : Construction algébrique des réseaux pour les cinq modèles étudiés. a. Evolution du pourcentage de connexions communes aux cinq modèles m en fonction de la connectivité q. b. Evolution de l’écart quadratique moyen , ( 1,..., )m q
cS c n entre
les profils estimés ddc kX
t
et interpolés des dérivées temporelles des profils
expérimentaux en fonction de la connectivité q. Courbe rouge : ; courbe
rose : ; courbe verte : ; courbe noire : ; courbe bleue : .
polNCm
lineNNm e
NCm eCNm m
On constate que les modèles construisent des réseaux au départ assez différents les uns
des autres. Ainsi, pour q=1, seule 1 connexion est commune aux cinq modèles. Le
pourcentage de connexions communes est donc de 10%. Par la suite, ce pourcentage reste aux
environs de 20% avant d’augmenter, selon toute logique, vers un réseau plein en q=10. La
119
Chapitre V : Modélisation de réseaux de régulation
Figure V.30b représente l’évolution de l’écart quadratique moyen , ( 1,..., )m qcS c n entre les
profils estimés ddc kX
t
et interpolés des dérivées temporelles des profils expérimentaux. On
constate que cet écart est significativement plus grand pour le modèle que pour les autres
et qu’il ne diminue guère avec l’ajout de nouvelles connexions. La meilleure reproduction de ces profils est atteinte par le modèle , qui est le modèle comprenant le plus grand nombre
de paramètres.
polNCm
eNNm
b) Identification de la connectivité maximale utile
Les paramètres sont alors estimés, selon la méthode décrite au point 3.2.5 pour minimiser l’écart entre les profils ,m q ,ˆ ( )m q
c kX estimés par les cinq modèles m et les profils
expérimentaux ( )c kX et ce, pour q=1,…,4. La Figure V.31 représente l’évolution de cet écart
en fonction du nombre de paramètres dans chaque modèle, chaque point correspondant à une
valeur de q :
Figure V.31 : Evolution de l’écart quadratique moyen entre les profils ,m q,ˆ ( )m q
c kX estimés et les profils expérimentaux ( )c kX pour les cinq modèles étudiés
en fonction du nombre s de paramètres des modèles. Courbe rouge : ; courbe
rose : ; courbe verte : ; courbe noire : ; courbe bleue : .
polNCm
eNNm e
NCm eCNm linm
On constate tout d’abord que le modèle reste médiocre en termes de reproduction
des profils expérimentaux. Ce résultat se retrouve dans chaque série temporelle étudiée et se
justifie par le fait que dans ce modèle, les contraintes sur les paramètres sont plus strictes que
pour les autres modèles. En effet (voir section 3.2.4), les paramètres Acj et Bcj sont positifs par définition. En outre, on observe que, pour le même nombre de paramètres, le modèle est
toujours meilleur que le modèle . Ensuite, pour q=3, on observe que le modèl eNN est
ici moins bon qu eNC alors qu’il comprend plus de paramètres. On attribue cette incohérence
apparente à la présence d’un minimum local dans la fonction de coût lors de l’optimisation
des paramètres, plus nombreux dans ce modèle. En initialisant les paramètres de ce modèle à la solution du modèle (les autres paramètres étant initialisés à zéro, on constate que ces
derniers restent extrêmement faibles, ce qui traduit le fait que la recherche paramétrique locale ne permet pas de s’éloigner de la solution du modèle .
polNCm
eCNm
meNCm e
e m
eNCm
eNCm
Enfin, on voit que, si l’écart décroît de façon monotone pour le modèle linéaire , il atteint en revanche une valeur constante à partir de q=2 pour les modèles et
,m q
linm eNNm e
NCm
120
Chapitre V : Modélisation de réseaux de régulation
et à partir de q=3 pour . On observe par ailleurs que cette stabilisation de est plus marquée que celle de
eCNm ,m q
, m qc ( 1,..., )S c n à la figure précédente. La connectivité maximale qmax,
au-delà de laquelle aucune amélioration significative n’est observée, est dès lors fixée à 3.
c) Comparaison des modèles étudiés
On compare ensuite les 5 modèles à q=3, selon les 3 premiers critères décrits au point 3.2.6.
Reproduction des profils expérimentaux La Figure V.32 représente les écarts , 3m q pour les cinq modèles étudiés et la Figure
V.33 montre les profils expérimentaux et estimés par ces modèles pour la classe de gènes 8
(les profils des autres classes de gènes se trouvent en annexe A.18).
Figure V.32 : Ecart quadratique moyen , 3m q entre profils expérimentaux et estimés pour les cinq modèles étudiés
On constate, en examinant les figures V.32 et V.33 ainsi que les autres profils donnés en annexe A.18, que le modèle présente un pol
NCm , 3m q plus élevé que les autres modèles et que
les profils estimés par celui-ci s’avèrent incapables de suivre les tendances de tous les profils
expérimentaux. En conséquence, la réduction paramétrique de ce modèle ne sera pas effectuée
ci-après.
Figure V.33 : Profils expérimental ( )c kX et estimés ,ˆ ( )m q
c kX par les cinq modèles
étudiés pour la classe de gènes 8. Points bleus : profil expérimental ( )c kX ; courbes :
profils estimés ,ˆ ( )m qc kX . Courbe rouge : ; courbe rose : ; courbe verte : ;
courbe noire : ; courbe bleue : .
polNCm e
NNm eNCm
eCNm linm
121
Chapitre V : Modélisation de réseaux de régulation
Sur la base de l’observation des profils estimés par les cinq modèles, la valeur moyenne seuil
de = 0.5 est choisie comme limite pour la reproduction des profils expérimentaux. , 3m q
Robustesse aux perturbations paramétriques La Figure V.34 représente les valeurs de , 3
pertm q , en comparaison avec celles de , 3m q ,
pour les cinq modèles. On observe ici une nette différence entre le modèle linéaire qui est
plus sensible aux perturbations paramétriques et les modèles non linéaires qui s’avèrent tous
très robustes.
lim n
0,31
0,560,56
0,37
0,3
0
0,1
0,2
0,3
0,4
0,5
0,6
m=1 m=2 m=3 m=4 m=5
polNCm e
NNm eNCm e
CNm linm
Figure V.34 : Ecarts quadratiques moyens , 3m q entre profils expérimentaux et
estimés et entre profils expérimentaux et estimés après perturbation des
paramètres, pour les cinq modèles étudiés. Barres noires:
, 3pertm q
, 3m q ; barres grises: . , 3pertm q
Stabilité des profils après extrapolation temporelle
Enfin, on observe le comportement des profils estimés par les cinq modèles en les
extrapolant d’une période trois fois plus longue que la période de mesure (voir section 3.2.6),
soit jusqu’à τxp=τ1+3(τl–τ1), soit 4 jours. La Figure V.35 montre les valeurs de par les
cinq modèles et la Figure V.36 les 10 profils extrapolés estimés pour les modèles et .
, 3m q
eCNm linm
200
polNCm e
NNm eNCm e
CNm linm
Figure V.35 : Critère de stabilité , 3m q
pour les cinq modèles étudiés.
122
Chapitre V : Modélisation de réseaux de régulation
On constate que les profils extrapolés estimés par les modèles non linéaires restent en
moyenne de l’ordre de grandeur des profils avant extrapolation, la plus faible valeur étant
observée pour le modèle . Pour le modèle linéaire toutefois, la valeur de dépasse
de loin toutes les autres, en accord à ce qui a été observé au point 2.2.5 de ce chapitre. Cela
est dû au comportement divergent que présentent les profils estimés par ce modèle (Figure
V.36b). Dans ce travail, ce type de comportement divergent est observé pour le modèle linéaire dans chaque solution, réduite ou non. C’est pourquoi il ne peut constituer un
modèle plausible de réseau de régulation de l’expression des gènes. Par conséquent, sa
réduction paramétrique ne sera pas développée ci-après. Notons qu’à la Figure V.36a, on observe qu’un profil estimé par la modèle est toujours en croissance. Cela signifie que
l’état stationnaire estimé pour la classe de gène correspondante n’est pas encore atteint. En
effet, dans chaque solution des modèles non linéaires étudiés, on constate que tous les profils
d’expression finissent par se stabiliser après un certain temps.
eCNm
, 3m q
linm
eCNm
a b
Figure V.36 : Profils estimés par les modèles (a) et (b) jusqu’au temps eCNm linm
τxp = 4 jours
Intersection des modèles conservés , et e
NNm eNCm e
CNm
Les trois modèles restants , et s’avèrent être les meilleurs candidats pour
modéliser, selon les critères choisis, l’évolution temporelle de l’expression des gènes de la
drosophile. Ces réseaux ont une connectivité de q=3, ils contiennent donc à ce stade 10x3=30
connexions. On constate que ces trois réseaux ne partagent que 9 connexions (30%) dont 3
(10%) seulement sont de même signe dans les trois réseaux. En outre, des 100 connexions
possibles, 47 (47%) sont absentes dans les trois réseaux. Ainsi, ces trois solutions s’accordent
sur 56% des connexions possibles et sur 50% de leur signe. Ces sous-réseaux d’intersection
sont représentés à la Figure V.37.
eNNm e
NCm eCNm
123
Chapitre V : Modélisation de réseaux de régulation
a b
-1
Figure V.37 : Intersection des réseaux de régulation , et en tenant
compte (a) ou non (b) des signes des interactions. Figure obtenue avec Matlab.
eNNm e
NCm eCNm
d) Réduction paramétrique
Les cinq méthodes de réduction paramétrique sont alors appliquées aux trois modèles conservés ,
et . Les 15 solutions réduites sont ensuite étudiées selon les quatre
critères décrits à la section 3.2.6.
eNNm e
NCm eCNm
Modèle e
NNm
La Figure V.38 montre l’évolution des trois premiers critères (a),
(b) et (c) en fonction du nombre s de paramètres restant dans le modèle,
lors de la réduction paramétrique.
, 3,eNNm q r
, 3,pert
polNCm q r , 3,pol
NCm q r
a b c
Figure V.38 : Evolution des critères d’évaluation pendant les réductions paramétriques
pour le modèle , q=3. Courbe bleue : ; courbe noire eNNm vr r ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) ; (b) ; (c) .
pr
,rFr
Fr ,e
NNm q 3,r ,pert
eNNm q 3,r , 3e
NNm q
On observe clairement que les meilleurs résultats sont ici obtenus avec les méthodes
et vr
r . La méthode permet d’éliminer le plus de paramètres tandis que la méthode vr r mène
à la solution réduite finale la plus robuste et la plus stable. Par ailleurs, pour un même nombre
124
Chapitre V : Modélisation de réseaux de régulation
de paramètres, la méthode r mène presque toujours à un meilleur que . Les trois autres méthodes présentent de moins bonnes performances, en particulier la méthode qui
ne parvient qu’à éliminer que quelques paramètres. Les méthodes
, 3,eNNm q r
Fr
vr
pr
et montrent des
résultats similaires entre elles. Par ailleurs, on constate que toutes les solutions réduites
montrent une grande robustesse aux perturbations paramétriques et une grande stabilité des
profils d’expression. En effet, d’une part, les valeurs de sont presque toutes
identiques à celles de , ce qui indique qu’aucune des faibles perturbations
paramétriques envisagées n’induit d’augmentation de et, d’autre part, toutes les
valeurs de sont inférieure à 1, ce qui montre que les profils d’expression tendent en
moyenne à se stabiliser à une valeur très proche de la valeur moyenne pendant la période de
mesure.
Fr
, 3,lm q r
r
pert
poNN
, 3,m q
, 3,m q reNN
eNN
, 3,eNNm q r
Ensuite, on constate, à la Figure V.39, que pour chaque méthode de réduction, les
profils estimés après réduction reproduisent très bien certains profils expérimentaux et moins
biens d’autres. Les profils relatifs aux autres classes de gènes se trouvent en annexe A.19.
a b
Figure V.39 : Profils expérimental ( )c kX et estimés , (m qcX̂ )k par le modèle
après réduction paramétrique. Points bleus : profil expérimental
eNNm
( )c kX ; courbes :
profils estimés , (m qcX̂ )k . Courbe bleue : ; courbe noire vr r ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) Classe de gènes 1 ; (b) classe de gènes 2.
pr
Fr
Fr
, 3,m q r
r
Dans le cas présent, toutes les solutions réduites échouent à reproduire correctement
les profils d’une à trois classes de gènes sur les dix (voir annexe A.19). Il en résulte que la
valeur seuil de 0.5 pour est ici trop élevée. Rappelons que, cette valeur étant une
moyenne sur toutes les classes de gènes, elle peut correspondre soit à une reproduction
satisfaisante de tous les profils, soit, comme c’est le cas ici, à une très bonne reproduction de
la plupart des profils et une mauvaise reproduction de certains. Dès lors, pour obtenir une
solution réduite reproduisant bien les profils de toutes les classes, les solutions précédentes
dans les réductions paramétriques doivent être considérées. Plus particulièrement, les solutions des méthodes et
eNN
vr se situant juste avant l’augmentation significative de
(Figure V.38a) permettent une bonne reproduction de tous les profils. Comme cela , 3,eNNm q r
125
Chapitre V : Modélisation de réseaux de régulation
a déjà été proposé plus haut, l’adaptation du critère de reproduction de données en le
considérant pour chaque classe de gènes séparément permettrait probablement, à l’avenir, de
sélectionner des solutions plus pertinentes.
Enfin, la Figure V.40 montre le nombre de paramètres (a) et de connexions (b) encore présents dans les dernières solutions réduites. Rappelons que dans ce modèle , une
connexion est définie par deux paramètres (voir V.20). L’élimination d’une connexion jc ne
peut donc survenir que si les deux paramètres Tcj et Ecj sont éliminés. On constate que, pour
une même condition < 0.5, les solutions obtenues par les méthodes et
eNNm
r, 3,e
NNm q r vr sont
plus réduites que les autres alors que celle obtenue par la méthode comporte autant de
connexions qu’avant réduction.
pr
a b Figure V.40 : Nombre de paramètres (a) et de connexions (b) conservés dans le
réseau de régulation pour et les cinq réductions étudiées. Les barres noires eNNm
correspondent à la solution non réduite et les barres grises aux solutions réduites.
Modèle e
NCm
La Figure V.41 montre l’évolution des critères (a), (b) et
(c) en fonction du nombre de paramètres, lors de la réduction paramétrique.
, 3,eNCm q r , 3,
pert
eNCm q r
, 3,eNCm q r
a b c
Figure V.41 : Evolution des critères d’évaluation pendant les réductions paramétriques
pour le modèle q=3. Courbe bleue : ; courbe noire :eNCm vr r ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) ; (b) ; (c) .
pr
Fr
Fr , 3e
NCm q ,r , 3,pert
eNCm q r , 3,e
NCm q r
126
Chapitre V : Modélisation de réseaux de régulation
On observe que la méthode offre la solution la plus réduite, juste devant la méthode vr
r . Les trois autres méthodes mènent à des solutions un peu moins réduites. En outre, on
constate que, comme pour le modèle précédent, les valeurs de et de sont
identiques pour toutes les solutions. Il en résulte que toutes les solutions réduites sont
extrêmement robustes aux perturbations paramétriques. Enfin, on observe que les valeurs de
des solutions réduites finales sont toujours comprises entre 2 et 4, ce qui indique
que les profils d’expression se stabilisent en moyenne à une valeur de l’ordre des valeurs prises par les profils d’expression. Seule la méthode
, 3,eNCm q r , 3,
pert
eNCm q r
, 3,eNCm q r
Fr mène à une solution moins stable avec
un proche de 7. ,eNCm q 3,r
En observant, à la Figure V.42, les profils estimés pour les classes de gène 2 et 4, on
constate que toutes les solutions reproduisent très biens certains profils et retrouvent les
tendances globales d’autres profils. Les profils relatifs aux autres classes de gènes se trouvent
en annexe A.20.
a b
Figure V.42 : Profils expérimental ( )c kX et estimés ,ˆ ( )m qc kX par le modèle
après réduction paramétrique. Points bleus : profil expérimental
eNCm
( )c kX ; courbes :
profils estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire rvr ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) Classe de gènes 2 ; (b) Classe de gènes 4.
pr
Fr
Fr
Enfin, la Figure V.43 montre le nombre de paramètres (a) et de connexions (b) encore
présents dans le réseau de régulation après les cinq réductions. On observe que, comme pour
le modèle précédent, pour la même contrainte < 0.5, les méthodes et r, 3,e
NCm q r vr mènent
aux solutions les plus réduites.
127
Chapitre V : Modélisation de réseaux de régulation
a b Figure V.43 : Nombre de paramètres (a) et de connexions (b) conservés dans le
réseau de régulation pour et les cinq réductions étudiées. Les barres noires
correspondent à la solution non réduite et les barres grises aux solutions réduites.
eNCm
Modèle e
CNm
La Figure V.44 montre l’évolution des critères (a), (b) et
(c) en fonction du nombre de paramètres restant dans le modèle, lors de la
réduction paramétrique.
, 3,eCNm q r , 3,
pert
eCNm q r
, 3,eCNm q r
a b c
Figure V.44 : Evolution des critères d’évaluation pendant les réductions paramétriques
pour le modèle , q=3. Courbe bleue : ; courbe noire eCNm vr r ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) ; (b) ; (c) .
pr
rFr
Fr , 3e
CNm q ,r ,pert
eCNm q 3,r , 3,e
CNm q
On observe ici que les cinq méthodes de réductions mènent à des solutions aux performances
très proches les unes des autres. On constate toutefois que, comme pour les modèles
précédents, les meilleur niveaux de réduction et de robustesse aux perturbations pour les méthodes et vr r . En observant, à la Figure V.45 , les profils estimés par les 5 solutions
réduites pour les classes de gène 7 et 8, on constate, comme pour le modèle , les solutions
reproduisent bien la plupart des profils et moins biens certains profils. Les profils relatifs aux
autres classes de gènes se trouvent en annexe A.21.
eNCm
128
Chapitre V : Modélisation de réseaux de régulation
a b
Figure V.45 : Profils expérimental ( )c kX et estimés ,ˆ ( )m qc kX après réduction
paramétrique. Points bleus : profil expérimental ( )c kX ; courbes : profils
estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire rvr ; courbe rouge : ; courbe verte :
; courbe rose : . (a) Classe de gènes 7 ; (b) classe de gènes 8.
pr
Fr
Fr
Enfin, la Figure V.46 montre le nombre de paramètres (a) et de connexions (b) encore
présents dans le réseau après les cinq réductions.
a b Figure V.46 : Nombre de paramètres (a) et de connexions (b) conservés dans le
réseau de régulation pour et les cinq réductions étudiées. Les barres noires
correspondent à la solution non réduite et les barres grises aux solutions réduites.
eCNm
Comme pour les modèles précédents, pour la même contrainte < 0.5, les méthodes et
, 3,eCNm q r
vr r mènent aux solutions les plus réduites. Par ailleurs, la méthode atteint le
même niveau de réduction que la méthode . Fr
vr
e) Comparaison des solutions réduites
Le Tableau V.2 reprend les résultats obtenus pour toutes les solutions, réduites ou non,
du stade embryonnaire. Les solutions réduites optimales au sens de et sont
( ; ) et ( ; ). Les solutions les plus réduites sont ( ; ) et ( ;
, ,m q reCNm
, ,m q reNNm Fr
eCNm pr e
NCm vr r ). Les autres
solutions réduites surlignées en gris sont optimales au sens de , ,pertm q r . On constate que toutes
les solutions réduites du modèle sont extrêmement robustes aux perturbations
paramétriques.
eNCm
129
Chapitre V : Modélisation de réseaux de régulation
m r , ,m q r , ,
pertm q r , ,m q r Npar Ncon
polNCm 0,56 0,56 5,28 100 30
0,3 0,3 4,14 110 30
vr 0,49 0,49 3,95 73 19
r 0,44 0,45 1,5 76 19
pr 0,48 0,49 7,78 105 30
Fr 0,5 0,5 2,62 87 26
eNNm
Fr 0,46 0,46 5,11 88 24
0,37 0,37 4,82 70 30
vr 0,48 0,48 3,55 53 13
r 0,49 0,49 3,33 54 14
pr 0,46 0,46 2,9 62 22
Fr 0,48 0,48 3,09 58 18
eNCm
Fr 0,47 0,47 7,28 63 23
0,28 0,31 2,08 70 30
vr 0,48 0,49 4,02 54 14
r 0,47 0,47 2,68 53 13
pr 0,49 0,49 3,31 61 21
Fr 0,46 0,47 2,95 58 18
eCNm
Fr 0,5 0,5 2,61 54 14
linm 0,32 0,56 200,27 40 30
Tableau V.2: Récapitulatif des solutions obtenues pour le stade embryonnaire. Npar : nombre de paramètres (conditions initiales comprises); Ncon : nombre de connexions. Les solutions optimales pour un critère sont surlignées en gris et la valeur du critère correspondant est indiquée en gras. Les critères optimaux sont :
pour , la valeur minimum ; pour , ,m q r , ,pertm q r
, ,m q r
, les valeurs égales au
correspondant, à une décimale près ; pour , les valeurs < 1 ou la valeur
minimum > 1et enfin pour Npar et Ncon, les valeurs minimum.
, ,m q r
130
Chapitre V : Modélisation de réseaux de régulation
3.3.2. Série temporelle complète
La classification hiérarchique des données d’expression des 4005 gènes de la
drosophile sur la série temporelle complète mène à 12 classes de gènes (voir chapitre IV
section 2.2.2). Les profils moyens de ces classes sont alors utilisés dans la modélisation du
réseau de régulation.
a) Construction des réseaux de régulation
En appliquant la méthode décrite au point 3.2.5, on construit l’architecture des réseaux
pour les cinq modèles étudiés. La Figure V.47a représente le pourcentage de connexions
communes aux 5 modèles à chaque étape de cette construction et ce, sans tenir compte des
signes attribués à ces connexions.
a b
Figure V.47 : Construction algébrique des réseaux pour les cinq modèles étudiés. a. Evolution du pourcentage de connexions communes aux cinq modèles m en fonction de la connectivité q. b. Evolution de l’écart quadratique moyen , ( 1,..., )m q
cS c n entre les
profils estimés ddc kX
t
et interpolés des dérivées temporelles des profils expérimentaux en
fonction de la connectivité q. Courbe rouge : ; courbe rose : ; courbe verte :
; courbe noire : ; courbe bleue : .
Figure V.
polNCm e
NNm eNCm
eCNm linm
Ainsi, pour q=1, seule une connexion sur 12 (8.3%) est unanimement choisie par les
cinq modèles. On constate que les modèles construisent des réseaux assez différents car ce
pourcentage reste faible pour q<6. Par la suite, tous les modèlent tendent vers le même réseau
plein final, pour lequel ce pourcentage est de 100%. La 47b représente l’évolution
de l’écart quadratique moyen , ( 1,..., )m qcS c n entre les profils estimés d
dc kX
t
et interpolés
des dérivées temporelles des profils expérimentaux. On constate que pour , comme c’était
le cas dans les stades de développement, cet écart est significativement plus grand que les
autres et qu’il reste constant malgré l’augmentation du nombre de connexions dans le réseau
de régulation.
polNCm
131
Chapitre V : Modélisation de réseaux de régulation
b) Identification de la connectivité maximale utile
Les paramètres sont alors identifiés, selon la méthode décrite au point 3.2.5 pour
minimiser l’écart entre les profils ,m q,ˆ ( )m q
c kX estimés par les modèles et les profils
expérimentaux (c k )X et ce, pour q=1,…,12. En examinant l’évolution de cet écart avec la
connectivité q, on peut déterminer la connectivité maximale utile des réseaux. La
représente cette évolution en fonction du nombre de paramètres dans chaque modèle, chaque point correspondant à une valeur de q. On constate tout d’abord que le modèle
reste le moins bon en termes de reproduction des profils expérimentaux. En outre, on observe que, pour q>1, le modèle est ici effectivement meilleur que les modèles et et
que, pour le même nombre de paramètres, le modèle est toujours meilleur que le modèle
. Ceci peut s’expliquer par le fait que, dans l’expression de l’évolution d’un taux
d’expression, le terme de dégradation est toujours proportionnel au taux d’expression modélisé. Dès lors, le modèle comprend un terme non linéaire et un terme linéaire alors
que le modèle comprend un terme réellement constant et un terme non linéaire. La
formulation du modèle permet donc une modélisation plus flexible. Enfin, on voit que, si
l’écart décroît de façon monotone pour et , il atteint clairement une valeur
constante pour , et à partir de q=7. La connectivité utile qmax, au-delà de laquelle
aucune amélioration significative n’est observée est donc fixée à 7.
Figure
V.48polNCm
eCN
eNNm
NC
linm
eNCm m
eNCm
em
eCNm
eNCm
eCN
eNCm
m
eNNm
em,m q pol
NCm CN
,m q
Figure V.48 : Evolution de l’écart quadratique moyen entre les profils ,m q
,ˆ ( )m qc kX estimés et les profils expérimentaux ( )c kX pour les cinq modèles étudiés
en fonction du nombre s de paramètres des modèles. Courbe rouge : ; courbe
rose : ; courbe verte : ; courbe noire : ; courbe bleue : .
polNCm
eNNm e
NCm eCNm linm
c) Comparaison des modèles étudiés
On compare ensuite les cinq modèles à q=7, selon les trois premiers critères décrits au
point 3.2.6
132
Chapitre V : Modélisation de réseaux de régulation
Reproduction des profils expérimentaux La Figure V.49 représente les écarts , 7m q pour les cinq modèles étudiés et la Figure
V.50 montre les profils expérimentaux et estimés par ces modèles pour les classes 8 et 9. Les
profils relatifs aux autres classes de gènes se trouvent en annexe A.30.
0,58
0,310,36
0,50
0,37
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
1 2 3 4 5
polNCm e
NNm eNCm e
CNm linm
Figure V.49 : Ecart quadratique moyen , 2m q
entre profils expérimentaux et estimés pour les cinq modèles étudiés
On constate en examinant ces figures que les modèles et présente un pol
NCm eCNm , 7m q
plus élevé que les autres modèles et que les profils estimés par ceux-ci s’avèrent
effectivement moins aptes que les autres à suivre les tendances de tous les profils
expérimentaux. Cette incapacité ne sera donc que plus importante lorsque l’étape de réduction
paramétrique aura forcé l’élimination de paramètres dans ces modèles. En conséquence, la
réduction paramétrique de ces deux modèles ne sera pas développée ci-après et la valeur de
= 0.5 est choisie comme valeur seuil à ne pas dépasser pour conserver une bonne
reproduction des profils expérimentaux.
, 7m q
a b Figure V.50 : Profils expérimental ( )c kX et estimés ,ˆ ( )m q
c kX par les cinq modèles
étudiés pour la série temporelle complète. Points bleus : profil expérimental ( )c kX ;
courbes : profils estimés ,ˆ ( )m qc kX . Courbe rouge : ; courbe rose : ; courbe
verte : ; courbe noire : ; courbe bleue : . (a) Classe 8 ; (b) Classe 9.
polNCm e
NNmeNCm e
CNm linm
133
Chapitre V : Modélisation de réseaux de régulation
Robustesse aux perturbations paramétriques
Les paramètres identifiés sont alors perturbés successivement et la réponse des cinq modèles à ces perturbations est étudiée. La Figure V.51 représente les valeurs de , 7
pertm q en
comparaison avec celles de , pour les cinq modèles. , 7m q
polNCm e
NNm eNCm e
CNm linm
116
14
13
12
Figure V.51 : Ecarts quadratiques moyens , 7m q entre profils expérimentaux et
estimés et , 7pertm q entre profils expérimentaux et estimés après perturbation des
paramètres, pour les cinq modèles étudiés. Barres noires: , 7m q ; barres grises: . , 7pertm q
On observe que les modèles et qui s’avèrent beaucoup plus sensibles que les
modèles , . Dans le cas du modèle , la valeur élevée de traduit le fait
que certains paramètres sont très sensibles aux perturbations paramétriques. Comme les modèles et , qui sont des cas particulier de , sont eux beaucoup plus robustes aux
perturbations, on en déduit qu’en considérant un plus grand ensemble de paramètres, on
trouve de temps en temps des perturbations critiques. Il est tout à fait possible qu’en
continuant de perturber aléatoirement les paramètres des autres modèles, de telles
perturbations critiques soient, à terme, également observées. D’un point de vue biologique, de
telles perturbations, rares mais critiques, peuvent être assimilées au basculement d’une cellule
vers un état cancéreux. Néanmoins, comme il se peut que l’étape de réduction paramétrique
réduise cette sensibilité. Ce résultat ne permet donc pas d’exclure l’un ou l’autre modèle de
cette étude. Il permet toutefois de montrer la très grande robustesse paramétrique du modèle et la bonne robustesse des modèles et .
eNNm linm
eNCm
polNCm
eNCm
eNCm
eCNm
eCNm e
NNm
m
eCNm
, 7pertm q
eNN
polNCm
Stabilité des profils après extrapolation temporelle
Enfin, on observe le comportement des profils estimés par les cinq modèles en les
extrapolant jusqu’à la mort de l’organisme, c’est-à-dire à τxp = τlife = 80 jours (voir section 3.2.6). La Figure V.52 montre les valeurs de , 7m q
par les cinq modèles et la Figure V.53 les
12 profils extrapolés estimés par les modèles et . eNNm linm
134
Chapitre V : Modélisation de réseaux de régulation
polNCm
42
eNNm e
NCm eCNm linm
Figure V.52 : Critère de stabilité , 7m q
pour les cinq modèles étudiés.
On constate que les profils extrapolés estimés par les modèles non linéaires restent en
moyenne de l’ordre de grandeur des profils avant extrapolation. En revanche, la valeur de
pour le modèle linéaire atteint 41.93. En effet, on voit, à la Figure V.53b que les
profils estimés par ce modèle ont un comportement divergent et prennent même des valeurs
de concentration négatives. Alors que pour les modèles non linéaires, les profils se stabilisent
après un certain temps.
, 7linm q
a b
Figure V.53 : Profils estimés par les modèles (a) et (b) jusqu’à τxp=80 jours. polNCm linm
Intersection des modèles conservés et e
NNm eNCm
Les deux modèles restants et s’avèrent être les meilleurs candidats pour
modéliser, selon les critères choisis, l’évolution temporelle de l’expression des gènes de la
drosophile. Ces réseaux ont une connectivité de q=7, ils contiennent donc à ce stade 12x7=84
connexions. On constate que ces deux réseaux partagent 58 connexions (69%) dont 29 (35%)
sont de même signe dans les deux réseaux. En outre, des 144 connexions possibles, 34 (24%)
sont absentes dans les deux réseaux. Ainsi, ces deux solutions s’accordent sur 64% des
connexions possibles et sur 44% de leur signe. En raison du nombre élevé de connexions, les
réseaux correspondant aux solutions et à leur intersection ne sont pas représentés ici.
eNNm e
NCm
135
Chapitre V : Modélisation de réseaux de régulation
d) Réduction paramétrique Les cinq méthodes de réduction paramétrique sont alors appliquées aux modèles
et . Les solutions réduites sont étudiées selon les quatre critères décrits en 3.2.6.
eNNm
eNCm
Modèle e
NNm
La Figure V.54 montre l’évolution des critères et en
fonction du nombre de paramètres restant dans le modèle, lors de la réduction paramétrique.
On constate que la méthode
, 7,eNNm q r , 7,
pert
eNNm q r , 7,e
NNm q r
r mène à la solution la plus réduite avec < 0.5. Les
méthodes et aboutissent également à des solutions satisfaisante les critères définis, mais
contenant plus de paramètres. Les méthodes et
, 7,reNN m q
vr Fr
pr Fr , quant à elles, dépassent ce dernier
critère dès la première itération. On observe également que toutes les méthodes de réduction
tendent à rendre les solutions plus robustes aux perturbations paramétriques et leurs profils
estimés plus stables en extrapolation. Comme cela a déjà été observé dans les précédents, les
critères et sont ici en parfaite opposition. Enfin, si certaines solution
intermédiaires des méthodes et r
, 7,eNN m q r , 7
vr
,pert
eNNm q r
présentent des profils « instables » ( > 10), les
solutions finales s’avèrent toutes extrêmement stables.
, 7,m q re
NN
a b c
Figure V.54 : Evolution des critères d’évaluation pendant les réductions paramétriques
pour le modèle , q=7. Courbe bleue : ; courbe noire eNNm vr r ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) (la ligne discontinue horizontale désigne la valeur
seuil de qualité de reproduction des données) ; (b) ; (c) .
pr
Fr
Fr , 7e
NNm q ,r
, 7,pert
eNNm q r , 7,e
NNm q r
Ensuite, la Figure V.55 représente les profils d’expression estimés après réduction
paramétrique pour la classe de gènes 8. On observe sur cette figure, ainsi que sur celles relatives aux autres classes de gènes, en annexe A.31, que les méthodes , vr r et Fr
sont
effectivement les seules à pourvoir reproduire certains profils d’expression. La valeur seuil de
0.5 pour est donc ici appropriée pour quantifier la reproduction de ces données. , 7,eNNm q r
136
Chapitre V : Modélisation de réseaux de régulation
Figure V.55 : Profils expérimental ( )c kX et estimés ,ˆ ( )m qc kX par le modèle après e
NNm
réduction paramétrique pour la série temporelle complète. Courbe bleue : ; courbe vr
noire r ; courbe rouge : ; courbe verte : pr Fr ; courbe rose : Fr
. Classe de genes 8.
Enfin, la Figure V.56 montre le nombre de paramètres (a) et de connexions (b) encore
présents dans le réseau de régulation après les cinq réductions. Rappelons que dans ce modèle
, l’élimination d’une connexion j c ne peut survenir que si les 2 paramètres Tïj et Eïj
sont éliminés du modèle. On observe que des 3 méthodes menant à des solutions réduites
satisfaisant le critère < 0.5, la méthode
eNNm
, 7,eNNm q r
r mène à la solution la plus réduite.
a b Figure V.56 : Nombre de paramètres (a) et de connexions (b) conservés dans le
réseau de régulation pour et les cinq réductions étudiées. Les barres noires eNCm
correspondent à la solution non réduite et les barres grises aux solutions réduites.
137
Chapitre V : Modélisation de réseaux de régulation
Modèle eNCm
La montre l’évolution des critères et en
fonction du nombre de paramètres restant dans le modèle, lors de la réduction paramétrique.
, 7,eNCm q r , 7,
pert
eNCm q r , 7,e
NCm q rFigure V.57
a b c
Figure V.57 : Evolution des critères d’évaluation pendant les réductions paramétriques
pour le modèle , q=3. Courbe bleue : ; courbe noire eNNm vr r ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) (la ligne discontinue horizontale désigne la
valeur seuil de qualité de reproduction des données); (b) ; (c) .
pr
, 7
Fr
Fr , 7 ,e
NCm q r, 7,
pe
e r rtNCm q ,e
NCm q r
On constate que la méthode r mène à la solution la plus réduite pour < 0.5. Les
méthodes , et
, 7,eNCm q r
vr Fr
Fr mènent à des solutions moins réduites mais avec un plus
faible. On observe également que la méthode dépasse ce critère dès la première itération.
On voit ensuite que toutes les méthodes mènent à des solutions moins robustes que dans le cas
du stade embryonnaire. En effet, les valeurs de sont ici toutes supérieures à celles
de .Enfin, la plupart des méthodes conservent une valeur de proche de 1, donc de l’ordre de la variance des profils d’expression, alors que la méthode est la seule
à offrir une solution parfaitement stable selon ce critère.
, 7,reNCm q
, 7,eNCm q r
pr
pr
, 7,pert
eNCm q r
, 7 ,reNCm q
Les profils estimés par ces 5 solutions réduites pour les classes de gène 2 et 4 sont
représentés à la Figure V.58. Les profils relatifs aux autres classes de gènes se trouvent en annexe A.32. On constate que seule les solutions obtenues par les méthodes et vr Fr
permettent de reproduire les 12 profils d’expression alors que celle obtenue par la méthode r
reproduit parfaitement 11 profils d’expression sur les 12. Les autres solutions échouent à la
reproduction de plusieurs profils.
138
Chapitre V : Modélisation de réseaux de régulation
a b
Figure V.58 : Profils expérimental ( )c kX et estimés ,ˆ ( )m qc kX après réduction
paramétrique. Courbe bleue : v ; courbe noirer r ; courbe rouge pr ; courbe vert
Fr ; courbe rose : Fr
. (a) Classe de gènes 2 ; (b) classe de gènes
: e :
4.
Enfin, la Figure V.59 montre le nombre de paramètres (a) et de connexions (b) encore
présents dans le réseau de régulation après les cinq réductions. Pour ce modèle, le nombre de paramètres éliminés équivaut à celui de connexions éliminées. On observe que la méthode r
mène ici à la solution la plus réduite.
a b
Figure V.59 : Nombre de paramètres (a) et de connexions (b) conservés dans le
réseau de régulation pour et les cinq réductions étudiées. Les barres noires
correspondent à la solution non réduite et les barres grises aux solutions réduites.
eCNm
e) Comparaison des solutions réduites optimales
Le Tableau V.3 résume les résultats pour le série temporelle complète. La solution
réduite optimale au sens de est ( ; ). Les solutions réduites optimales au sens de
sont ( ; ), ( ;
, ,m q reNNm
eNNm vr
, 7,pertm q r e
NNm pr Fr ) et ( ; ). La solution réduite optimale selon le
niveau de réduction est ( ;
eNCm pr
eNCm r ). Les autres solutions surlignées en gris sont optimales selon
. , ,m q r
139
Chapitre V : Modélisation de réseaux de régulation
140
m r , 7,m q r , 7,
pertm q r , 7,m q r Npar Ncon
polNCm 0.58 0.58 1.00 216 84
0,31 13,77 0,66 228 84
vr 0,27 9,12 2,45 188 80 r 0,44 4,8 0,1 155 68
pr 0,88 0,88 0,06 227 84
Fr 0,32 1,68 0,79 187 82
eNNm
Fr 0,61 0,61 0,32 227 84
0,36 0,9 0,99 132 84
vr 0,35 1,02 0,76 108 60 r 0,47 0,65 1,17 91 43
pr 0,65 0,65 0,06 131 83
Fr 0,43 0,69 0,87 107 59
eNCm
Fr 0,34 0,81 1,01 122 74
eCNm 0,5 0,81 1,47 132 84
linm 0,37 115,7 41,93 96 84
Tableau V.3: Récapitulatif des solutions obtenues pour la série temporelle complète. Npar : nombre de paramètres (conditions initiales comprises); Ncon : nombre de connexions. Les solutions optimales pour un critère sont surlignées en gris et la valeur du critère correspondant est en gras. Les critères optimaux sont décrits au Tableau V.2.
Chapitre V : Modélisation de réseaux de régulation
3.3.3. Sous-réseau du développement musculaire
Les méthodes de modélisation développées sont ensuite appliquées aux données
d’expression d’un sous-ensemble de 20 gènes impliqués dans le développement musculaire de
la drosophile (Arbeitman et al. 2002, Zhao et al. 2006). Ce sous-réseau joue en effet un rôle
clé dans le développement et la différentiation des tissus musculaires chez la drosophile
(Furlong 2004, Wilczynski & Furlong 2010). Une recherche dans la Drosophila Interactions
Database (www.droidb.org, version 2011/02) a permis de recenser 36 interactions validées
expérimentalement entre ces gènes. Au cours de cette recherche, trois types d’interactions ont
été considérées : les interactions dites « génétiques », i.e. dont on ne connaît pas le mécanisme
moléculaire ou qui sont la conséquence d’une cascade d’interactions moléculaires (Ingold
2002), les interactions entre un facteur de transcription et un gène, et enfin les interactions
entre un miARN et un gène (voir chapitre I). Les interactions protéine-protéine, ont été
exclues de la recherche car, dans cette base de données, elles sont prédites à partir de résultats
obtenus avec d’autres espèces. Le sous-réseau de régulation formé par ces 36 interactions est
représenté à la Figure V.60 :
Figure V.60 : Sous-réseau de régulation du développement musculaire de la drosophile. Graphique généré avec le programme Matlab. Les 20 gènes ont été sélectionnés à partir de leurs ontologies et de leur apparition dans la littérature (Arbeitman et al. 2002, Zhao et al. 2006). Les gènes Mhc et twi, encadrés en rouge, sont deux hubs du réseau. Les gènes tin et eve, encadrés en bleu, présentent une interaction d’auto-régulation.
141
Chapitre V : Modélisation de réseaux de régulation
On observe dans ce réseau la présence de deux hubs, i.e. des gènes particulièrement
connectés, Mef2 (Myocyte enhancing factor 2) et twi (twist) tous deux codant pour des
facteurs de transcription (www.flybase.org) et dont le rôle régulateur dans le développement
musculaire a été établi expérimentalement (Sandmann et al. 2006). Par ailleurs, les deux
gènes tin et eve (evenskipped) présentent une interaction d’auto-régulation (du type facteur de
transcription – gène). Enfin, on constate que chaque gène est régulé par 4 autres gènes au
maximum.
Cependant, en observant les profils d’expression de ces 20 gènes du développement
musculaire, nous avons constaté que certains d’entre eux étaient similaires. Leurs rôles dans la
régulation sont donc impossibles à dissocier sur la base des profils d’expression. Le
illustre la similarité entre les profils d’expression des gènes eve et twi. Pour rappel, afin de réduire le bruit de mesure, les 20 profils bruts
Figure
V.61( )g kY sont soumis au filtrage en moyennes
mobiles (équation V.1). On note F ( )g kY les profils filtrés obtenus.
a b Figure V.61 : Profils d’expression de deux gènes du sous-réseau musculaire.
Points : profils bruts ( )g kY Courbe : profils filtrés F ( )g kY . (a) gène eve; (b) gène twi.
Afin de résoudre ce problème, ces 20 profils ont été classifiés de la même manière que
l’ensemble des 4005 gènes étudiés par Arbeitman et al. 2002, i.e. selon la classification
hiérarchique décrite au chapitre IV section 2.2.2. Par examen visuel des profils moyens ( )c kX des classes formées en coupant l’arbre de classification à différents niveaux, le
nombre de classes a été fixé à 10. De cette classification résulte la formation de 2 classes
regroupant plusieurs gènes : la classe 1 regroupe les 8 gènes Mef2, srp, Actn, lmd, sls, flw,
Myo31DF et Myo61F et la classe 2 regroupe les 4 gènes how, twi, eve et dpp. Les 8 autres classes ne contenant qu’un seul gène. Les profils filtrés F
10 ( )g c kY des gènes des classes c=1
et c=2, translatés sur le profil F rep ( )cY k du gène représentatif de la classe, ainsi que le profil
moyen ( )c kX de cette classe, défini en (IV.16), sont représentés à la Figure V.62. Les profils
d’expression des gènes présents dans les autres classes se trouvent en annexe A.33.
142
Chapitre V : Modélisation de réseaux de régulation
a b
Figure V.62 : Profils d’expression du sous-réseau musculaire après classification. Ligne rouge : profil rep ( )c kY du gène représentatif de la classe c ; lignes noires :
profils ( )g c kY des gènes de la classe c, translatés verticalement sur rep ( )c kY , ligne
verte : profil moyen ( )c kX de cette classe, défini comme la moyenne des profils
( )g cY k . (a) Classe 1 ; (b) Classe 2.
On constate que si la classe 2 regroupe des gènes aux profils clairement similaires, la
pertinence de la classification est moins évidente pour la classe 1. Par ailleurs on constate, à la
, que les gènes Prm et up, qui présentent a priori des ressemblances visuelles dans
leurs profils, ne sont pas regroupés et ce, même en diminuant le nombre de classes jusqu’à 7.
Ce résultat se justifie par le fait que les pics d’expression dans ces profils surviennent à des
instants certes proches mais bien distincts. Dès lors, la distance D entre ces profils est en
réalité plus importante qu’entre les profils d’autres gènes. On en déduit, d’une part, que le
choix de 10 classes formées est discutable, en tout cas en partie subjectif, et, d’autre part, que
la distance D utilisée dans cette classification est sensible au décalage dans le temps des
variations d’expression d’un profil à l’autre.
Figure V.63
a b
Figure V.63 : Profils d’expression de deux gènes du sous-réseau musculaire. Points:
profils bruts ( )g kY Courbe : profils filtrés F ( )g kY . (a) gène Prm; (b) gène up.
La Figure V.64 représente le nouveau réseau de régulation correspondant aux profils
classifiés. Dans ce réseau, chaque connexion de ou vers la classe de gènes 1 ou 2 correspond à
une ou plusieurs connexion(s) validée(s) expérimentalement avec un gène de cette classe. De
143
Chapitre V : Modélisation de réseaux de régulation
même, une interaction d’auto-régulation d’une classe correspond soit à une interaction d’auto-
régulation d’un gène de la classe, soit à une interaction entre deux gènes de la classe.
(Mef2)
(twi)
Figure V.64 : Sous-réseau de régulation du développement musculaire de la drosophile après classification hiérarchique. Graphique généré avec le programme Matlab.
On constate qu’il reste 19 des 36 connexions initialement présentes. Par ailleurs les deux
régulateurs principaux Mef2 et twi sont ici assignés respectivement à la classe 1 et 2. On
constate que leur rôle régulateur sur les autres gènes est toujours bien présent puisque 6 à 8
connexions partent de ces classes.
Les 10 profils moyens ( )c kX , définis comme la moyenne des profils d’expression des
gènes de chaque classe après translation sur le gène représentatif de la classe (voir chapitre
IV) sont ensuite normalisés et utilisés dans la modélisation du sous-réseau de régulation du
développement musculaire de la drosophile.
Les modèles et (modèle linéaire) ayant mené précédemment à des résultats
médiocres, le premier en termes de reproduction des données et le second en termes de
sensibilité aux perturbations paramétriques et de stabilité des profils d’expression après
extrapolation dans le temps, ils ne seront pas étudiés dans cette partie.
polNCm linm
a) Construction algébrique des réseaux de régulation
En appliquant la méthode décrite au point 3.2.5, on construit l’architecture des réseaux pour les trois modèles étudiés : , et . La Figure V.65a représente le pourcentage
de connexions communes aux trois modèles à chaque étape de cette construction et ce, sans
tenir compte des signes attribués à ces connexions. On constate que les réseaux formés par les
trois réseaux présentent une intersection plus importante que lors de la modélisation des autres
données. En effet, dès q>1, plus de la moitié des connexions présentes dans chaque réseau
sont communes aux trois modèles.
eNNm e
NCm eCNm
144
Chapitre V : Modélisation de réseaux de régulation
a b
Figure V.65 : Construction algébrique des réseaux pour les trois modèles étudiés. a. Evolution du pourcentage de connexions communes aux cinq modèles m en fonction de la connectivité q. b. Evolution de l’écart quadratique moyen , ( 1,..., )m q
cS c n entre les
profils estimés ddc kX
t
et interpolés des dérivées temporelles des profils expérimentaux en
fonction de la connectivité q. Courbe rose : ; courbe verte : ; courbe noire : . eNNm e
NCm eCNm
La Figure V.65b représente l’évolution de l’écart quadratique moyen , ( 1,..., )m q
iS i n
entre les profils estimés ddi kX
t
et interpolés des dérivées temporelles des profils
expérimentaux. On constate que cet écart est significativement plus petit pour le modèle
que pour ses cas particuliers et m . Le modèle , qui contient le plus de paramètres,
reproduit donc mieux les dérivées temporelles des profils d’expression que les modèles
et , lesquels sont identiquement efficaces.
eNNm
eNCm
eNCm e
CNeNNm
eCNm
b) Identification de la connectivité maximale utile
Les paramètres sont alors estimés, selon la méthode décrite au point 3.2.5 pour minimiser l’écart entre les profils ,m q ,ˆ ( )m q
c kX estimés par les cinq modèles m et les profils
expérimentaux ( )c kX et ce, pour q=1,…,5. La Figure V.66 représente l’évolution de cet écart
en fonction du nombre de paramètres dans chaque modèle, chaque point correspondant à une
valeur de q :
,m q
Figure V.66 : Evolution de l’écart quadratique moyen entre les profils ,m q,ˆ ( )m q
c kX estimés et les profils expérimentaux ( )c kX pour les trois modèles étudiés
en fonction du nombre s de paramètres des modèles. Courbe rose : ; courbe
verte : m ; courbe noire : .
eNNm
eNC
eCNm
145
Chapitre V : Modélisation de réseaux de régulation
On constate que, pour le même nombre de paramètres, le modèle donne de meilleurs
résultats que le modèle N . Ensuite, on observe que le mod eNNm qui contient le plus
grand nombre de paramètres présente généralemen n ,m q plus élevé que les autres, ce
qu’on attribue à la présence de minima locaux de la fonction de coût. En initialisant les paramètres de ce modèle à la solution du odèle e
CNm (les autres paramètres étant initialisés à
zéro, on constate que ces derniers restent extrêmement faibles, ce qui traduit le fait que la recherche paramétrique locale ne permet pas de s’éloigner de la solution du modèle e
NCm .
Enfin, on voit que, pour chaque modèle, ,m q atteint ici des valeurs nettement plus élevées
que pour les données classifiées à partir des 4005 gènes de l’expérience et ce, en raison d’une
mauvaise initialisation des paramètres avant leur optimisation. Ce point sera discuté ci-après.
Enfin, on constate qu’à partir de q=4, aucune amélioration significative de ,m q n’est plus
observée. Cette valeur est donc choisie com
eNCm
eCm èle
t u
m
me qmax.
c) Comparaison des modèles étudiés On compare ensuite les trois modèles , , à q=4, selon les trois premiers
critères décrits au point 3.2.6 ainsi que sur le nombre de connexions validées
expérimentalement prédites par les modèles.
eNNm e
NCm eCNm
Reproduction des profils expérimentaux
La Figure V.67 représente les écarts , 4m q pour les trois modèles étudiés et la
montre les profils expérimentaux et estimés par ces modèles pour les gènes tin et up. Les
profils relatifs aux autres classes de gènes se trouvent en annexe A.34.
Figure
V.68
0,81
0,78
0,8
0,76
0,77
0,78
0,79
0,8
0,81
0,82
.
eNNm e
NCm eCNm
Figure V.67 : Ecart quadratique moyen , 4m q entre profils expérimentaux et
estimés pour les modèles m , , . eNN
eNCm e
CNm
On constate tout d’abord que les valeurs de , 4m q sont ici très élevées et quasiment
identiques. En effet, en examinant, à la les profils estimés par les modèles
étudiés, on constate que ces-derniers peinent à reproduire les variations brutales des profils expérimentaux. On observe ensuite que le modèle présente un légèrement plus
élevé que les deux autres modèles, qui sont en fait des cas particuliers du précédent, et que les
profils estimés par celui-ci s’avèrent en effet un peu moins aptes à suivre les tendances de
Figure V.68
eNNm , 4m q
146
Chapitre V : Modélisation de réseaux de régulation
tous les profils expérimentaux. On attribue ces mauvaises performances à la grande variabilité
des profils d’expression à reproduire et au nombre probablement important de minima locaux
dans la fonction de coût. Afin de rendre les réductions paramétriques praticables pour en
comparer les solutions, la valeur seuil de , 4m q à ne pas dépasser est ici fixée à 0.9.
a b
Figure V.68 : Profils expérimentaux et estimés par les modèles , , .
Points bleus : profil expérimental
eNNm e
NCm eCNm
( )c kX ; courbes : profils estimés ,ˆ (m qcX )k . Courbe
rose : ; courbe verte : ; courbe noire : .(a) Gène tin ; (b) Gène up. eNNm e
NCm eCNm
Robustesse aux perturbations paramétriques
Les paramètres identifiés sont alors perturbés successivement et la réponse des
modèles à ces perturbations est observée. La représente les valeurs de l’écart quadratique moyen entre profils expérimentaux et estimés après perturbation
paramétrique, en comparaison avec celles de l’écart
Figure V.69, 4
pertm q
, 4m q avant perturbation paramétrique. On observe ici que les modèles et sont beaucoup plus robustes aux perturbations
paramétriques que le modèle .
eNNm e
NCmeCNm
1,04 1,09
30,38
0
5
10
15
20
25
30
35
.
eNNm e
NCm eCNm
Figure V.69 : Ecarts quadratiques moyens , 2m q entre profils expérimentaux et
estimés et entre profils expérimentaux et estimés après perturbation des
paramètres pour les cinq modèles étudiés. Barres noires:
, 2pertm q
, 2m q ; barres grises: . , 2pertm q
147
Chapitre V : Modélisation de réseaux de régulation
Stabilité des profils après extrapolation temporelle
On observe ensuite le comportement des profils estimés par les trois modèles en les
extrapolant jusqu’à la mort présumée de l’organisme τlife=80 jours (voir section 3.2.6). La
Figure V.70 montre, les valeurs de , 4m q pour les trois modèles. On observe ici que toutes
les valeurs représentées sont de l’ordre de grandeur de la variance des profils d’expression.
0,17
0,56
0,36
0
0,1
0,2
0,3
0,4
0,5
0,6
.
eNNm e
NCm eCNm
Figure V.70 : Critère de stabilité , 4m q
pour , , . eNNm e
NCm eCNm
Reproduction des connexions vérifiées expérimentalement
Les trois modèles obtenus sont alors comparés au réseau expérimental. On constate
que parmi les 40 connexions estimées, les modèles , , retrouvent respectivement
10 (53%), 7 (37%) et 9 (47%) des 19 connexions validées expérimentalement. Ces
connexions sont représentées à la Figure V.71.
eNNm e
NCm eCNm
a
b c
Figure V.71 : Connexions validées expérimentalement prédites par les modèles non
linéaires. Graphiques générés avec le programme Matlab. (a) ; (b) ; (c) . eNNm e
NCm eCNm
148
Chapitre V : Modélisation de réseaux de régulation
Notons qu’en raison de l’absence d’information quant à l’effet répresseur ou activateur
des interactions validées dans la base de données utilisée, ces études sont ici réalisées en
faisant abstraction du signe des connexions. Signalons toutefois qu’en observant tant les
interactions entre classes de gènes que les interactions d’auto-régulation, on constate que
celles-ci sont tantôt positives, tantôt négatives, contrairement à ce qui a été observé
expérimentalement pour des gènes isolés chez E. coli (Thieffry et al. 1998) pour qui une
majorité d’autorégulations négatives sont recensées.
Intersection des modèles conservés
Ces réseaux ont une connectivité de q=4, ils contiennent donc à ce niveau 10x4=40
connexions. On constate que ces trois réseaux partagent 22 connexions (55%) (sans tenir
compte des signes des connexions). En outre, des 100 connexions possibles, 40 (40%) sont
absentes dans les trois réseaux. Ainsi, ces trois solutions s’accordent sur 62% des connexions
possibles. La Figure V.72 représente ce sous-réseau d’intersection (Figure V.72a) ainsi que
les 5 connexions validées prédites par les trois modèles étudiés (Figure V.72b).
a b
Figure V.72 : (a) Intersection des réseaux de régulation des modèles ,
, sans tenir compte des signes des interactions. (b) Connexions validées
expérimentalement et prédites par ces trois modèles.
eNNm
eNCm e
CNm
149
Chapitre V : Modélisation de réseaux de régulation
d) Réduction paramétrique
Les cinq méthodes de réduction paramétrique sont alors appliquées aux trois modèles , , et les solutions réduites sont étudiées selon les quatre critères décrits en 3.2.6. e
NNm eNCm e
CNm
Modèle e
NNm
La Figure V.73 montre l’évolution des critères , et en
fonction du nombre de paramètres restant dans le modèle, lors de la réduction paramétrique.
, 4,eNNm q r , 4,
pert
eNNm q r , 4,e
NNm q r
a b c
Figure V.73 : Evolution des critères de sélection lors de la réduction paramétrique pour
le modèle , q=4. Courbe bleue : ; courbe noire eNNm vr r ; courbe rouge : ; courbe verte :
; courbe rose : . (a) ; (b) ; (c) .
pr
4,rFr
Fr ,e
NNm q 4,r ,pert
eNNm q 4,r ,e
NNm q
On constate que la méthode r mène à la solution reproduisant le mieux les données, mieux
que la solution non réduite, qui était par conséquent mal optimisée, probablement en raison du
nombre élevé de paramètres de ce modèle. On observe qu’en revanche, les solutions obtenues
par cette méthode sont nettement plus sensibles aux perturbations paramétriques que les autres. La méthode mène, quant à elle, à une solution plus réduite et robuste aux
perturbations paramétriques mais avec un légèrement plus élevé qu’avant réduction. Les méthodes et mènent toutes deux à des solutions robustes et moins réduites que les deux premières méthodes. Enfin, la méthode est la seule à réduire très peu
le réseau de régulation tout en augmentant . Cette méthode s’avère donc
particulièrement peu efficace dans ce cas-ci. Enfin, toutes les méthodes conservent une valeur
de inférieures à 1, c’est-à-dire à la variance des profils d’expression. On en déduit
que tous les profils d’expression estimés par ces solutions se stabilisent à des valeurs
biologiquement plausibles.
vr
, 4,eNNm q r
, 4eNNm q
Fr
Fr
pr
r,
, 4,eNNm q r
La Figure V.74 représente les profils estimés par le modèle après réduction pour le
gène wg. Les profils relatifs aux autres classes de gènes se trouvent en annexe A.35. On constate que la solution de la méthode r est clairement la seule à pouvoir reproduire tous les
profils d’expression.
150
Chapitre V : Modélisation de réseaux de régulation
Figure V.74 : Profils expérimental ( )c kX et estimés ,ˆ ( )m qc kX par le modèle
après réduction paramétrique pour la classe de gènes 5. Points bleus : profil
expérimental
eNNm
( )c kX ; courbes : profils estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe
noire
vr
r ; courbe rouge : ; courbe verte : pr Fr ; courbe rose : Fr
.
Enfin, la Figure V.75 représente le nombre de paramètres (a) et de connexions (b)
conservés dans le réseau de régulation après chacune des réductions paramétriques.
a
130
61
94
129
100 100
020406080
100120140
.
40
10
3640
3632
88109
1
10
0
10
20
30
40
50
.
b
vr r pr Fr Fr
vr r pr Fr
Fr
Figure V.75 : Nombre de paramètres (a) et de connexions (b) conservés dans le
réseau de régulation pour et les cinq méthodes de réduction. Barres noires :
solution non réduite ; barres grises : solutions réduites ; barres blanches ; connexions validées expérimentalement.
eNNm
On constate que la méthode réduit le réseau au maximum, c’est-à-dire jusqu’à ne conserver
qu’une connexion régulatrice par (classe de) gène(s), en conservant un < 0.9 alors
que les solutions des autres méthodes dépassent ce seuil plus tôt dans la réduction. Par ailleurs, la méthode , réduisant peu le réseau de régulation, conserve la totalité des
connexions validées.
vr
, 4,eNNm q r
pr
151
Chapitre V : Modélisation de réseaux de régulation
Modèle eNCm
La Figure V.76 montre l’évolution des critères , et
lors de la réduction paramétrique.
, 4,eNCm q r , 4,
pert
eNCm q r , 4,e
NCm q r
a b c
Figure V.76 : Evolution des critères d’évaluation pendant les réductions paramétriques
pour le modèle q=4. Courbe bleue : ; courbe noire : reNCm vr ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) (la ligne discontinue horizontale désigne la
valeur seuil de qualité de reproduction des données) ; (b) ; (c) .
pr
, 4
Fr
Fr ,e
NCm q 4,r
,m q4,pert
eNC r ,e
NCm q r On constate que pour ce modèle, les réductions paramétriques , vr r , et mènent à des
solutions fortement réduites, avec un
pr Fr
, 4m q proche de 0.9 et plus robustes aux perturbations paramétriques qu’avant réduction. La réduction Fr
mène à la solution la moins réduite mais
au le plus bas. Enfin, les solutions réduites présentent toutes des profils stables après
extrapolation dans le temps. Les données, en revanche, sont un peu moins bien reproduites.
L’examen, à la Figure V.77, des profils estimés par ce modèle après les 5 réductions pour la
classe 5 (composée uniquement du gène Prm) révèle les solutions réduites s’avèrent
incapables de reproduire le profil expérimental et ce, probablement en raison de la mauvaise
optimisation paramétrique de la solution non réduite. Les profils des autres classes de gènes se
trouvent en annexe A.36.
, 4m q
Figure V.77 : Profils expérimental ( )c kX et estimés ,ˆ ( )m q
c kX par le modèle
après réduction paramétrique pour la classe 5. Points bleus : profil expérimental
eNCm
( )c kX ; courbes : profils estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire vr r ; courbe
rouge : ; courbe verte : ; courbe rose : pr Fr
Fr .
152
Chapitre V : Modélisation de réseaux de régulation
Enfin, la Figure V.78 montre le nombre de paramètres (a) et de connexions (b)
conservés dans le réseau de régulation après chacune des réductions paramétriques.
a
80
50 50 5057 53
0
10
20
30
40
50
60
70
80
90
.
,
40
10 10 10
1612
01310
7
05
1015202530354045
,
b vr r pr Fr
Fr vr r pr Fr
Fr
Figure V.78 : Nombre de paramètres (a) et de connexions (b) conservés dans le
réseau de régulation pour et les cinq méthodes de réduction. Barres noires :
solution non réduite ; barres grises : solutions réduites ; barres blanches : connexions validées expérimentalement.
eNCm
On constate que les réductions paramétriques vr r et mènent à des solutions
réduites au maximum, i.e. en ne conservant qu’une connexion régulatrice par classe de gène. Par ailleurs, pour un nombre de connexions donné, la méthode conserve le plus de
connexions validées.
pr
pr
Modèle e
CNm
La affiche l’évolution des critères , et lors
de la réduction paramétrique.
, 4,eCNm q r , 4,
pert
eCNm q r , 4,e
CNm q r Figure V.79
a b c
Figure V.79 : Evolution des critères d’évaluation pendant les réductions paramétriques
pour le modèle , q=4. Courbe bleue : ; courbe noire eCNm vr r ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) ; (b) ; (c) .
pr
Fr
Fr ,e
CNm q 4,r ,pert
eCNm q 4,r , 4,e
CNm q r
153
Chapitre V : Modélisation de réseaux de régulation
On constate que les méthodes r et réduisent les modèles au nombre minimum de
paramètres permettant de conserver au moins une connexion régulatrice par classe de gènes. Les méthodes et
pr vr
Fr
Fr mènent à des solutions moins réduites. En outre, on observe qu’avant
d’arriver à une solution robuste aux perturbations paramétriques, les deux méthodes et vr r
passent par des solutions extrêmement sensibles à ces perturbations, comme pour la solution
non réduite. Cela signifie que même pour des structures de modèles en général très robustes
aux perturbations paramétriques, il existe des ensembles de paramètres et des perturbations
particulières auxquelles ceux-ci sont très sensibles. La Figure V.80 montre un agrandissement
de la Figure V.79b :
Figure V.80 : Evolution de lors de la réduction paramétrique ( , q=4 ) , 4,
pert
eCNm q r e
CNm
On voit sur cette figure que toutes les méthodes mènent finalement à des solutions robustes
aux perturbations paramétriques. Enfin, on constate, à la Figure V.81, que certains profils sont
toujours mal reproduits, quelle que soit la méthode de réduction paramétrique. Les profils
estimés pour les autres classes se trouvent en annexe A.37
Figure V.81 : Profils expérimental ( )c kX et estimés ,ˆ ( )m q
c kX après réduction
paramétrique pour la classe 5. Points bleus : profil expérimental ( )c kX ; courbes :
profils estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire vr r ; courbe rouge : ; courbe
verte : ; courbe rose : .
pr
Fr
Fr
154
Chapitre V : Modélisation de réseaux de régulation
Enfin, le nombre de paramètres et de connexions conservés dans le réseau de
régulation après chacune des réductions paramétriques sont représentés, respectivement, à la
Figure V.82a et Figure V.82b.
a
80
50 50 5060 59
0102030405060708090
.
,
40
10 10 10
20 18
32311
9
05
1015202530354045
.
b vr r pr Fr
Fr vr r pr Fr
Fr
Figure V.82 : Nombre de paramètres (a) et de connexions (b) conservés dans le
réseau de régulation pour et les cinq méthodes de réduction. Barres noires :
solution non réduite ; barres grises : solutions réduites ; barres blanches : connexions validées expérimentalement.
eCNm
On constate que les réductions , vr r et ne conservent qu’une connexion régulatrice par
classe de gènes. En outre, pour un faible nombre de connexions, la méthode conserve le
plus de connexions validées.
pr
pr
e) Comparaison des solutions réduites optimales
Le récapitule tous les critères d’évaluation des solutions obtenues pour les trois modèles , , et les 5 réductions. On constate que, dans le cas présent,
toutes les solutions obtenues sont optimales pour au moins un des critères choisis et la plupart
des solutions sont robustes et stables. La solution réduite optimale au sens de est très clairement ( ;
Tableau V.4eNNm
r
eNCm e
CNm
, ,m q reNNm ). Les solutions réduites optimales selon le nombre de connexions après
réduction sont ( ; ) ( ; eNNm vr
eNCm r ) ( ; ) et ( ; ), ( ; e
NCm pr eCNm vr
eCNm r ), ( ; ). Les
autres solutions surlignées en gris sont optimales pour et/ou .
eCNm pr
, 4,rpertm q , ,m q r
155
Chapitre V : Modélisation de réseaux de régulation
m r , 4,m q r , 4,
pertm q r , 4,m q r
Npar Ncon Nvalid con
0,81 1,04 0,17 130 40 10
vr 0,89 0,92 0,32 61 10 1
r 0,57 9,02 0,27 94 36 9
pr 0,88 0,88 0,31 129 40 10
Fr 0,87 0,87 0,3 100 36 8
eNNm
Fr 0,86 0,89 0,39 100 32 8
0,78 1,09 0,56 80 40 7
vr 0,89 0,89 0,36 50 10 0
r 0,89 0,89 0,46 50 10 1
pr 0,88 0,88 0,43 50 10 3
Fr 0,86 1,05 0,52 57 16 1
eNCm
Fr 0,89 0,89 0,36 53 12 0
0,8 30,38 0,36 80 40 9
vr 0,89 0,89 0,31 50 10 1
r 0,89 0,89 0,34 50 10 1
pr 0,87 0,87 0,34 50 10 3
Fr 0,86 7,06 0,42 60 20 2
eCNm
Fr 0,88 1,07 0,4 59 18 3
Tableau V.4: Récapitulatif des solutions obtenues pour le sous-réseau de régulation du développement musculaire. Npar : nombre de paramètres ; Ncon : nombre de connexions; Nvalid con : nombre de connexions validées expérimentalement. Les solutions optimales pour un critère sont surlignées en gris et la valeur du critère correspondant est en gras. Les critères optimaux sont décrits au Tableau V.2.
156
Chapitre V : Modélisation de réseaux de régulation
3.3.4. Réseaux synthétiques
Dans cette partie, les trois modèles , et sont utilisés pour reproduire des
données synthétiques générées à partir de paramètres aléatoires, comme décrit en 3.2.2. Les modèles et sont exclus de cette analyse en raison des résultats médiocres qu’ils ont
montrés dans les cas précédents. Par ailleurs, la très grande sensibilité des paramètres du
modèle linéaire rend presque impossible l’identification d’un ensemble de paramètres
aléatoires qui ne donne pas, après intégration des équations différentielles, des profils
d’expression divergents.
eNNm e
NCm eCNm
polNCm linm
Afin d’évaluer si ces modèles sont plus ou moins efficaces sur des données
synthétiques que sur des données réelles, ces réseaux aléatoires sont construits de manière à
ressembler le plus possible au sous-réseau de régulation du développement musculaire de la
drosophile, à savoir un nombre de gènes n=10, un nombre d’instants τk = 67 et une
connectivité par gène comprise entre 1 et 4. Toutefois, comme chaque modèle représente les
connexions du réseau par un certain nombre de paramètres (voir section 3.2.4), un réseau
aléatoire est construit pour chaque modèle ; les données à reproduire sont donc différentes
pour chaque modèle. Le nombre de connexions régulant chaque gène est choisi aléatoirement
entre 1 et 4 et la valeur des paramètres correspondant à ces connexions suivent une
distribution normale d’écart-type 5 et de moyenne nulle. Ces trois réseaux synthétiques
contiennent 53 à 54 connexions. Les profils d’expression obtenus en intégrant les équations
différentielles avec ces paramètres aléatoires sont ensuite bruités (bruit blanc d’écart-type
0.25 et de moyenne nulle) et utilisés comme données à reproduire. Les connexions prédites
par les modèles sont alors comparées aux connexions « réelles ». Ces dernières étant
différentes pour chaque modèle, l’intersection des réseaux formés par les différents modèles
ne sera pas étudiée.
Toutefois, il est apparu qu’en générant des réseaux synthétiques de 10 nœuds, les 10
profils résultants montraient encore des similarités. Dès lors, afin de valider les méthodes
développées sur un cas synthétique le plus proche possibles des cas réels, des réseaux
synthétiques de 20 nœuds sont générés et les 20 profils résultants sont classifiés en 10 classes
de la même manière que l’ensemble des 4005 gènes étudiés par Arbeitman et al. 2002. Les 10 profils moyens ( )c kX , définis comme la moyenne des profils d’expression des gènes de
chaque classe après translation sur le gène représentatif de la classe (voir chapitre IV) sont
ensuite normalisés et utilisés dans la modélisation du sous-réseau de régulation du développement musculaire de la drosophile. Les réseaux synthétiques des trois modèles ,
et contiennent respectivement 28, 23 et 31 connexions et sont en annexe A.38.
eNNm
eNCm e
CNm
a) Construction algébrique des réseaux de régulation
En appliquant la méthode décrite au point 3.2.5, on construit l’architecture des réseaux pour les trois modèles étudiés : , et (terme de transcription constant). La e
NNm eNCm e
CNm Figure
157
Chapitre V : Modélisation de réseaux de régulation
V.83 représente l’évolution de l’écart quadratique moyen , ( 1,..., )m qiS i n entre les profils
estimés ddi kX
t
et interpolés des dérivées temporelles des profils synthétiques.
Figure V.83 : Construction algébrique des réseaux pour les trois modèles étudiés. Evolution de l’écart quadratique moyen , ( 1,..., )m q
cS c n entre les profils estimés
ddc kX
t
et interpolés des dérivées temporelles des profils synthétiques en fonction de la
connectivité q. Courbe rose : ; courbe verte : ; courbe noire : . eNNm e
NCm eCNm
Bien que les données à reproduire soient différentes pour chaque modèle, elles ont été
générées de manière similaire. C’est pourquoi on suppose ici que les critères d’évaluation des modèles, décrits au point 3.2.6, sont comparables. On constate que le modèle offre la
meilleure reproduction des dérivées temporelles des profils d’expression et que le modèle , cas particulier du précédent, est meilleur que le modèle .
eNNm
eCNm e
NCm
b) Identification de la connectivité maximale utile
Les paramètres sont alors estimés, selon la méthode décrite au point 3.2.5 pour minimiser l’écart entre les profils ,m q ,ˆ ( )m q
c kX estimés par les trois modèles étudiés et les
profils synthétiques ( )c kX et ce, pour q=1,…,5. La Figure V.84 représente l’évolution de cet
écart en fonction du nombre de paramètres dans chaque modèle, chaque point correspondant à
une valeur de q :
Figure V.84 : Evolution de l’écart quadratique moyen entre les profils ,m q,ˆ ( )m q
c kX estimés et les profils synthétiques ( )c kX pour les trois modèles étudiés en
fonction du nombre s de paramètres des modèles. Courbe rose : ; courbe
verte : ; courbe noire : .
eNNm
eNCm e
CNm
158
Chapitre V : Modélisation de réseaux de régulation
On constate que, contrairement au sous-réseau du développement musculaire et à la série temporelle complète, le modèle présente ici un plus élevé que le modèle .
Ensuite, on observe que, comme dans le cas de ce sous-réseau, le modèle qui contient le
plus grand nombre de paramètres reste moins bon que les deux autres. Enfin, on voit que
atteint ici des valeurs un peu plus élevées que pour les données classifiées à partir des 4005
gènes de l’expérience. Ce résultat sera discuté au point suivant. Enfin, on constate qu’à partir
de q=4, aucune amélioration significative de n’est observée. Cette valeur est donc
choisie comme qmax.
eNCm ,m q e
CNm
,m q
eNNm
,m q
c) Comparaison des modèles étudiés On compare ensuite les trois modèles , , à q=4, selon les quatre critères
décrits au point 3.2.6.
eNNm e
NCm eCNm
Reproduction des profils synthétiques
La Figure V.85 représente les écarts , 4m q pour les trois modèles étudiés et la
montre les profils synthétiques et estimés par ces modèles pour la classe gène 3 de
chaque réseau synthétique. Pour rappel, le profil à reproduire est différent pour chaque
modèle. Les profils relatifs aux autres classes de gènes se trouvent en annexe A.39 à A.41.
Figure
V.86
0,65
0,63
0,62
0,6
0,61
0,62
0,63
0,64
0,65
0,66
.
eNNm e
NCm eCNm
Figure V.85 : Ecart quadratique moyen , 4m q entre profils synthétiques et estimés
pour les modèles , , . eNNm e
NCm eCNm
On constate que les valeurs de sont très proches pour les trois modèles et plus élevées
que sur les données classifiées à partir des 4005 gènes de départ. En observant les profils
estimés à la Figure V.86, on constate que dans l’ensemble, les profils d’expression
synthétiques sont bien reproduits par chacun des trois modèles. Les valeurs élevées de
, 4m q
, 4m q
proviennent donc du bruit artificiel ajouté aux profils synthétiques (voir section 3.2.2). Afin
de rendre les réductions paramétriques praticables pour en comparer les solutions, la valeur
seuil de à ne pas dépasser est ici fixée à 0.7. , 4m q
159
Chapitre V : Modélisation de réseaux de régulation
a b c
Figure V.86 : Profils synthétiques et estimés par les modèles , , pour la
classe de gène 3. Points bleus : profil synthétique
eNNm e
NCm eCNm
( )i kX et estimés , 4m qiX̂ ( )k
. (a)
Courbe rose : ; (2) courbe verte : ; (c) courbe noire : . eNNm e
NCm eCNm
Robustesse aux perturbations paramétriques La Figure V.87 représente les valeurs de l’écart quadratique moyen entre profils
synthétiques et estimés après perturbation paramétrique, en comparaison avec celles de l’écart
avant perturbation paramétrique. On constate très clairement que les trois modèles
sont tous extrêmement robustes aux perturbations de chacun de leurs paramètres.
, 4pertm q
, 4m q
0,65
0,63
0,62
0,6
0,61
0,62
0,63
0,64
0,65
0,66
.
e
NNm eNCm e
CNm
Figure V.87 : Ecarts quadratiques moyens , 2m q entre profils synthétiques et
estimés et entre profils synthétiques et estimés après perturbation des
paramètres, pour les modèles , , . Noir :
, 2pertm q
eNNm e
NCm eCNm , 2m q ; gris : . , 2
pertm q
Stabilité des profils après extrapolation temporelle
On observe ensuite le comportement des profils estimés par les trois modèles en les
extrapolant jusqu’à la mort présumée de l’organisme τlife=80 jours (voir section 3.2.6). La
Figure V.88 montre, les valeurs de , 4m q pour les trois modèles.
160
Chapitre V : Modélisation de réseaux de régulation
0,57
0,520,53
0,490,5
0,510,520,530,540,550,560,570,58
.
eNNm e
NCm eCNm
Figure V.88 : Critère de stabilité , 4m q
pour , , . eNNm e
NCm eCNm
On voit sur cette figure que les trois modèles présentent un comportement similaire après
extrapolation temporelle : une stabilisation des profils d’expression en moyenne à une valeur
proche de celles pendant la période de mesure.
Reproduction des connexions initiales
Les trois modèles obtenus sont alors comparés aux trois réseaux synthétiques initiaux. On constate que sur les 40 connexions que chaque modèle identifie, les modèles , et
prédisent, respectivement, 14, 10 et 13 connexions, ce qui correspond, respectivement, à
50%, 44% et 42% des connexions réelles et ce, sans tenir compte du signe des interactions.
Ainsi, les modèles développés se montrent capables de retrouver près de la moitié des
connexions présentes dans les réseaux qui ont généré les profils qu’ils cherchent à reproduire.
eNNm e
NCmeCNm
d) Réduction paramétrique
Les cinq méthodes de réduction paramétrique sont alors appliquées aux trois modèles , , et les 15 solutions réduites sont étudiées selon les quatre critères choisis (voir
section 3.2.6) ainsi que sur le nombre de connexions correctement prédites par les modèles.
La valeur seuil de utilisée comme critère d’arrêt des réductions paramétriques est ici
fixé à 0.7.
eNNm e
NCm eCNm
, 2m q
Modèle eNNm
La Figure V.89 montre l’évolution des critères , et en
fonction du nombre de paramètres restant dans le modèle, lors de la réduction paramétrique.
On constate que la méthode propose des solutions à faible et très souvent plus
sensibles aux perturbations paramétriques que les méthodes
, 4,eNNm q r
e
r
, 4,pert
eNNm q r
, 4,NNm q r
, 4,eNNm q r
vr
Fr et , et qu’elle mène
finalement à la solution la plus réduite pour < 0.7. Comme fréquemment dans les cas précédents, la méthode mène à une solution très peu réduite, avec de mauvaises
performances pour les trois critères de sélections. Elle est donc tout à fait inefficace dans le
cas présent. Enfin, toutes les solutions présentent des profils très stables après extrapolation.
Fr
,eNNm q 4,r
pr
161
Chapitre V : Modélisation de réseaux de régulation
a b c
Figure V.89 : Evolution des critères de sélection lors de la réduction paramétrique
pour le modèle , q=4. Courbe bleue : ; courbe noire eNNm vr r ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) ; (b) ; (c) .
pr
4,Fr
Fr ,e
NNm q r 4, , 4 ,pert
eNNm q r ,e
NNm q r
La Figure V.90 représente les profils estimés par le modèle après chacune des
réductions pour les classes de gènes 7 et 8. Les profils relatifs aux autres classes de gènes se
trouvent en annexe A.42.
a b Figure V.90 : Profils synthétiques ( )c kX et estimés ,ˆ ( )m q
c kX par le modèle
après réduction paramétrique. Points bleus : profil synthétique
eNNm
( )c kX ; courbes :
profils estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire vr r ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) Classe 7 (b) Classe 8.
pr
Fr
Fr
On observe que les profils estimés sont généralement proches pour les 5 réductions et que les
tendances générales des profils des 10 sont moyennement reproduites. Enfin, la Figure V.91
représente le nombre de paramètres (a) et de connexions (b) conservés dans le réseau de
régulation après chacune des réductions paramétriques.
162
Chapitre V : Modélisation de réseaux de régulation
a
130
6175
129121
100
0
20
40
60
80
100
120
140
.
40
11
21
40 3934
14
510
14 13 12
0
10
20
30
40
50
.
b
vr r pr Fr
Fr
vr r pr Fr Fr
Figure V.91 : Nombre de paramètres (a) et de connexions (b) conservés dans le réseau
de régulation pour et les cinq méthodes de réduction. Barres noires : solution non
réduite ; barres grises : solutions réduites ; barres blanches : connexions « réelles ».
eNNm
On constate que la méthode ne conserve que 11 connexions, que la méthode conserve
toutes les connexions du réseau et que la méthode vr pr
Fr n’en élimine qu’une. Enfin, on observe
que, dans chaque solution, plus d’un tiers des connexions prédites sont correctes.
Modèle eNCm
La Figure V.92 montre l’évolution des critères , et
lors de la réduction paramétrique.
, 4,eNCm q r , 4,
pert
eNCm q r , 4,e
NCm q r
a b c
Figure V.92 : Evolution des critères d’évaluation pendant les réductions paramétriques
pour le modèle q=4. Courbe bleue : ; courbe noire : reNCm vr ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) ; (b) ; (c) .
pr
Fr
Fr , 4,e
NCm q r , 4,pert
eNCm q r , 4,e
NCm q r
On constate que les méthodes , vr r et mènent aux solutions les plus réduites pour une
valeur de proche de 0.7. Les méthodes
pr
, 4,eNCm q r
Fr et Fr
mènent à des solutions moins
réduites, la première présentant le minimum et la seconde un proche de
0.7. Ensuite, on constate qu’avant d’arriver à des solutions robustes aux perturbations paramétriques, la méthode passe par des solutions un peu plus sensibles à ces
, 4 ,m q reNC , 4,e
NCm q r
pr
163
Chapitre V : Modélisation de réseaux de régulation
perturbations. Enfin, toutes les solutions présentent un inférieur à 1 ; leurs profils
d’expression prennent donc, après extrapolation temporelle, des valeurs très proches de celles pendant la période de mesure. On observe ensuite, à la Figure V.93, que la méthode est la
seule à pourvoir reproduire certains profils d’expression. Les profils relatifs aux autres classes
de gènes se trouvent en annexe A.43
, 4,eNCm q r
Fr
a b
Figure V.93 : Profils synthétiques ( )c kX et estimés ,ˆ ( )m qc kX par le modèle
après réduction paramétrique. Points bleus : profil synthétique
eNCm
( )i kX ; courbes :
profils estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire vr r ; courbe rouge : ; courbe
verte : ; courbe rose : (a) Classe 2 (b) Classe 9.
pr
Fr
Enfin, la Figure V.94 montre le nombre de paramètres (a) et de connexions (b)
conservés dans le réseau de régulation après chacune des réductions paramétriques.
a
80
50 50 5055
61
0102030405060708090
.
40
10 10 1014
20
2210
7
0
5
10
15
20
25
30
35
40
45
4
.vr r pr Fr
Fr
b vr r pr Fr
Fr
Figure V.94 : Nombre de paramètres (a) et de connexions (b) conservés dans le réseau
de régulation pour et les cinq méthodes de réduction. Barres noires : solution non
réduite ; barres grises : solutions réduites ; barres blanches : connexions « réelles ».
eNCm
On constate que les méthodes et vr r ne conservent qu’une connexion régulatrice par classe
de gènes et que la méthode conserve le plus de connexions réelles. Fr
164
Chapitre V : Modélisation de réseaux de régulation
Modèle eCNm
La affiche l’évolution des critères , et lors
de la réduction paramétrique.
, 4,eCNm q r , 4,
pert
eCNm q r , 4,e
CNm q r Figure V.95
a b c
Figure V.95 : Evolution des critères d’évaluation pendant les réductions paramétriques
pour le modèle , q=4. Courbe bleue : ; courbe noire eCNm vr r ; courbe rouge : ; courbe
verte : ; courbe rose : . (a) ; (b) ; (c) .
pr
Fr
Fr ,e
CNm q 4,r ,pert
eCNm q 4,r , 4,e
CNm q r
Comme pour le modèle précédent, on constate que les méthodes , vr r et mènent aux
solutions les plus réduites pour une valeur de proche de 0.7. Les méthodes
pr
, 4,eNCm q r
Fr et
mènent à des solutions moins réduites, la première présentant le minimum et la
seconde un proche de 0.7. Ensuite, on constate qu’avant d’arriver à des solutions robustes aux perturbations paramétriques, la méthode passe par des solutions extrêmement
sensibles à ces perturbations, voire instables en extrapolation pour la méthode
Fr , 4m q ,r
r
eNC
, 4,eNCm q r
pr
. Toutefois,
contrairement au modèle linéaire, les valeurs élevées de ne correspondent pas ici à
une divergence des profils d’expression mais bien à la stabilisation d’un des profils à une
valeur très élevée. La Figure V.96 représente les profils estimés par la solution obtenue pour le modèle après élimination de 20 paramètres avec la méthode
, 4,eCNm q r
eCNm r , pour toutes les classes
de gènes.
Figure V.96 : Profils estimés par le modèle après élimination de 20 paramètres
avec la méthode
eCNm
r jusqu’à τxp = 80 jours.
165
Chapitre V : Modélisation de réseaux de régulation
Enfin, de manière, à pourvoir distinguer les courbes relatives aux autres méthodes de
réduction paramétrique, une version agrandie des figures précédentes est représentée à la
. Figure V.97
a b Figure V.97 : Evolution des critères d’évaluation pendant les réductions paramétriques
pour le modèle , q=4 : version agrandie. Courbe bleue : ; courbe noire reCNm vr ; courbe
rouge : ; courbe verte : ; courbe rose : pr Fr
Fr . (a) ; (b) .
,pert
eCNm q 4,r ,e
CNm q r 4,
On observe sur ces figures que les méthodes vr r pr et Fr mènent finalement à des solutions
extrêmement robustes aux perturbations paramétriques. Seule la solution de la méthode Fr
présente une légère sensibilité. Enfin, toutes les solutions présentent une valeur de
inférieure à 1 ; leurs profils d’expression prennent donc, après extrapolation temporelle, des
valeurs très proches de celles pendant la période de mesure. La Figure V.98 représente les
profils d’expression estimés après les cinq réductions. Les profils relatifs aux autres classes de
gènes se trouvent en annexe A.44.
,eNCm q 4,r
a b Figure V.98 : Profils synthétiques ( )c kX et estimés ,ˆ ( )m q
c kX après réduction
paramétrique. Points bleus : profil synthétique ( )i kX ; courbes : profils
estimés ,ˆ ( )m qc kX . Courbe bleue : ; courbe noire rvr ; courbe rouge : ; courbe verte :
; courbe rose : .(a) Classe de gènes 7 ; (b) classe de gènes 8.
pr
Fr
Fr
166
Chapitre V : Modélisation de réseaux de régulation
On observe que les profils estimés sont généralement proches pour les 5 réductions, pour les
la plupart des gènes, à l’exception de la classe 8, pour lequel seule la solution obtenue avec la réduction parvient à reproduire le pic d’expression. Enfin, le nombre de paramètres et de
connexions conservés dans le réseau de régulation après chacune des réductions
paramétriques sont représentés, respectivement, à la Figure V.99a et Figure V.99b.
Fr
a
80
50 50 5057 58
0102030405060708090
.
40
10 10 10
17 17
77535
13
0
10
20
30
40
50
.
b
vr r pr Fr Fr
vr r pr Fr
Fr
Figure V.99 : Nombre de paramètres (a) et de connexions (b) conservés dans le réseau
de régulation pour et les cinq méthodes de réduction. Barres noires : solution non
réduite ; barres grises : solutions réduites ; barres blanches : connexions « réelles ».
eCNm
On observe que les réductions , vr r et réduisent le nombre de paramètres à la valeur
minimale possible, à savoir pour conserver une seule connexion régulatrice par gène, ou
presque et que les méthodes et conservent le plus de connexions réelles.
pr
Fr
Fr
e) Comparaison des solutions réduites optimales
Le récapitule tous les critères d’évaluation des solutions obtenues pour les trois modèles , , et les 5 réductions. On constate que, comme dans le cas
précédent, toutes les solutions obtenues sont optimales pour au moins un des critères choisis
et la plupart des solutions sont robustes et stables. La solution réduite optimale au sens de
est ( ; ). Les solutions réduites optimales selon le nombre de connexions après
réduction sont, respectivement pour chaque réseau synthétique, ( ; ), ( ; ) ( ;
Tableau V.5eNNm
F
eNCm e
CNm
, ,m q r
r
eNNm r
eNNm vr
eNCm vr
eNCm
)( ; ) et ( ; ),( ; eNCm pr e
CNm vreCNm r ),( ; ). Les solutions réduites optimales selon le
nombre de connexions correctement identifiées sont, respectivement pour chaque réseau synthétique, ( ; ) ( ; ) et ( m ;
eCNm
CN Fr
pr
emNN pr eNCm Fr
e )( ;eCNm Fr
). Les autres solutions surlignées en gris
sont optimales pour et/ou . , 4,rt
m q rpe , ,m q r
167
Chapitre V : Modélisation de réseaux de régulation
m r , 4,m q r , 4,
pertm q r , 4,m q r
Npar Ncon Nvalid.con
0,65 0,65 0,57 130 40 14
vr 0,66 0,73 0,67 61 11 5
r 0,64 0,64 0,58 75 21 10
pr 0,67 2,34 0,56 129 40 14
Fr 0,59 0,73 0,61 121 39 13
eNNm
Fr 0,68 0,7 0,53 100 34 12
0,63 0,63 0,52 80 40 7
vr 0,69 0,69 0,5 50 10 0
r 0,69 0,69 0,51 50 10 1
pr 0,69 0,69 0,52 50 10 2
Fr 0,67 0,67 0,51 55 14 2
eNCm
Fr 0,64 0,64 0,49 61 20 4
0,62 0,62 0,53 80 40 13
vr 0,69 0,69 0,52 50 10 5
r 0,69 0,69 0,39 50 10 3
pr 0,69 0,7 0,53 50 10 5
Fr 0,6 0,66 0,54 57 17 7
eCNm
Fr 0,69 0,69 0,52 58 17 7
Tableau V.5: Récapitulatif des solutions obtenues pour les réseaux synthétiques. Npar : nombre de paramètres ; Ncon : nombre de connexions ; Nvalid con : nombre de connexions correctes ; %valid con : pourcentage de connexions correctes prédites (par rapport au nombre de connexions dans le réseau initial). Les solutions optimales pour un critère sont surlignées en gris et la valeur du critère correspondant est en gras. Les critères optimaux sont décrits au Tableau V.2.
168
Chapitre V : Modélisation de réseaux de régulation
3.4. Conclusions
L’examen des résultats ci-dessus révèle certaines tendances dans l’application des
méthodes développées aux données d’expression des gènes de la drosophile. Ces observations
permettent de discuter les modèles et méthodes de réductions étudiés ainsi que leurs
validations et de dresser certaines perspectives aux travaux accomplis.
3.4.3. Modèles développés
Modèles avant réduction
Tout d’abord, lors de la construction des réseaux de régulation, il s’avère que les
réseaux formés pour les cinq structures de modèles forment généralement des réseaux assez
différents lorsque la série temporelle complète est considérée, mais que lorsqu’un stade de
développement est étudié individuellement, 20% des connexions sont conservées par les cinq
modèles à partir de q=2. De même dans le cas du sous-réseau du développement musculaire,
les trois modèles étudiés s’accordent rapidement sur plus de la moitié de leurs connexions. Or,
ces modèles satisfont généralement aux trois premiers critères décrits en 3.2.6. On en déduit
que plusieurs solutions aux paramètres fort différentes peuvent offrir les mêmes performances
vis-à-vis des données, ce qui appuie l’hypothèse d’indétermination structurelle du le réseau de
régulation.
Modèle non linéaire (terme de transcription polynomial) polNCm
On constate que, quelle que soit la série temporelle étudiée, ce modèle reproduit
systématiquement moins bien les profils expérimentaux que les autres modèles et ce, en dépit
de l’ajout de nouvelles connexions dans le réseau de régulation. Cette constatation peut
sembler surprenante car ce modèle contient plus de paramètres que d’autres mais il est à noter
que dans ce modèle, les contraintes sur les paramètres sont plus strictes que pour les autres
modèles. En effet (voir section 3.2.4), les paramètres Acj et Bcj sont positifs par définition.
Cette réduction de l’espace des paramètres peut en partie expliquer la difficulté que ce modèle
éprouve à trouver une solution aussi bonne que celles des autres modèles. Par ailleurs, il est à
rappeler que ce modèle a initialement été développé pour représenter un réseau de régulation
entre gènes isolés et pour un organisme procaryote. Son échec sur les données d’expression
classifiées d’un organisme eucaryote montre ainsi les limites de sa validité. En revanche, il est
à noter que les solutions de ce modèle sont souvent les plus robustes aux perturbations
paramétriques.
169
Chapitre V : Modélisation de réseaux de régulation
Modèles non linéaire (2 termes en exponentielles), (terme de dégradation
constant) et (terme de transcription constant)
eNNm e
NCmeCNm
On observe que ces trois modèles se classent différemment selon la série temporelle
modélisée mais qu’ils permettent en général de satisfaire les exigences de robustesse et de
stabilité tout en conservant une bonne qualité de reproduction des profils expérimentaux. Le modèle reproduit généralement mieux les données que ses cas particuliers et
mais il arrive, lorsque la série temporelle étudiée est plus courte ou lorsque les mesures
présentent un bruit important, que la solution que ce modèle propose soit moins performante
que ses cas particuliers. On attribue cette incohérence apparente à la présence de minima
locaux de la fonction de coût due à un nombre trop élevé de paramètres, ce qui empêche une
bonne optimisation des paramètres. Lorsqu’un stade de développement est étudié individuellement, le modèle est systématiquement meilleur que le modèle et ce,
pour le même nombre de paramètres. Lorsque les profils à reproduire s’étendent sur toute la
période de mesure (série complète, sous-réseau musculaire), la tendance inverse est observée.
Dans le cas des réseaux synthétiques, on observe que les scores sont du même ordre de
grandeur. Rappelons toutefois que ces scores concernent des données synthétiques différentes,
et ne sont, par conséquent, pas directement comparables. Une remarque à ce sujet est que,
dans l’expression de l’évolution d’un taux d’expression, le terme de dégradation est toujours proportionnel au taux d’expression modélisé. Dès lors, le modèle comprend un terme
non linéaire et un terme linéaire alors que le modèle comprend un terme réellement
constant et un terme non linéaire. La formulation du modèle permet donc une
modélisation plus flexible. Par ailleurs, ce modèle mène généralement aux solutions réduites
les plus robustes aux perturbations paramétriques.
eNNm e
NCm
eNCm
eCNm
eCNm
eNCm
eNCm
eCNm
Modèle linéaire linm
Le modèle linéaire, quant à lui, reproduit aussi bien les profils expérimentaux que les
modèles non linéaires et ce, avec moins de paramètres. Néanmoins, il apparaît clairement,
comme cela a été discuté au début de cette approche non linéaire au point 3.1, que ce dernier
est plus mauvais que les autres, voire très médiocre, en terme de robustesse aux perturbations
paramétriques et de stabilité des profils estimés après extrapolation dans le temps, alors que
les 4 modèles non linéaires mènent généralement à des valeurs satisfaisantes et assez proches
pour ces 2 critères.
3.4.4. Méthodes de réduction paramétrique
On constate ensuite qu’il est difficile de classer les méthodes de réduction
paramétrique car il apparaît que selon la série temporelle étudiée leurs comportements
diffèrent vis-à-vis des quatre critères d’évaluation, i.e. reproduction des profils modélisés,
robustesse aux perturbations paramétriques, stabilité des profils après extrapolation
temporelle et niveaux de réduction paramétrique.
170
Chapitre V : Modélisation de réseaux de régulation
Réduction (élimination des paramètres à faible valeur absolue) et vr
r (élimination des paramètres influençant le moins la reproduction des données)
Ces deux méthodes de réduction paramétrique donnent en général de très bons
résultats en ce qui concerne la reproduction des données. D’une part, le critère de sélection
choisit d’éliminer les paramètres qui influencent le moins cette reproduction (en pratique pour et par définition pour vr r . D’autre part, l’élimination des paramètres est ici effectuée « un
par un », ce qui assure une bonne initialisation des paramètres avant leur optimisation. En ce
qui concerne la robustesse et la stabilité des solutions réduites, ces méthodes sont tantôt les
meilleurs tantôt les moins bonnes, mais même dans ce dernier cas, les solutions finales
obtenues restent satisfaisantes au regard de ces deux derniers critères.
Réduction (élimination des paramètres les plus sensibles aux perturbations) pr
Cette méthode de réduction paramétrique donne de très mauvais résultats dans la
plupart des cas. Les solutions réduites comprennent généralement encore beaucoup de
paramètres et les données sont parfois significativement moins bien reproduites. Par ailleurs,
dans certains cas, la solution réduite obtenue dès la première itération dépasse le critère sur
là où les solutions des deux méthodes précédentes restent en deçà de ce seuil. En effet,
l’élimination des paramètres les plus sensibles mène logiquement à une diminution de la
qualité de la reproduction des données. La question était ici de voir si cette diminution
survenait après une amélioration de la robustesse aux perturbations paramétriques. Nos
résultats montrent clairement que ce n’est pas le cas. Cette méthode est donc à éliminer.
, ,m q r
Réduction (élimination des paramètres les moins sensibles au sens de Fisher)
et (élimination des paramètres les plus sensibles au sens de Fisher) Fr
Fr
Ces deux méthodes de réduction paramétrique donnent des résultats variables selon la
structure de modèle et la série temporelle étudiée. Il arrive parfois que la solution réduite
obtenue dès la première itération dépasse le critère sur là où les solutions des deux
premières méthodes précédentes restent en deçà de ce seuil. En revanche, les niveaux de
réduction paramétrique sont en général meilleurs que pour la méthode précédente. Par
ailleurs, en ce qui concerne la robustesse aux perturbations paramétriques et la stabilité, les
solutions réduites obtenues par ces méthodes se montrent en général aussi bonnes que les
autres. Enfin, on constate que selon le modèle et la série temporelle étudiée, ces deux
méthodes mènent à tour de rôle à une solution plus robuste et plus stable. Or, les paramètres
éliminés sont choisis de manière opposée, par définition (voir section 3.2.5). On en conclut
que le critère de sensibilité au sens de Fisher, défini vis-à-vis de perturbations infinitésimales
des paramètres, ne permet pas ici de quantifier la sensibilité des paramètres vis-à-vis de
perturbations plus importantes et que la suppression des paramètres sur la base uniquement de
leur corrélation avec d’autres paramètres maintenus dans le modèle est un critère
d’élimination à tester.
, ,m q r
171
Chapitre V : Modélisation de réseaux de régulation
3.4.5. Sous-réseau du développement musculaire
L’application des méthodes de modélisation développées au sous-ensemble de gènes
impliqués dans le développement musculaire de la drosophile mène à des résultats
intéressants.
Tout d’abord, on constate que pour un ensemble de données a priori aussi facile à
reproduire que les autres données étudiées, les modèles s’avèrent généralement incapables de
reproduire les profils d’expression de plusieurs classes de gènes. En outre, on observe que,
dans ce cas, certaines solutions intermédiaires sont extrêmement sensibles aux perturbations
paramétriques. On attribue ces observations à la grande variabilité des profils d’expression à
reproduire. En effet, dans le cas des données classifiées à partir des 4005 gènes étudiés, les
profils à reproduire sont obtenus en calculant à chaque instant une moyenne sur tous les gènes
de chaque classe. Les profils d’expression moyens obtenus sont donc naturellement plus lisses
que les profils de gènes individuels. Dans le cas du sous-réseau musculaire, en revanche, les
classes ne contiennent que 1 à 8 gènes. Par conséquent, les profils moyens obtenus
contiennent beaucoup plus du bruit de mesure et ce, nonobstant l’effet de lissage réalisé lors
de l’étape de filtrage en moyenne mobile (voir équations V.I.). Dès lors, il apparaît que
l’initialisation des paramètres et leur optimisation échouent à trouver le minimum global de la
fonction de coût de reproduction des données. Néanmoins, on constate que seule la méthode de réduction paramétrique r permet de libérer la recherche paramétrique des minima locaux
de cette fonction de coût pour un des trois modèles étudiés. Ainsi, en réduisant le nombre de paramètres du modèle via cette méthode, on parvient à une solution tout-à-fait capable de
reproduire les profils expérimentaux. Toutefois, ce résultat s’accompagne d’une grande
sensibilité aux perturbations paramétriques et ce, en raison de la grande variabilité des profils
à modéliser. Enfin, on constate qu’avant réduction paramétrique, les modèles étudiés
retrouvent de 37 à 53% des 19 connexions validées expérimentalement et de 55 à 61% de
toutes les connexions et non connexions possibles dans ce réseau. Ainsi plus de la moitié des
interactions possibles de ce réseau sont retrouvées par nos modèles. Après réduction
paramétrique, les modèles étudiés retrouvent jusqu’à à 10 (53%) des 19 connexions validées.
eNNm
3.4.6. Réseaux synthétiques
Enfin, l’application de nos méthodes de modélisation à des données synthétiques
montre que nos modèles reproduisent très bien les données avant réduction paramétrique. Les
valeurs de score, plus élevées que sur les données classifiées à partir des 4005 gènes de
départ, proviennent du bruit artificiel ajouté aux profils synthétiques (voir section 3.2.2). Par
ailleurs, on constate qu’avant réduction paramétrique, les modèles étudiés retrouvent de 42 à
50 % des connexions réelles et de 55 à 60% de toutes les connexions et non connexions
possibles dans ce réseau. Ainsi plus de la moitié des interactions possibles de ces réseaux synthétiques sont retrouvées par nos modèles. Ensuite, on observe que le modèle mène
ici à des solutions très sensibles aux perturbations paramétriques et dont un des profils estimés
eCNm
172
Chapitre V : Modélisation de réseaux de régulation
173
prend des valeurs très élevées après extrapolation dans le temps alors que les autres modèles
s’avèrent très robustes. Signalons finalement que, comme les données à reproduire sont
différentes pour chaque modèle, il est possible que les performances des modèles soient
gouvernées, en partie, par la forme des profils synthétiques. Pour vérifier cette hypothèse, il
conviendrait de répéter cette étape pour plusieurs ensembles de paramètres aléatoires.
top related