application des modèles à changement de régime sur l ... · décembre 2011 soit un total de 521...
TRANSCRIPT
APPLICATION DES MODELES A
CHANGEMENT DE REGIME SUR
L’INDICE S&P 500
Luis Macavilca • Taylan Kunal
Yannick Le Pen
Janvier 2012
0
10
20
30
40
50
60
70
80
90
0
200
400
600
800
1000
1200
1400
1600
1800
S&P500 Index VIX
Sommaire
I. Introduction
II. Analyse de la série
III. Modélisation ARMA
IV. Estimation des modèles non linéaires
1. Threshold autoregressif (TAR)
2. Self-Exciting Threshold AutoRegressive (SETAR)
3. Smooth Threshold autoregressif (STAR)
4. Tests de non linéarité
V. Estimation d’un modèle à changement de régime de Markov
I. INTRODUCTION
L'incertitude qui entoure l'accord budgétaire européen et la peur d’une récession mondiale ont
maintenu une forte volatilité sur les marchés américains et une baisse des principaux indices
boursiers européens. L'indice S&P 500, référence des gérants de fonds, a reculé d'environ 3%
depuis le début 2011. Ici dans le cadre des séries temporelles financières, la modélisation par des
équations linéaires peut s’avérer insuffisante. En fait l’introduction des modèles non linéaires
permet de définir le comportement notre série en tenant compte des valeurs passées de la série et
d’analyser les effets de seuil (« Threshold effect »). Les modèles qui étudient ce phénomène sont
connus sous le nom de modèle à changement régime.
A cette fin, nous allons modéliser l’indice S&P 500 au moyen des modèles à changement de
régime de type TAR, STAR et des modèles à changement de régime Markovien afin de
reproduire la non-linéarité présente en moyenne tout en utilisant des outils statistiques et des tests
économétriques récents en vue d’examiner la dynamique des cours boursiers à court-terme.
II. ANALYSE DE LA SERIE
a) Données
Les données de l’indice S&P 500 ont été extraites du site Yahoo finance.
Les cours de l’indice ont été ajustées à la clôture des marchés afin de permettre une
comparaison dans le temps.
Les données sont hebdomadaires (4 à 5 données par mois) allant du 2 Janvier 2002 au 19
décembre 2011 soit un total de 521 observations.
Tout au long de ce projet nous allons réaliser des tests statistiques. Nous avons fixé un seuil de
confiance de 95%.
b) Etude Graphique
Graphique de l’indice S&P 500
Commentaire :
Le graphique de notre série fait ressortir des tendances haussières et baissières. Il semblerait que
cette série soit non stationnaire. En effet la moyenne et la variance ne sont pas constantes pour
tout intervalle de temps donné.
Par ailleurs nous pouvons remarquer que la série connait des chocs stochastiques qui
s’accumulent au cours du temps ce qui augmentent la variance du processus au fur et à mesure
que le temps passe. Il est toujours nécessaire de tester l’hypothèse de stationnarité ou de non
stationnarité par un test adapté que nous verrons par la suite.
Nous avons calculé le rendement logarithmique de notre série yt :
yt = log(pt/pt-1)
Correlogramme S&P 500
Commentaire :
Le corrélogramme de la série nous montre que a série est caractérisé par un processus non
stationnaire. En fait, les termes du corrélogramme décroissent très faiblement. Les séries non
stationnaires connaissent ce phénomène. Par ailleurs la fonction d’autocorrélation partielle (PAC)
indique le coefficient d’autocorrélation entre le cours de l’indice à un instant donné en fonction
d’un cours passé sans tenir compte de l’influence des autres cours précédents. Ici nous pouvons
voir que seul le premier terme est significativement différent de zéro (l’intervalle de confiance est
stylisé par les pointillés).
Graphique des Rendements de S&P 500
Commentaire :
Le graphique des rendements nous laisse présager que les rendements de l’indice S&P 500 sont
stationnaires.
Correlogramme rendement S&P 500
Commentaire :
Nous constatons dans le corrélogramme que tous les termes sont dans l’intervalle de confiance et
que la probabilité critique de la statistique de Ljung-Box est pour presque tous les retards,
supérieurs à 5% Par conséquent nous acceptions l’hypothèse nulle. Les rendements sont bien
stationnaires.
Statistiques descriptives
Commentaire :
Du 02 Janvier 2002 au 27/12/2011 le rendement moyen a été de +0.00760% avec une dispersion
autour de la moyenne de 2.69%. Pendant cette période le rendement le plus haut a été de +11.35%
et le plus bas de -20%.
Le rendement a été autant de temps en dessous des +0.1280% qu’au dessus.
Le coefficient d’asymétrie (Skewness) est négatif égal à -0.79 ce qu’indique que la partie gauche
de la distribution de la fonction de densité est légèrement supérieure à celle de droite. Un
Skewness égal à zéro représente une distribution strictement symétrique comme la loi normale.
Le kurtosis permet de connaitre le niveau d’aplatissement d’une densité, ici il est égal à 10.29.Le
kurtosis d’une loi normale est de 3 donc ici nous ne pouvons pas conclure que cette série à une
distribution normale.
Néanmoins le test de Jarque-Bera va nous permettre de déterminer si notre série suit une loi
normale. Ici la statistique de test JB=1205 et elle suit une loi de Chi-deux à 2 degré de liberté.
X20.95(2) < JB, par ailleurs la p-value est très en dessous de notre marge d’erreur de 5%. Par
conséquent nous n’acceptons pas l’hypothèse nulle : nos données ne sont pas gaussiennes.
c) Test de stationnarité
Les tests d’ADF, Phillips Perron et KPSS nous confirment notre intuition, les rendements de
l’indice S&P 500 n’ont pas de racine unitaire, ils sont donc bien stationnaires.
III. ESTIMATION DU MODELE ARMA
a) Estimation du modèle linéaire
Nous avons estimé 3 modèles linéaire AR, les ordres 1 et 2 ne semblent pas significatifs (les t-
Statistique sont inférieurs à 1.96 en valeur absolue). Seulement l’AR (3) est significatif, nous
allons donc analyser ses résidus.
b) Analyse des résidus
Correlogramme des résidus AR (3)
Commentaire :
Nous pouvons observer ici que les p-values associées aux statistiques de Ljung-Box sont
supérieures à 5%. Nous pouvons donc accepter l’hypothèse d’absence d’autocorrélation des
résidus.
Correlogramme des résidus au carré AR(3)
Commentaire :
Le corrélogramme des résidus au carré montre que les résidus sont hétéroscédastiques. En fait
tous les p-values sont inférieures à 5% nous concluons que les résidus sont hétéroscédastiques.
c) Test de ARCH
Commentaire :
Le test ARCH nous confirme cela, nous pouvons donc conclure que nos résidus sont
hétéroscédastiques mais non autocorréles. Ce ne sont pas des bruits blancs.
Nous pouvons conclure que les rendements de l’indice S&P 500 est une marché aléatoire
hétéroscedastique.
d) Test de Ramsey
Commentaire :
Ce test va nous permettre d’estimer les paramètres de notre modèle linéaire AR(3). Il va nous dire
si notre modèle est bien spécifiée (hypothèse nulle).
Nous constatons ici que les p-values associées à la F-stat et Log likehood ratios sont inférieures à
5%. Nous rejetons l’hypothèse, nulle notre modèle linéaire est mal spécifié. Nous pouvons
supposer que pour notre série, un modèle à changement de régime pourrait convenir davantage.
e) Tests de stabilité des paramètres
Ce test permet d’étudier la stabilité du modèle estimé au cours du temps.il y a un lien entre la
stabilité des paramètres et la linéarité d’un modèle. Il existe deux versions de ce test : le CUSUM
fondé sur la somme cumulée des résidus récursifs et le CUSUM Square fondé sur la somme
cumulée du carré des résidus récursifs.
Test Cumulative Sum of Residual (CUSUM)
Nous constatons ci-dessous que les résidus récursifs (en bleu) sont très proches de zéro, il est
largement à l’intérieur de l’intervalle de confiance (en rouge). Nous pouvons donc conclure qu’il
n’y a pas d’instabilité des paramètres dans le temps.
Test CUSUM Square
Ce test permet de détecter une instabilité dans la volatilité des résidus. Il est fondé sur la somme
cumulée du carré des résidus récursifs. Lorsque la courbe en trait plein traverse une des deux
lignes en pointillés, la variance résiduelle n’est pas instable au seuil de 5%
Récursive Residuals
Le graphique ci-dessous montre les résidus récursifs autour de zéro, 2 fois l’écart-type des erreurs
en valeurs absolu apparait également en pointillés rouge pour chaque point. Si les résidus sortent
de la bande des écart-types des erreurs on peut supposer une certaine instabilité dans les
paramètres de l’équation.
f) Test d’indépendance BDS
Commentaire :
Ce test va nous permettre de savoir si les variables sont indépendantes et identiquement
distribuées à partir de la notion d’autocorrélation. L’hypothèse nulle est que les variables sont iid.
On peut s’apercevoir que la p-value associée à la statistique de test est égal à zéro, par conséquent
nous rejetons l’hypothèse nulle, nos résidus ne sont pas iid (ce ne sont pas des bruits blancs), par
conséquent l’hypothèse de linéarité ne peut pas être accepté. La série est donc non linéaire
IV. ESTIMATION DES MODELES NON LINEAIRES
Depuis des années il est reconnu que la plupart des séries financières présentent des dynamiques
non linéaires, des asymétries, des distributions multimodales. Etant donné qu’il est impossible de
rendre compte de ces phénomènes à partir des modèles linéaires autorégressifs usuels de type
ARMA, on a nécessairement recours à des processus non linéaires capables de reproduire ces
caractéristiques. Ce le but de ce chapitre.
1. Threshold autoregressif (TAR)
La variable de seuil qt est supposée connue. Afin d’illustrer la relation entre le marché des
actions et la volatilité, nous avons choisi comme variable de changement de régime l’indice VIX.
L’indice VIX est un indicateur de volatilité du marché financier américain ( le S&P 500 étant
censé représenter le marché américain), il est calculé en faisant la moyenne des volatilités sur les
options d’achat (call) et les options de vente (put) sur l’indice Standard & Poor’s 500. Plus la
valeur de cet indice est forte, plus les marchés ont une nervosité élevée et donc un pessimisme
élevé. Une faible valeur, à l’inverse, indique un relatif optimisme sur le marché financier
américain.
Evolution de l’indice VIX depuis 2002
Nous allons utiliser ici des critères d’information spécifiques aux modelés de changement de
régime afin de choisir le bon ordre de l’AR.
Nous avons fixé d=1 comme retard de la variable à seuil car après plusieurs estimations nous
avons constaté que cela a très peu d’impact sur les estimations et ceci se reporte sur les critères
AIC et BIC.
0
10
20
30
40
50
60
70
80
90
AIC(p1, p2 ) = n1 lns1
2 + n2 lns 2
2 + 2(p1 +1)+ 2(p2 +1)
BIC(p1, p2 ) = n1 lns1
2 + n2 lns 2
2 + ln(n1)(p1 +1)+ ln(n2 )(p2 +1)
Pi = nombre de retard dans le régime i
Ni = nombre d’observations dans le régime i
s 2
i = variance résiduelle dans le régime i
Wong et Li ont montré par simulations que le critère AIC est plus adapté aux petits échantillons
et que généralement le critère BIC était le plus adapté aux grands échantillons.
AIC – BIC (Wong & Li)
Commentaire :
Nous pouvons constater que nous sommes face à une divergence de résultat. Le critère AIC nous
conduit à choisir un retard égal à 4 alors que le critère BIC nous pousse à prendre un seul retard.
Estimations TAR (1,1 1)
Commentaire :
Nous avons estimés les deux modèles. Le premier tableau nous montre un TAR (1,1,1). Nous
sommes dans le régime 1 si la valeur du VIXt-1 est inférieure ou égale au seuil optimal de 1,8% et
nous serons dans le régime 2 si VIXt-1 > 1,8%.
Avec cette spécification le coefficient AR dans le régime 1 est négatif et significatif alors que
celui du régime 2 est positif mais pas significatif.
Le régime 1 semble être une période de baisse de l’indice S&P 500 car le coefficient de l’AR est
négatif et significatif, sachant qu’on est dans le régime 1 seulement si la variation de l’indice VIX
est inférieure ou égale à 1,8%.
S&P 500 Index vs VIX Index
Commentaire :
Empiriquement il existe une relation inverse entre la performance de l’indice S&P500 et la
variation de l’indice VIX, en fait en période haussière de l’indice de marché la volatilité a
tendance à baisser alors qu’en période baissière la volatilité augmente. Dans le graphique de
l’évolution de ces deux indices, nous pouvons voir le cours des deux indices depuis 2002. Nous
pouvons voir que les deux indices sont négativement corrélés.
0
20
40
60
80
100
0
500
1000
1500
2000S&P500 Index VIX
Estimations TAR (4,4 1)
Commentaire :
Nous avons estimé un TAR (4, 4,1), nous constatons rapidement que le régime 2 possède plus de
variables significatives que le régime 1. Ce modèle illustre mieux la réalité car dans le régime 2
tous les coefficients AR sont négatifs ce qui représente une période de baisse de l’indice lorsque
la variation du VIXt-1 dépasse notre seuil optimal de 1,5%. Donc nous constatons avec cette
spécification qu’une hausse de la volatilité lorsque le marché est baissier.
Intervalle de Confiance du seuil pour un TAR (1, 1,1)
Commentaire :
Hansen propose d’utiliser la méthode de moindres carrés séquentiels pour estimer notre seuil
optimal. On évalue la variance résiduelle du modèle à seuil conditionnellement à cette valeur du
seuil. L’estimation du seuil est alors la valeur qui minimise la variance résiduelle. Nous pouvons
également utiliser un intervalle de confiance pour le seuil, basé sur la distribution asymptotique
de la statistique du rapport de vraisemblance.
Dans le graphique ci-dessus la ligne rouge représente la statistique du rapport de vraisemblance
LR pour diffèrent valeurs du seuil. Tous les points qui sont en dessous de la ligne de confiance
sont tous les seuils qui font partie de l’intervalle de confiance. Autrement dit dans le cas d’un
TAR(1,1,1), nous avons 95% de chance que la valeur du vrai seuil soit compris dans l’intervalle
[0,0092 ;0,0218] et 90% qu’il soit dans l’intervalle [0,0095 ;0,0218]. Nous pouvons constater
également que l’intervalle de confiance est imprécis car il est assez large.
1. Self-Exciting Threshold AutoRegressive (SETAR)
On suppose maintenant que la variable de changement de seuil qt est un retard quelconque
qt=yt-d. Ici nous avons pris d=1. Le changement de régime est déterminé par des valeurs
retardées de la série. Nous appliquons la même méthode précédente et nous cherchons l’ordre p
qui minimise les critères AIC et BIC. Le retard p=3 minimise le critère AIC alors que le retard
p=1 minimise le critère BIC.
Nous estimons les deux modèles SETAR, la première spécification nous montre que le régime 1
n’est pas du tout significatif alors que dans le régime 2 la constante et le coefficient de l’AR sont
significatifs. Le seuil optimal est maintenant négatif -2.12%, nous pouvons supposer que le
regime1 correspond à des périodes de performances négatives de l’indice. Pour la deuxième
spécification presque tous les coefficients sont significatifs dans le régime 1 à l’exception de l’AR
(2) alors que dans le régime 2 aucun des coefficients sont significatif.
Estimations SETAR
2. Smooth Threshold autoregressif (STAR)
Pour le modèle SETAR, le passage entre les deux régimes se fait brusquement en fonction du
signe de yt-1 (d=1). On peut trouver une fonction continue G(yt-1,g ,c) qui lisse le passage de 0
à 1. Ce type de modèle s’appelle Smooth TAR (STAR). Une telle fonction est la fonction
logistique définie par :
G(yt-1,g ,c) =1
1+ exp(-g [yt-1 - c])
Le paramètre c est la valeur du seuil entre les deux régimes, g est le paramètre qui détermine la
vitesse de transition d’un régime à l’autre, c’est à dire plus g est grand et plus la transition d’un
régime à l’autre se fera rapidement et est la variable de changement de régime. G(yt-1,g ,c)
est une fonction croissante de yt-1.
L’équation devient :
yt = (f0,1 +f1,1yt-1)(1-G(yt-1,g ,c))+ (f0,2 +f1,2yt-1)G(yt-1,g ,c)+et
Si G(yt-1,g ,c) = 0 nous sommes dans le régime 1
Si G(yt-1,g ,c)= 1 nous sommes dans le régime 2
Nous allons estimer le modèle STAR par la méthode de moindres carrés non linéaires (Non-
Linear Least Squares). En fait ici nous cherchons à estimer les paramètres suivants :
q = (f01,f11,f02,f12,g ,c)'
yt-1
Ces paramètres doivent satisfaire la relation suivante :
q = argminq (yt - F(yt-1,q))2
t=1
n
å
Où F(yt-1) = (f0,1 +f1,1yt-1)(1-G(yt-1,g ,c))+ (f0,2 +f1,2yt-1)G(yt-1,g ,c)
Il n’y a pas de solution analytique pour résoudre ce programme. Afin de résoudre ce programme
nous devons utiliser une procédure d’optimisation numérique qui demande le choix des valeurs
initiales. Le choix des valeurs initiales est important pour l’algorithme. Nous devons supposer au
début que g et c sont connus, on va donc se donner un ensemble des valeurs possibles pour ces
deux paramètres. On va estimer par les moindres carrés les valeurs initiales de g et c qui
minimisent la variance du résidu. Une fois que les valeurs initiales sont connues on peut estimer
par NLS les autres paramètres en appliquant l’algorithme à la fonction objective présentée sous
cette forme :
Qn(g ,c) = (yt -j(t=1
n
å g ,c)'xt (g ,c))2
Cette fonction nous permet de réduire considérablement le nombre de paramètres à estimer par la
NLS. Les valeurs initiales de g et c va nous permettre d’estimer les autres paramètres restants
grâce à la fonctionQn(g ,c) qui dépend elle-même de ces deux paramètres.
Nous pouvons voir ci-dessous la estimation du modèle STAR, on peut constater que le paramètre
Gamma est relativement élevé ce qui entraine un niveau de transition assez rapide. Par ailleurs
nous avons un seuil de -34% qui est assez éloigné de celui de -2.12% du modèle SETAR.
Estimation STAR
Dans ce graphique nous pouvons voir les différentes valeurs de la fonction G, on constate qu’au
fur et à mesure que yt-1 augmente, G augmente également jusqu’à ce que G soit égale à 1, par
conséquent nous sommes dans le régime 2. Il semble que la transition d’un régime à l’autre se fait
très rapidement. Pour réaliser ce graphique nous avons considéré un paramètre gamma maximal
égal à 1 pour que l’algorithme puisse trouver les valeurs qui maximisent le log vraisemblance
G(yt-1,g ,c)
3. Tests de non linéarité contre un modèle SETAR
Ici nous allons tester un modèle linéaire contre un modèle non linéaire. L’hypothèse nulle nous
dit que les coefficients dans les deux régimes sont égaux donc nous sommes face à un modèle
linéaire alors que l’hypothèse alternative nous dit que les coefficients sont différents et donc le
modèle qui représente le mieux notre série est un modèle non linéaire.
H0 :f1 = f2
H1 :fi,1 ¹ fi,2,iÎ 0,...,{ p}
Ici nous sommes face à un problème d’identification car les modèles non linéaires contiennent
des paramètres non identifiables sous Ho. Par exemple dans le cas d’un modèle SETAR la
variable c n’est pas identifiable sous Ho. Donc les procédures de test standard ne permettent plus
de déterminer la loi asymptotique de la statistique de test. Comme on connaît que c qui minimise
la variance résiduelle alors la statistique de test qu’on va utiliser est :
cÎC
supF(c) =cÎC
supT (s e
2 -s 2
e (c)
s 2
e (c))
s e = variance résiduel du modèle linéaire AR (p)
s 2
e (c) = variance résiduelle du modèle SETAR
Dans la première partie du projet nous avons retenu un AR (3) comme modèle linéaire. Le
tableau ci-dessous nous donne le résultat du test que nous avons effectué :
Nous constatons que notre statistique de test est inférieure à la valeur critique et la p-value est
supérieure à 5%, par conséquent au seuil de 5% nous acceptons l’hypothèse nulle les coefficients
de l’AR sont identiques dans les différents régimes. Notre modèle est donc linéaire.
A titre d’informatif nous avons aussi testé un SETAR contra un AR(1), le test nous indique qu’un
modèle SETAR est le plus indiqué pour modéliser notre série, en fait nous pouvons voir que la
statistique de test est supérieure à la valeur critique donc nous rejetons Ho.
V. MODELE A CHANGEMENT DE REGIME MARKOVIEN
Hamilton (1989) montre que l’on peut aussi chercher à modéliser le processus de la série comme
un processus à changement de régime markovien. Le régime à la date t est déterminé par une
variable inobservable. On suppose que cette variable est générée par un processus de Markov
d’ordre 1 (noté St). St prend 2 états possibles : 1 et 2.
Estimation du modele à changement de régime Markovien
Estimation Ecart type P.Value
Régime 1 C 0.0049 0.0011 0
AR(1) -0.2335 0.0425 0
AR(2) -0.0246 0.0486 0.61
AR(3) -0.1898 0.0458 0
Régime 2 C -0.0185 0.0033 0
AR(1) 0.9513 0.1306 0
AR(2) 0.2519 0.093 0.01
AR(3) 0.1815 0.1094 0.1
AIC -2.35E+03 BIC -2.30E+03
---> Transition Probabilities Matrix (std. error, p-value) <---
Régime 1 Régime 2
0.82 (0.03,0.00) 0.86 (0.09,0.00)
0.18 (0.02,0.00) 0.14 (0.09,0.12)
Le coefficient du modèle AR(2) pour le régime 1 est significativement différent de zéro à un seuil
de 5%. Le coefficient de AR(3) pour le régime 2 est significativement different de zero à un seul
de 5%.
Concernant les probabilités de transition :
la probabilité de passer du régime 2 en t-1 au régime 1 en t est estimée à 0.86 et n’est pas
significativement différent de zéro.
la probabilité de passer du régime 1 en t-1 au régime 2 en t est estimée à 0,82 et n’est pas
significativement différent de zéro