Download - Aula2 - Riscos - Estatística Básica

Aula 2

Estatística Básica

Prof. José Valentim Machado Vicente, D.Sc.

[email protected]

Aula 2 2

Conteúdo da Aula

Variáveis aleatórias Estimação da volatilidade Estimação da covariância

Aula 2 3

Variáveis aleatórias

Embora os preços dos ativos financeiros possam ser observados no presente e no passado, não é possível observar o que eles serão no futuro. Os preços dos ativos são variáveis aleatórias e não determinísticas.

Uma variável aleatória é uma função que associa a cada resultado de um experimento um número real. O conjunto de todos os resultados possíveis de um experimento é chamado de espaço amostral. Logo, uma v.a. é uma função do espaço amostral no conjunto dos números reais.

Exemplo: Seja o experimento lançar uma moeda duas vezes. Suponha que estejamos interessados no número de caras.

Aula 2 4


Então podemos definir X(w) da seguinte forma: X(w) = “número de caras observadas nos dois lançamentos”. O espaço amostral S é {CC, CK, KC, KK} onde C = “cara” e

K = “coroa”. Assim, X(CC) = 2, X(CK) = X(KC) = 1 e X(KK) = 0.

Aula 2 5


A v.a. X é discreta se toma um número finito ou numerável de valores, isto é, se existe um conjunto finito ou enumerável de valores {x1, x2, ... } tal que X(w) {x1, x2, ... } w S. A função pX(xi) definida por pX(xi) = P(X = xi), i = 1, 2, ..., é chamada função de probabilidade de X. A função de probabilidade caracteriza a distribuição de X.

Exemplo: Seja o experimento lançar o dado uma única vez. Suponha que o dado é perfeitamente equilibrado. Defina X(w) = “resultado da face superior”, então temos que P(X = 1) = P(X = 2) = P(X = 3) = P(X = 4) = P(X = 5) = P(X = 6) = 1/6.

Aula 2 6


0,00

0,05

0,10

0,15

0,20

1 2 3 4 5 6

Aula 2 7


A variável aleatória X é contínua se existe uma função fX, ou simplesmente f, denominada função densidade de probabilidade (fdp) de X que satisfaça às seguintes condições: fX(x) 0 para todo x.

.

Para quaisquer a, b, com - ∞ < a < b < + ∞, teremos

b

a

X dxxfbXaP )()(

1)(

dxxf X

Aula 2 8


Não estaremos mais interessados em saber a probabilidade de um determinado resultado, mas sim em conhecer a probabilidade do resultado estar em determinado intervalo. Tentaremos responder questões do tipo: Qual a chance da altura de um brasileiro, sorteado ao acaso,

ser maior que 1,50m e menor que 1,70m ? Qual a chance do preço de uma ação de Petrobras no

fechamento de amanhã ser maior que R$ 52,00 ? Para responder a tais perguntas devemos, primeiramente,

conhecer a fdp da altura dos brasileiros e do preço da ação de Petrobrás no fechamento de amanhã.

Aula 2 9


Suponha que a fdp da altura dos brasileiros seja dada por h(x), então, a resposta da segunda pergunta é

70,1

50,1

)()70,150,1( dxxhHP

Aula 2 10


Seja X uma v.a. discreta assumindo os valores x1, x2, ..., xn,..., chamamos de valor esperado ou esperança matemática ou média de X ao valor

Se X for contínua com fdp f(x), o valor esperado de X é definido como

Qual o valor esperado do resultado do lançamento de um dado honesto?

1

)()(i

ii xpxXE

dxxxfXE )()(

Aula 2 11


Podemos também calcular o valor esperado condicionado a um conjunto de informações.

Notação: E(X|F). Exemplo: Qual o valor esperado do resultado do lançamento de

um dado, sabendo que ele é par? E se for ímpar? Se F e G são dois conjuntos de informações tais que F G

então E[E(X|F)|G] = E[E(X|G)|F] = E(X|F). Obs.: O valor esperado é linear, isto é, E[aX + b] = aE[X] + b.

Aula 2 12


A variância de uma v.a. X, denotada por V(X) ou X2, é definida

por

A raiz quadrada positiva de X2 é chamada de desvio padrão de

X, e é denotada por X. Em finanças, é comum usar o termo volatilidade do retorno de um ativo ao invés de desvio padrão.

A volatilidade é uma medida de dispersão da função de densidade de probabilidade.

Obs.: var(aX + b) = a2var(X).

22 )]([ XEXEX

Aula 2 13


O coeficiente de correlação entre duas variáveis X e Y, denotado por ρXY, é definido por

O coeficiente de correlação mede o grau de dependência linear entre duas v.a. O numerador dessa equação é a covariância.

A correlação é uma medida limitada de dependência. Primeiramente, a correlação mede apenas a dependência linear. Isso significa que duas v.a. podem ter correlação baixa mais terem outros tipos de dependência. Ou seja, variáveis descorrelatadas não são necessariamente independentes.

YX

XY

YEYXEXE

)()(

Aula 2 14


Aula 2 15


Propriedade Valor

Média de x 9,0

Variância de x 10,0

Média de y 7,5

Variância de y 3,75

Correlação 0,816

Regressão Linear y = 3 + 0,5x

Aula 2 16


Além disso, no mercado financeiro as estimativas de correlação freqüentemente apresentam falta de robustez.

Assim outros métodos têm surgido com o intuito de capturar a dependência. Um dos mais famosos remete ao conceito de cópulas.

Uma cópula é uma maneira geral de se representar uma distribuição multivariada de tal maneira que vários tipos de dependência possam ser capturados.

Obs.: cov(aX+c,bY+d) = ab·cov(X,Y) e var(X + Y) = var(X) + var(Y) + 2cov(X,Y).

Aula 2 17

Estimação da volatilidade

O retorno ri de um ativo durante o dia i (isto é, entre o final do dia i – 1 e o fim do dia i) pode ser definido de duas maneiras diferentes:

Se o retorno é pequeno (próximo de zero, como são em geral os retornos diários) essas duas definições conduzem aproximadamente ao mesmo valor. Vamos usar preferencialmente a definição “logarítmica”.

1

1

1

e ln

i

iii

i

ii S

SSr

S

Sr

Aula 2 18


Seja n|n – 1 a volatilidade do retorno rn com as informações disponíveis no fim do dia n – 1. Quando não houver dúvidas, vamos simplificar a notação n|n – 1 = n. Em outras palavras, seja Fn – 1 o conjunto de informação disponível ao final do dia n – 1. Então n

2 = var(rn| Fn – 1).

Um estimador comumente usado para a variância n2 usando as

m observações mais recentes é:

. onde ,1

1ˆ 122

m

rr

m

m

iinm

iiinn

Aula 2 19


Esse estimador é não viesado (isto é, acerta na média) se os retornos diários forem iid. Como veremos mais adiante, a equação acima também representa o estimador de máxima verossimilhança da variância, apenas substituindo “m – 1” por “m” no denominador, o que faz pouca diferença se m é grande (maior que 30).

Se os retornos fossem realmente iid, o valor de m deveria ser o maior possível a fim de minimizar o erro de estimação. No mercado financeiro a hipótese de retornos iid nem sempre é verdadeira. Assim, ao tomar m muito grande estaríamos introduzindo dados muito antigos cuja realidade não corresponde mais a atual.

Aula 2 20


Uma regra de dedo consiste em tomar m entre 90 e 180. No mercado brasileiro, valores ainda menores como 20 e 30 dias são usados.

No caso de retornos iid a estimativa da volatilidade h dias (h ≥ 1) a frente também é dada pela equação anterior, i.e., n + h – 1|n – 1 = n. Logo a estrutura a termo da volatilidade é plana. Algo pouco realista. Vale também a regra da raiz, isto é, a volatilidade para um retorno de período t dias a frente, condicionado a informação disponível em n – 1 é dada por:

.|vol 11 tFrr nntnn

Aula 2 21


No caso de retornos diários, a estimativa do retorno médio não é significativamente diferente de zero. Como estamos interessados em estudar a variância, vamos considerar de agora em diante que os retornos diários tem média zero. Pouco esforço é necessário para generalizar os resultados sem essa hipótese. Além disso, tomar desvios em relação ao zero, produz estimativas mais acuradas da volatilidade (Figlewski, 1997).

A equação anterior pondera igualmente todos os retornos. Uma forma muito comum de levar em conta o fato de que os retornos mais recentes deveriam ter uma importância maior na determinação da volatilidade futura consiste em considerar um processo ARCH para a volatilidade (Engle, 1982), dando mais pesos as observações mais recentes.

Aula 2 22


onde w1 > ... > wm > 0. Ou levando-se em conta a existência de uma média de longo

prazo para a variância:

onde V é a média de longo prazo. Um caso particular bem interessante é o modelo EWMA

(Exponentially Weighted Moving Average).

,1

22

m

iinin rw

,1

20

2

m

iinin rwVw

Aula 2 23


Nesse caso V = 0 e os pesos seguem um padrão exponencial:

O parâmetro é denominado fator de decaimento. Quanto menor , maior o peso das observações mais recentes.Valores típicos para entre 0,75 e 0,98. RiskMetrics sugere 0,94 (dados diários) e 0,97 (dados mensais).

m

i

i

m

i

i

n

inr

1

1

1

21

2

Aula 2 24


O documento técnico do RiskMetrics avaliou que entre diferentes mercados o valor de 0,94 fornecia o menor erro de previsão em relação a variância realizada. A variância realizada em um dia foi calculada como a média dos quadrados dos retornos nos 25 dias subseqüentes.

Quando = 1 EWMA = Método Histórico Simples. Outro método de estimação consiste no uso de máxima

verossimilhança, de modo semelhante ao procedimento usado nos modelos GARCH.

Quando V 0 temos o modelo IGARCH.

Aula 2 25


Se m é grande, o denominador da fórmula EWMA para a volatilidade é aproximadamente igual a 1/(1 – ). Desse modo:

Recursivamente, temos

O primeiro termo da equação acima representa a persistência da volatilidade. O segundo termo estabelece a reação da volatilidade aos eventos do mercado.

1

212 )1(i

in in

r

21

21

2 )1( nnn r

Aula 2 26


Vantagens da metodologia EWMA de estimação da volatilidade: A volatilidade reage mais rapidamente a choques no

mercado. Após um movimento extremo a volatilidade declina

exponencialmente a medida que o peso da observação do choque diminui. Em contraste, o uso de média móvel simples leva a mudanças relativamente abruptas no desvio padrão, uma vez que os movimentos extremos saem da amostra considerada de forma não suavizada.

Aula 2 27


0,000%

0,020%

0,040%

0,060%

0,080%

0,100%

0,120%

0,140%

0,160%

0,180%

30

/01

/97

01

/03

/97

31

/03

/97

30

/04

/97

30

/05

/97

29

/06

/97

29

/07

/97

28

/08

/97

27

/09

/97

27

/10

/97

26

/11

/97

26

/12

/97

25

/01

/98

24

/02

/98

26

/03

/98

25

/04

/98

25

/05

/98

24

/06

/98

24

/07

/98

23

/08

/98

Tempo

Vo

lati

lid

ad

e d

iári

a

Simples - 60 dias EWMA - Lambda 0,94

PlatôAssimilação rápida domovimentoextremo

Queda gradual davolatilidade

Queda brusca davolatilidade

Aula 2 28


Uma das deficiências do modelo EWMA refere-se ao fato de que a estrutura a termo da volatilidade é plana, i.e, n + h – 1|n – 1 = n. Modelos EWMA não são capazes de capturar clusters (agrupamento) de volatilidades. De acordo como Mandelbrolt: “Large changes tend to be followed by large changes, of either sign, and small changes tend to be followed by small changes.”

Empiricamente, existe uma correlação positiva entre os quadrados dos retornos. O termo técnico desse fenômeno é heterocedasticidade condicional auto-regressiva.

A volatilidade tende a reverter para alguma média ao invés de permanecer constante ou se mover monotonicamente ao longo do tempo.

Aula 2 29


Variação percentual diária do S&P500 1988 - 2006

Aula 2 30


No modelo GARCH(1,1) a soma dos parâmetros que representam a influência da volatilidade e do retorno atuais na volatilidade do dia seguinte não somam necessariamente 1, como no EWMA:

onde V, , > 0. A variância incondicional é dada por:

O processo é estacionário se + < 1.

),0(~ 21

21

21

2

nnn

nnn

NFr

rV

12 V

Aula 2 31


Exemplo: Suponha V = 0,01, = 0,03, = 0,95 e 02 = 1,1%.

Tempo (n – 1) Retorno Variância Volatilidade

0 0,0 1,10% 1,05

1 3,0 1,32% 1,15

2 0,0 1,27% 1,13

3 0,0 1,22% 1,10

Aula 2 32


O processo GARCH pode ser extrapolado para h dias a frente.

. onde ,)1( 21221|1 n

hhnhn V

Não vale a regra da raiz

Aula 2 33


A estimação dos parâmetros do modelo GARCH é feita via o método de máxima verossimilhança. Ou seja, escolher os parâmetros que maximizam as chances de ocorrência dos dados observados.

Exemplo: Uma urna contém bolas pretas e branca. Dez bolas são sorteadas ao acaso e observam-se duas pretas e oito brancas. Qual a estimativa MV da proporção de bolas pretas na urna?

Exemplo: Estimar a variância v de uma variável R com distribuição normal e média nula, a partir de uma amostra independente de R de tamanho m (r1, r2, ..., rm).

Aula 2 34


A verossimilhança é

Tomando logaritmos e derivando temos que o estimador MV de v é:

Para o modelo GARCH, basta usar a regra de atualização da volatilidade e fazer vi = i

2. Assim o log da verossimilhança é:

m

i

i

v

r

v1

2

2exp

2

1

m

iirm 1

21

Aula 2 35


Basta então encontrar os parâmetros do modelo que maximizam a expressão acima.

Outra alternativa de estimação consiste em considerar que a distribuição dos retornos é uma t-student. Isso complica um pouco mais o processo de otimização uma vez que a função densidade dessa distribuição é menos tratável que a da normal.

m

iiii r

1

222ln

Aula 2 36


Variantes do modelo GARCH: GARCH assimétrico – O modelo GARCH padrão especifica

a resposta da volatilidade como simétrica em relação a notícias “ruins” e “boas” do mercado. Para acomodar uma resposta assimétrica existem diversas possibilidades. O modelo mais comum é o E-GARCH:

Se > 0 e < 0 então choques negativos no retorno induzem respostas maiores na variância do que choques positivos.

21

1

112 ln||

ln

nt

ttn

rrV

Aula 2 37


GARCH (p,q) – considera p lags na volatilidade e q lags nos quadrados dos retornos.

N-GARCH, T-GARCH, GARCH-M, Q-GARCH, ... Em geral, efeitos heterocedásticos estão presentes em dados de

alta freqüência (diários, intraday) e não são comuns em dados mensais. Para detectar a presença de heterocedasticidade existem diversos testes. Os principais deles procuram pela presença de autocorrelação nos quadrados dos retornos.

Se um modelo GARCH capturou bem os efeitos de clusters, então a razão deve apresentar baixa autocorrelação.

Teste usual para detectar autocorrelação – Ljung-Box.

22iir

Aula 2 38

Estimando covariâncias

Supondo que o dispomos de séries iid de tamanho m dos retornos de dois ativos (r1 e r2), um estimador para a covariância entre eles é:

Usando EWMA temos:

Para o GARCH(1,1):

.1cov

12

21

1

m

iininn rr

m

21

111 )1(covcov nnnn rr

21

111covcov nnnn rrV

Aula 2 39


A especificação do modelo GARCH anterior para a covariância é a forma mais simples de incorporar os efeitos heterocedásticos. Essa versão é conhecida como vech diagonal. O modelo é bastante restritivo uma vez que as volatilidades passadas não entram na equação da covariância atual. Ou seja, o modelo não captura o aumento da correlação que freqüentemente acompanha o aumento de volatilidades.

A especificação completa de um modelo GARCH multivariado envolve uma quantidade enorme de parâmetros que se torna impossível a estimação. Por exemplo, a matriz de covariância de um modelo GARCH bivariado completo é

Aula 2 40


onde A e B são matrizes de dimensão 3. Logo temos 21 parâmetros a serem estimados!

Na versão vech diagonal, as matrizes A e B são diagonais e o número de parâmetros a serem estimados se reduz para nove. Outra versão bastante usada dos modelos GARCH multivariados é a BEKK (Baba, Engle, Kraft e Kroner).

1

21,2

21,1

1,21,1

21,2

21,1

3

2

12,2

2,1

covcov n

n

n

nn

n

n

n

n

n

B

rr

r

r

A

V

V

V

Aula 2 41


Mesmo usando simplificações na especificação de modelos GARCH multivariados a estimação em geral é problemática, uma vez que o número de parâmetros cresce rapidamente. Duas soluções são em geral empregadas. Bollerslev (1990) propõe que a matriz de covariância Ht seja

estimada da seguinte forma:

onde Dt é matriz diagonal das volatilidades GARCH e C é uma matriz de covariância calculada com as covariâncias históricas ou via um esquema EWMA com pesos constantes.

ttt CDDH

Aula 2 42


Outra solução é usar um modelo de fatores (como o CAPM):

Admitindo que não haja correlação condicional entre o mercado e os riscos específicos, temos:

As covariâncias entre os riscos específicos podem ser determinadas com as covariâncias históricas ou tomadas iguais a zero.

jMjjj

n Rr

),cov(),cov( 2.

kn

jnRnkj

kn

jn rr

Aula 2 43

Leitura

Alexander, C. – Modelos de Mercados, 2005. Capítulos 1, 2, 3, 4 e 5.

Hull, J. – Options, Futures and Other Derivatives, sixth edition, 2006. Capítulo 17.

Tsay, R. – Analysis of Financial Time Series, 2005. Capítulos 1, 2 e 3.

Bollerslev, T. e outros – ARCH Modelling in Finance. Journal of Econometrics, 1992.

Bollerslev, T. Modelling the coherence in short-run nominal exchange rates. Review of Economics and Statistics, 1990.

Aula 2 44

Leitura

Engle, R. – Autoregressive conditional heteroscedasticity with estimates of the variance of UK inflation. Econometrica, 1982.

Figlewski, S. (1997) Forecasting volatility, Financial Markets, Institutions and Instruments (New York University Salomon Center), 6, 1, 1–88.

Jorion, (2007) – Value-at-Risk Capítulo 9.

Aula 2 45

Apêndice A - Distribuição Normal

A distribuição normal ou Gaussiana é uma das mais importantes distribuições de probabilidade.

Ela serve como uma excelente aproximação para uma grande classe de distribuições que têm enorme importância prática.

Notação: N(,2) significa distribuição normal com média e variância 2. Já Z = N(0,1) significa distribuição normal padrão, isto é, com média zero e a variância unitária.

Aula 2 46

68,27%

95,46%

99,73%


>

Aula 2 47

A maior parte dos dados se encontram em torno da média. A medida que nos afastamos dela, tanto para mais como para menos, a probabilidade de ocorrência de um resultado diminui de uma forma simétrica, isto é, a distribuição é uma curva simétrica em relação a .

O espalhamento do gráfico é determinado pelo desvio padrão . A equação da curva é


.21

exp21

)(2

x

xf

Aula 2 48


Propriedade: Se X tem distribuição normal N(,2) então (X – )/ tem distribuição normal padrão.

Tabela da distribuição normal padrão.

z = P[Z z]

-3 0,00135

-2 0,02275

-1 0,158655

0 0,5

Aula 2 49


Exemplo: Suponha que a altura H de um brasileiro adulto seja distribuída normalmente com média 170 cm e variância 100 cm2. Calcule a probabilidade da altura de um brasileiro sorteado ao acaso ser maior que 2,0 m.

P[H > 200] = P[H – 170 > 30] =

= P[(H – 170)/10 > 3] =

= P[Z > 3] = (simetria) =

= P[Z < – 3] = (tabela) = 0,00135.

Aula 2 50

Apêndice B - Distribuição t-student

Distribuição em forma de sino e simétrica em torno de zero. Seus valores extremos se afastam mais de zero em comparação à

normal padrão. Quanto mais graus de liberdade, maior a proximidade em

relação à normal padrão. Sua fdp é:

2

12

1

2

21

)(

x

xf

Aula 2 51

ZZtt

00

t (t (dfdf = 5) = 5)

Normal Normal PadrãoPadrão

t (t (dfdf = 13) = 13)

Formato de sinoFormato de sino

SimétricaSimétrica

Caudas ‘gordas’Caudas ‘gordas’

Apêndice B - Distribuição t-student

Download - Aula2 - Riscos - Estatística Básica

Top Related