introduc¸ao a geoestat˜ ´ıstica - wiki do legleg.ufpr.br/~paulojus/mbg/slides/mbgpt.pdf · (c)...
TRANSCRIPT
Introducao a Geoestatıstica
Paulo Justiniano Ribeiro Junior ∗
LEG - Laboratorio de Estatıstica e Geoinformacao
Departamento de Estatıstica
Universidade Federal do Parana
Material de Curso
Piracicaba, SPAgosto, 2005
∗Endereco para correspondencia: Departamento de Estatıstica, Universidade Federal do Parana,E-mail: [email protected]
1
INTRODUCAO A ESTATISTICA ESPACIAL
1. Exemplos Basicos de dados espaciais
2. Terminologia para estatıstica espacial
3. Modelos e problemas em estatıstica espacial
4. Um estudo de caso: doenca de citrus
1. Estatıstica Espacial:Alguns Exemplos Basicos
(a) Taxas de cancer por regioes administrativas
tons de cinza correspondem a variacao estimadado risco relativo de cancer coloretal em 36 zonaseleitorais da cidade de Birmingham, UK.
395000 400000 405000 410000 415000 420000
2750
0028
0000
2850
0029
0000
2950
0030
0000
Eastings (meters)
Nor
thin
gs (
met
ers)
0.9 1.0 1.1 1.2 1.3
2
(b) Hansenıase em Olinda
3
4
Alguns problemas com estrutura de dados se-melhante
• Indices de criminalidade por bairros
• Mortalidade infantil (e/ou outros indicadores)por municıpios de um estado
• Experimentos agrıcolas de campo
• Analise de imagens
5
(c) Precipitacao no Estado do Parana
Medidas de chuva em 143 postos meteo-rologicos.Medias historicas para o perıodo de Maio-Junho(estacao seca).
200 300 400 500 600 700 800
010
020
030
040
050
060
0
6
(d) Teores de Calcio em um solo agrıcola
5000 5200 5400 5600 5800 6000
4800
5000
5200
5400
5600
5800
X Coord
Y C
oord
7
Alguns problemas com estrutura de dados se-melhante
• Teores de elementos minerais em uma jazida
• Nıveis de poluicao do ar medidos em estacoesde monitoramento
• Estoque de peixes em uma certa areamarıtima
8
(e) Infeccoes bacterianas no sul da Inglaterra
Localizacoes das residencias de 651 casos noti-ficados num perıodo de 1 ano na regiao centraldo sul da Inglaterra.
•••••••••••••••••••••
•
•••••••••••••••••••••••••••••
•••••• •• •••• ••••••••••••••••
••••••
••
•••
•
•
••••••••••
••••• •
•••••••••••••••
•••••••
••• ••• ••••••
••••••• ••
••••••••••••
•••
••••• •••••••••••••••••••••••••••••••••••
•
•
••••••••
•••
•••••• •••• ••••••••
•
•••••••••••••••••••••
•••••••••
••••
••••••
•••••• •
•••••••••••••••••••••
••••••••••••
••••• •••••••••••••••••••••
• •••••••••••••
•• •
••••
•••
••••••
•••••••••••••••••••••••••••••••
•••
•
••••••••
••••
•••••••
• ••••
• • •••••••
•••• •••
•
•••••••
•
••
•
•••••••
••
•••••••••••••• •••
••••
••• •••••
•••••••••••••••
••••••••
••••••••••• •••
••
•
•
•••
• •• ••••
•••••
•
•••
•
••
•
•• •••
•••
••
•
••
••••
••••
••
•• •
••••••
•
•
•
E-W (km)
N-S
(km
)
380 400 420 440 460
8010
012
014
0
9
(f) Ocorrencias em Porto Alegre
17000 19000
1650
0016
6500
1680
00
Homicídios
W−L
S−
N
17000 1900016
5000
1665
0016
8000
Suicídios
W−L
S−
N
17000 19000
1650
0016
6500
1680
00
Acidentes
W−L
S−
N
17000 19000
1650
0016
6500
1680
00
W−L
S−
N
10
Alguns problemas com estrutura de dados se-melhante
• Localizacao de arvores de certa especie emuma area de floresta natural
• Pontos de ocorrencia de crimes em uma ci-dade
• Posicoes de ninhos de certo passaro em umaregiao
11
2. Terminologia e questoes para es-tatıstica espacial
(a) Variacao espacial discretaEstrutura basica. Yi : i = 1, ..., n
• raramente ocorre naturalmente
• util como estrategia pragmatica
• modelos sao tipicamente definidos indireta-mente a partir de condicionais[Yi|Yj,∀j 6= i]
i. Medidas de agregacao comumente utilizadas(por ex. I de Moran)
ii. Diversas opcoes de modelos, entre eles:
iii. a. Regressao ponderada geograficamente
iv. b. Modelos CAR (auto-regressivo condicional)e SAR
v. Definicao de vizinhanca pode depender doproblema
12
(b) Variacao espacial contınuaEstrutura basica. Y (x) : x ∈ IR2
• dados (yi, xi) : i = 1, ..., n, localizacoes xi podemser:
– nao estocastica (ex. grade cobrindo a regiaoem estudo A) ou estocastica, porem indepen-
dente do processo Y (x)
i. em geral (mas nem sempre!) o objetivo e depredicao
ii. a predicao pode ser do processo subjacente ouum funcional deste
iii. possıveis relacoes com covariaveis
iv. modelos comumente utilizados podem ser vis-tos como MLG, com efeito aleatorio espacial-mente estruturado
v. grande numero de metodos/algorıtmos “ad-hoc” na literatura de geoestatıstica
13
(c) Processo pontual espacialEstrutura basica. Conjunto contavel de pontosxi ∈ IR2, gerados estocasticamente.
• as vezes dados sao agregados em regioes
i. questao chave e dizer se processo e aleatorio,agrupado ou regular
ii. modelagem basica para superfıcie de intensi-dade do processo pontual
iii. varios modelos disponıveis, “facil” de simular,difıcil de estimar
iv. conhecimento do processo subjacente podeguiar escolha de modelos
v. alguns pontos importantes: correcoes deborda, correcoes para populacao sob risco, es-tudos de caso-controle, etc
14
Estatıstica espacial e a selecao de metodos es-tatısticos nos quais a localizacao espacial tem pa-pel explıcito na analise dos dados.
Temas estrategicos
• nao confundir formato dos dados com o processo
subjacente.
• a escolha do modelo pode ser influenciada pelosobjetivos cientıficos do estudo
• problemas reais nao necessariamente se encai-xam em um dos tipos basicos, podem ser abor-dados de difrentes formas ou conterem elemen-tos de cada um dos tipos. A divisao e puramentedidatica
• ha outras possibilidades tais comos processospontuais marcados, processos espaco tempo-rais, etc
• Estatıstica espacial e Sistemas de InformacaoGeografica (SIG)
• Estatıstica espacial e Geoestatıstica
• Problemas espaco-temporais
15
3. Estudo de caso – Doenca de citrusProblema consiste em quantificar a importanciarelativa dos dois mecanismos de reproducao dofungo causador a Pinta Preta dos citrus.
Conjectura-se que o padrao espacial da fase asse-xuada deve ser agragado enquanto que o da fasesexuada deve ser aleatorio.
Analises ilustram o uso de metodos associados acada um dos “tipos basicos” a um mesmo pro-blema.
16
4. Palavras finais
NAO ANALISE DADOS . . . . . .
. . . . . . ANALISE PROBLEMAS !
PROJETO SAUDAVEL
http://saudavel.dpi.inpe.br
LEG – Laboratorio de Estatıstica de Geoinformacao
http://www.est.ufpr.br/leg
17
Geoestatıstica
1. Geoestatıstica: outros exemplos
2. Questoes Centrais
3. Modelo Geoestatıstico
4. O modelo Gaussiano
5. Predicao
6. Estudo de Caso
1. Outros Exemplos de Problemas Geoes-tatısticos
(a) Dados de chuva na Suıca
E-W (km)
N-S
(km
)
0 100 200 300
0
50
100
150
200
Localizacoes com tamanhos dos pontos proporcionais aos valores ob-
servados de precipitacao
• 467 postos na Suıca
• medidas diarias de chuva em 8/05/1986
• dados do projeto:Spatial Interpolation Comparison 97
ftp://ftp.geog.uwo.ca/SIC97/.
(b) Ilha de Rongelap
• estudo do resıduo de contaminacao decor-rente de testes de armas nucleares durante adecada de 50
• ilha evacuada em 1985. Segura para re-ocupacao
• pesquisa produz medidas com ruıdo Yi deconcentracao de cesio radioativo
• particular interesse em nıveis maximos deconcentracao de cesio
E-W
N-S
-6000 -5000 -4000 -3000 -2000 -1000 0
-500
0-4
000
-300
0-2
000
-100
00
1000
•• ••
••
••••••••••••••••••••••••••••••••••••••••••••••••••••• •
• •• ••
•• • • • • • • • • • • • • • • • •• •
•• ••••••••••
••••••••••••••••••••••••••
•••••••••••••••••••
•••••••••••
•••
•
•
••
(c) Especies de lıquens
• fatores associados a distribuicao espacial dapresenca de lıquens em troncos de avores
• resposta 0/1: presenca ou ausencia
• covariaveis: diametro, umidade, sombrea-mento, cobertura do tronco, viva
4000 5000 6000 7000
9000
1000
011
000
1200
0
XCOORD
YC
OO
RD
(d) Malaria em Gambia
• na vila i, dado Yij = 0/1 denota ausencia oupresenca de malaria no sangue da crianca j
• covariaveis ao nıvel de vilas:
– localizacao (coordenadas), presenca de cen-tro de saude, ındice de vegetacao derivadode satelite
• covariaveis ao nıvel de criancas:
– idade, uso e tratamento de mosquiteiro
• interesses: efeito das covariaveis e padrao es-pacial da variacao residual
300 350 400 450 500 550 600
1350
1400
1450
1500
1550
1600
1650
W−E (kilometres)
N−
S (
kilo
met
res)
Western
Eastern
Central
2. Caracterısticas Principais dos Proble-mas Geoestatısticos
• dados consistem em respostas Yi associadascom localizacoes xi
• em princıpio, Y pode ser determinado em qual-quer localizacao x dentro da regiao espacial-mente contınua A
• assume-se que {Y (x) : x ∈ A} e um processo es-tocastico
• xi e tipicamente fixo. Se as localizacoes xi saogeradas por um processo estocastico pontual,assume-se que este processo e independente deY (x)
• objetivos cientıficos incluem a predicao de umou mais funcionais de processo (sem ruıdo){S(x) : x ∈ A}
Exemplo basico: chuva no Parana
200 300 400 500 600 700 800
010
020
030
040
050
060
0
Coord X
Coo
rd Y
100 200 300 400 500 600 700 80015
020
025
030
035
040
045
00
100
200
300
400
500
Coord X
Coo
rd Yda
ta
200 300 400 500 600 700
200
250
300
350
400
Coord X
data
100 200 300 400
200
250
300
350
400
Coord Y
data
0 100 200 300 400
01000
20003000
40005000
6000
distance
semivarianc
e
0 100 200 300 400
0200
400600
8001000
1200
distance
semivarianc
e
variogramas para dados originais (esquerda) e apos retirada de tendencia,
com modelo ajustado (direita).
200 300 400 500 600 700 800
010
020
030
040
050
060
0
Coord X
Coo
rd Y
160 218 277 336 395
200 300 400 500 600 700 800
010
020
030
040
050
060
0
Coord X
Coo
rd Y
135 310 485 660 834
Krigagem: mapas de valores preditos (esquerda) e variancias de predicao
(direita).
3. Questoes Centrais
• Delineamento
– quantas localizacoes?
– quantas medidas?
– configuracao das localizacoes?
– o que deve-se medir em cada localizacao?
• Modelagem
– modelo probabilıstico para o sinal [S]
– modelo de probabilidade condicional para asmedidas, [Y |S]
• Estimacao
– valores para parametros desconhecidos domodelo
– inferencias sobre os parametros ou funcoesdestes
• Predicao
– avalia-se [T |Y ], a distribuicao condicional aosdados do objetivo de predicao
4. “Geoestatıstica baseada em modelos”
O termo “Geoestatıstica baseada em modelos” sig-
nifica que adotamos um enfoque baseado em mode-
los para esta classe de problemas, o que quer dizer
que comecamos com um modelo estocastico explıcito
e derivamos metodos de estimacao de parametros,
interpolacao e suavizacao atraves da aplicacao de
princıpios gerais de estatıstica.
Notacao(Yi, xi) : i = 1, ..., n
• {xi : i = 1, ..., n} e o plano amostral
• {Y (x) : x ∈ A} e o processo de medida
• {S(x) : x ∈ A} e o processo do sinal
• T = F(S) e o objetivo de predicao
• [S, Y ] = [S][Y |S] e o modelo geoestatıstico
Modelo linear generalizado linear classico
• Yi : i = 1, ..., nmutuamente independentes, com µi = E[Yi]
• h(µi) =∑k
j=1 fijβj, com funcao de ligacao conhe-cida h(·).
Modelo Linear Generalizado Mixto
• Yi : i = 1, ..., nmutuamente independentes, com µi = E[Yi], con-ditional as realizacoes de um conjunto de devariaveis aleatorias latentes Ui,
• h(µi) =∑k
j=1 fijβj + Ui,para uma funcao de ligacao conhecida h(·).
A modelo espacial (geoestatıstico)
• Yi : i = 1, ..., nmutuamente independentes, com µi = E[Yi], con-ditional as realizacoes de um conjunto de devariaveis aleatorias latentes Ui,
• h(µi) = Ui +∑p
j=1 fijβj,para uma funcao de ligacao conhecida h(·),
• Ui = S(xi)onde {S(x) : x ∈ IR2} e um processo estocasticoespacial.
• h(µi) =∑k
j=1 fijβj + Ui,
0.0 0.2 0.4 0.6 0.8 1.0
4.0
4.5
5.0
5.5
6.0
6.5
7.0
locations
data
simulacao ilustrando os componentes do modelo: dados Y (xi) (pontos),
sinal S(x) (linha curva) e media µ (linha horizontal).
5. O Modelo Gaussiano
(a) S(·) e um processo Gaussiano estacionario com
i. E[S(x)] = 0,
ii. Var{S(x)} = σ2
iii. ρ(u) = Corr{S(x), S(x − u)};
(b) a distribuicao condicional de Yi dado S(·) e Gaus-siana com media µ + S(xi) e variancia τ 2;
(c) Yi : i = 1, ..., n sao mutuamente independentes,condicional a S(·).
Uma formulacao equivalente para o modeloGaussiano:
Yi = µ + S(xi) + Zi : i = 1, ..., n.
onde Zi : i = 1, ..., n sao mutuamente independentese identicamente distribuıdos com Zi ∼ N(0, τ 2).
Desta forma a distribuicao conjunta de Y e multi-variada Normal,
Y ∼ MVN(µ1, σ2R + τ 2I)
onde:
1 denota um vetor de 1’s com n elementos
I e matrix identidade n × n
R e uma matrix n×n com (i, j)th elemento ρ(uij) ondeuij = ||xi − xj||, e distancia Euclideana entre xi e xj.
6. Especificacao da funcao de correlacaoA famılia de Matern
Funcao de correlacao dada por
ρ(u) = {2κ−1Γ(κ)}−1(u/φ)κKκ(x/φ)
• κ e φ sao parametros
• Kκ(·) denota funcao de Bessel de ordem κ
• valida para φ > 0 e κ > 0.
• κ = 0.5: modelo exponencial
• κ → ∞: modelo Gaussiano
• S(x) e dκ − 1 vezes diferenciavel
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
distanceco
rrel
atio
n
Tres exemplos de funcoes de Matern com φ = 0.2 and κ = 1 (linha solida), κ = 1.5 (linha interrom-
pida) and κ = 2 (pontos).
0.0 0.2 0.4 0.6 0.8 1.0
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
x
y
simulacoes de processos em 1-D com funcoes de correlacao de de Matern com φ = 0.2 e κ = 0.5
(linha solida), κ = 1 (linha interrompida) and κ = 2 (linha pontilhada).
7. Extensoes do modelo basico
(a) Modelos Gaussianos transformados
• O modelo Gaussiano e claramente inapropri-ado para distribuicoes assimetricas.
• Certos dados podem indicar relacoes entremedia e variancia, que violam o modelo Gaus-siano.
• Parametro extra λ da transformacao Box-Coxintroduz certa flexibilidade.
• O modelo fica entao definido da forma:
– assume-se Y ∗ ∼ MV N(Fβ, σ2V )
– dados y = (y1, ..., yn), sao gerados por umatransformacao do modelo linear GaussianoY = h−1
λ (Y ∗) tal que:
Y ∗i = hλ(Y ) =
{
(yi)λ−1λ if λ 6= 0
log(yi) if λ = 0
(b) Efeitos Direcionais
• Condicoes ambientais podem induzir efeitosdirecionais (vento, formacao do solo, etc)
• como consequencia a correlacao espacial podevariar com a direcao
0.1
0.2
0.3
0.4
0.5
0.6 0.7
0.8
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.0
0.5
1.0 0.1
0.2
0.3
0.4
0.5
0.6
0.7
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.0
0.5
1.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
−1.0 −0.5 0.0 0.5 1.0
−1.0
−0.5
0.0
0.5
1.0
contornos de correlacao para modelo isotropico (esq.) e dois mo-
delos anisotropicos (centro e dir.)
• anisotropia geometrica: possıvel (e simples)abordagem.
• dois parametros extra: angulo de anisotropia
ψA e razao de anisotropia ψR.
• rotacao e contracao/expansao das coordena-das originais:
(x1′, x2′) = (x1, x2)
(
cos(ψA) − sin(ψA)sin(ψA) cos(ψA)
)(
1 00 1
ψR
)
“Correcao” de anisotropia geometrica
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Original Space, ψ1 = 0°, ψ2 = 2
1 2 3 4 5 6
7 8 9 10 11 12
13 14 15 16 17 18
19 20 21 22 23 24
25 26 27 28 29 30
31 32 33 34 35 36
x
0.0 0.2 0.4 0.6 0.8 1.0−
0.2
0.0
0.2
0.4
0.6
Isotropic Space
1 2 3 4 5 6
7 8 9 10 11 12
13 14 15 16 17 18
19 20 21 22 23 24
25 26 27 28 29 30
31 32 33 34 35 36
x
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Original Space, ψ1 = 120°, ψ2 = 2
1 2 3 4 5 6
7 8 9 10 11 12
13 14 15 16 17 18
19 20 21 22 23 24
25 26 27 28 29 30
31 32 33 34 35 36
x
−1.4 −1.2 −1.0 −0.8 −0.6 −0.4 −0.2 0.0
−0.
6−
0.4
−0.
20.
00.
20.
40.
60.
8Isotropic Space
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
x
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Original Space, ψ1 = 45°, ψ2 = 2
1 2 3 4 5 6
7 8 9 10 11 12
13 14 15 16 17 18
19 20 21 22 23 24
25 26 27 28 29 30
31 32 33 34 35 36
x
−0.6 −0.4 −0.2 0.0 0.2 0.4 0.6
−0.
4−
0.2
0.0
0.2
0.4
0.6
0.8
1.0
Isotropic Space
12
34
56
78
910
1112
1314
1516
1718
1920
2122
2324
2526
2728
2930
3132
3334
3536
x
(c) Modelos nao estacionarios
• Modelos com medias nao constantes
(ou, incluindo covariaveis)
Substituir a media constante µ por
µ(x) = Fβ =
k∑
j=1
βjfj(x)
para medidas fj(x) das covariaveis (lineares ounao lineares).
• Variacao aleatoria nao estacionaria
Variabilidade intrınsica: pressuposto maisfraco de estacionaridade (processo comincrementos estacionarios, como passeiosaleatorios em series temporais), largamenteutilizados como modelo padrao para variacaoespacial discreta (Besag, York and Molie,1991).
Metodos de deformacao espacial (Sampsonand Guttorp, 1992) buscam estacionaridadepor transformacoes (complexas) do espaco ge-ografico, x.E preciso ter em mente o balanco entre a o au-mento da flexibilidade de modelos mais geraiscontra a sobre-modelagem de dados esparsos,que leva a pobre identificacao dos parametros.
8. Estudo de caso: chuva na Suıca
0 50 100 150 200 250 300 350
0
50
100
150
200
Coordinate X (km)
Coo
rdin
ate
Y (
km)
Localizacoes com tamanho dos pontos proporcional aos valores observa-
dos. Distancias em kilometros
• 467 localizacoes
• medidas de precipitacao em 8 de Maio 1986
• dados sao valores inteiros com unidade de me-dida igual a 1/10 mm
• 5 localizacoes com valores iguais a zero.
chuva na Suıca (cont.)
Estimacao parametros de transformacao e suavi-dade (modelo de Matern)
κ λ log L0.5 0.514 -2464.246
1 0.508 -2462.4132 0.508 -2464.160
Estimativas de MV de λ e valores da log-verossimilhanca log L para dife-
rentes valores de κ.
•
•
•
•• • •
•
•
•
•0.40 0.50 0.60
-2466
-2465
-2464
-2463
•
•
•
•
••• •
•
•
•
•
•
0.40 0.50 0.60
-2466
-2465
-2464
-2463
•
•
•
••• •
•
•
•
0.40 0.50 0.60
-2466
-2465
-2464
-2463
Verossimilhancas prefilhadas para λ. esquerda: κ = 0.5, meio: κ = 1,
direita: κ = 2.
transformacao logarıtimica ou nao transformacaosao claramente NAO indicadas!
chuva na Suıca (cont.)
•
•
•
•
•
• •• • • •
••
••
Distance
Sem
i-var
ianc
e
0 50 100 150 200
0
20
40
60
80
100
120
semivariograma empırico para dados transformados e variogramas
teoricos com estimativas de MV para κ = 0.5 (linha interrompida), κ = 1
(linha grossa), κ = 2 (linha fina).
chuva na Suıca (cont.)
Estimativas para modelo com λ = 0.5
κ β σ2 φ τ 2 log L0.5 18.36 118.82 87.97 2.48 -2464.315
1 20.13 105.06 35.79 6.92 -2462.4382 21.36 88.58 17.73 8.72 -2464.185
Maximum likelihood estimates β, φ, σ, τ and the corresponding value of
the likelihood function log L for different values of the Matern parameter
κ, for λ = 0.5
•
•
••• •
•
•
•
•
•
•
•
•
•
•
•
••
••50 100 150 200 250 300
-2464.0
-2463.5
-2463.0
-2462.5
•
•
•
••• •
••
•
•
•
•
•
•
•
•
•
•
20 30 40 50 60 70
-2464.0
-2463.5
-2463.0
-2462.5
•
•
•
•
•
•
••••
••
•
•
•
•
•
•
5 6 7 8 9
-2464.0
-2463.5
-2463.0
-2462.5
Verossimilhanca perfilhada para parametros de covariancia κ = 1 and
λ = 0.5. esquerda: σ2, meio: φ, direita: τ 2.
chuva na Suıca (cont.)
0 100 200 300
-100
0
100
200
0 100 200 300 400 500
0 100 200 300
-100
0
100
200
0 5000 10000 15000
Mapas com predicoes (esquerda) e variancias de predicao (direita).
Predicao da percentagem da area ondeY (x) ≥ 200: A200 e de 0.4157
0.410 0.415 0.420
0
100
200
300
400
500
600
Amostras da preditiva de A200.