interpolação de variáveis categóricas
TRANSCRIPT
Interpolação de Variáveis Categóricas
Jorge Kazuo Yamamoto Prof. Titular aposentado USP,
atualmente Prof. Sênior
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
Roteiro da Apresentação
• Objetivos da geoestatística
• Natureza das variáveis aleatórias e regionalizadas
• Variáveis categóricas conforme escalas de medida
• Interpolação de variáveis categóricas
• O fenômeno de transição
• Interpolação multiquádrica
• Inferência estatística e incerteza
• Exemplos de interpolação multiquádrica
• Simulação indicadora sequencial para variáveis categóricas
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
GEOESTATÍSTICA
A geoestatística tem por objetivo a descrição quantitativa de variáveis naturais distribuídas no espaço ou no tempo e espaço. Exemplos de tais variáveis são: • Teores de minério em um depósito mineral; • Profundidade e espessura de uma camada geológica; • Porosidade e permeabilidade de um meio poroso; • Densidade de árvores de uma certa espécie em uma floresta; • Propriedades do solo em uma região; • Precipitação em uma área de captação; • Pressão, temperatura e velocidade do vento na atmosfera; • Concentração de poluentes em um sítio contaminado.
Fonte: Chilès e Delfiner (2012, p. 1).
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
NATUREZA DAS VARIÁVEIS ALEATÓRIAS E REGIONALIZADAS
ESCALA NOMINAL ESCALA ORDINAL
ESCALA RELACIONAL ESC.INTERVALAR
LITOLOGIA
ESTRUTURA
TEORES
ESPESSURAS
RECUPERAÇÃO
COR DA ROCHA
TEXTURA
DENSIDADE
PERF. GEOF.
RQD
ALTERAÇÃO
FRATURAMENTO
TEMPERATURA
VA
RIÁ
VE
IS A
LE
AT
ÓR
IAS
CO
NT
ÍNU
AS
DIS
CR
ET
AS
Variáveis categóricas
Escalas de medida, segundo Stevens (1946).
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
VARIÁVEIS CATEGÓRICAS
Exemplos de aplicação da interpolação de variáveis categóricas: • Discriminação entre área contaminada e não; • Separação entre minério e rejeito conforme o teor de corte; • Mapeamento de tipos de solos em uma região, a partir de uma amostra; • Caracterização geotécnica de um talude conforme o grau de faturamento (escala
ordinal);
As variáveis categóricas ocorrem em praticamente todas as áreas das ciências: agronomia, recursos florestais, biologia, ciências sociais, meio ambiente, geologia, petróleo, geotecnia etc.
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
INTERPOLAÇÃO DE VARIÁVEIS CATEGÓRICAS
As variáveis categóricas não podem ser manipuladas diretamente, mas somente por meio de suas funções indicadoras. Na verdade, as funções indicadoras foram introduzidas por Matheron (1971, p. 9) para caracterizar um fenômeno de transição como sendo aquele que pode ou não apresentar uma característica, por exemplo, uma formação geológica S, que pode ser amostrada ou não por uma sondagem.
A geoestatística tem sido aplicada convencionalmente para variáveis contínuas, como se pode verificar na definição de Chilès e Delfiner (2012, p. 1). Contudo, mais recentemente tem surgido trabalhos abordando a questão da interpolação de variáveis categóricas.
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
FENÔMENO DE TRANSIÇÃO
Conforme a função indicadora, dentro do minério é 1 e fora é 0.
S
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
FENÔMENO DE TRANSIÇÃO
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
SITUAÇÃO GEOLÓGICA COM QUATRO CAMADAS
COMO SE FAZ A CODIFICAÇÃO INDICADORA PARA MÚLTIPLOS TIPOS?
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
INTERPOLAÇÃO DE VARIÁVEIS CATEGÓRICAS
CADA TIPO RECEBE 1 E OS DEMAIS ZERO. SÃO EVENTOS MUTUAMENTE EXCLUSIVOS.
ktipoxZse
ktipoxZsekxI
,1
,0,
A codificação indicadora resulta em probabilidades, portanto o valor calculado é também uma probabilidade.
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
INTERPOLAÇÃO DE VARIÁVEIS CATEGÓRICAS
LOCALIZAÇÃO DE TRÊS SONDAGENS PARA AMOSTRAGEM
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
INTERPOLAÇÃO DE VARIÁVEIS CATEGÓRICAS
VARIÁVEL CATEGÓRICA COMPOSTA POR K=4 TIPOS
K=4 VETORES BINÁRIOS
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
INTERPOLAÇÃO DE VARIÁVEIS CATEGÓRICAS
Nossa amostra é composta por três sondagens {S1, S2, S3}
Sondagem a ser interpolada a partir da amostra.
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
INTERPOLAÇÃO MULTIQUÁDRICA
A krigagem indicadora seria o método geoestatístico para estimativas de variáveis categóricas, mas essa aplicação exige K variogramas (Leuangthong et al., 2008), ou seja, um variograma para cada tipo que compõe a variável categórica. Mas, isso é impossível na prática, pois alguns tipos podem apresentar poucos pares de pontos e assim sujeitos à grande flutuação estatística (Yamamoto et al., 2012, p. 147). A opção pelas equações multiquádricas é, então, o melhor entre os métodos de interpolação disponíveis.
N
i
oioiio CyyxxCxZ1
21
222*
Forma geral em 2D
são os coeficientes da equação multiquádrica e C2 é uma constante. NiCi ,1,
NiparaCyyxxCxZN
j
jijiii ,11
21
222
NNNNNN
N
N
xZ
xZ
xZ
C
C
C
qqq
qqq
qqq
2
1
2
1
21
22221
11211
.
Os coeficientes são obtidos da solução de um sistema de equações lineares:
Onde 21
222Cyyxxq jijiij
é o núcleo multiquádrico entre i e j.
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
INTERPOLAÇÃO MULTIQUÁDRICA Na forma dual, a equação multiquádrica pode ser escrita como uma fórmula de média ponderada:
Onde os pesos estão sujeitos à restrição:
Os pesos são obtidos a partir da solução de um sistema de equações:
n
i
iio xZWxZ1
*
10111
1
1
1
1
2
1
2
1
21
22212
12111
no
o
o
nnnnn
n
n
xx
xx
xx
W
W
W
xxxxxx
xxxxxx
xxxxxx
11
n
i
iW
Linear
Cúbica
Multiquádrica generalizada
Splines
Gaussiana
FUNÇÕES DE BASE RADIAL MAIS COMUNS
xx
3xx
,0,12
122
kparaxcx
k
xxx log2
2exp xcx
Melhores resultados: multiquádrica e splines.
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
INTERPOLAÇÃO MULTIQUÁDRICA
A interpolação multiquádrica é feita para cada vetor, independentemente:
Os pesos da equação multiquádrica são obtidos pela resolução do sistema:
onde é a função de base radial e é a norma de um vetor em Rn.
A incerteza pode ser determinada por meio da variância de interpolação:
O tipo mais provável em um ponto não amostrado é o tipo com maior probabilidade:
n
i
iio kxIwkxI1
;;*
1
,1
1
1
n
j
j
n
j
ioijj
w
niparaxxxxw
n
i
oiioo kxIkxIwkxS1
22 ;*;;
KkkxIkxI oo ,,1,;*max;* max
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
INFERÊNCIA ESTATÍSTICA E INCERTEZA
No processo de inferência estatística, as estatísticas amostrais são usadas para inferir os parâmetros populacionais.
Qualquer resultado baseado em uma amostra estará sujeito à incerteza.
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
DIFERENÇA ENTRE ERRO E INCERTEZA
Erro é calculado como a diferença entre o valor estimado e o valor real. Portanto, isso significa que devemos conhecer o valor real e, nesse caso, não precisamos de fazer estimativa alguma. Em geoestatística, a validação cruzada permite determinar o erro, pois o valor conhecido em um ponto amostral é removido da base de dados e este ponto é estimado, resultando no erro.
Incerteza é medida pela variância que dá uma noção da dispersão dos dados em torno do valor médio esperado. A incerteza depende do modelo de distribuição de probabilidades, dada pela função de distribuição acumulada condicional. Observar que a média e a variância representam os momentos de 1ª e 2ª ordens desta curva.
Falta de precisão a respeito da incerteza subjacente;
Falta de exatidão dos valores possíveis nas distribuições incertas de probabilidade;
Viés desconhecido na definição do intervalo de possíveis valores;
Variabilidade* natural de processos não controlados;
Distribuições indefinidas de probabilidade para os processos do projeto e tecnologia;
Desconhecimento do intervalo das distribuições de probabilidade;
Ausência de informação a respeito das distribuições de probabilidade.
* Variabilidade é uma propriedade inerente de sistemas naturais.
Fonte: http://pt.slideshare.net/galleman/managing-in-the-presence-of-uncertainty
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
INTERPOLAÇÃO MULTIQUÁDRICA
0.00
1.60
3.20
4.80
6.40
8.00
0.00 3.40 6.80 10.20 13.60 17.00
MOD. MAIS PROVÁVEL
I
II
III
IV
0.00
1.60
3.20
4.80
6.40
8.00
0.00 3.40 6.80 10.20 13.60 17.00
MOD. MAIS PROVÁVEL COM ZI
I
II
III
IV
ZI
Apesar da incerteza, a interpolação produziu bons resultados.
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
INTERPOLAÇÃO MULTIQUÁDRICA
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
ONDE ESTÁ A ZONA DE INCERTEZA?
Com o aumento do número de dados, diminui a zona de incerteza.
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
EXEMPLO DE INTERPOLAÇÃO MULTIQUÁDRICA
-40
-20
0
0 50 100 150 200 250DISTANCIA
ELE
VA
CA
O
MOD. MAIS PROVÁVEL
I
II
III
-40
-20
0
0 50 100 150 200 250DISTANCIA
ELE
VA
CA
O
MOD. MAIS PROVÁVEL COM ZI
I
II
III
ZI
Significado da zona de incerteza
Tenho certeza que o tipo não ocorre!
Não tenho certeza! O tipo pode estar no contato.
Tenho certeza que o tipo ocorre!
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
EXEMPLO DE INTERPOLAÇÃO MULTIQUÁDRICA
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
SIS – VARIÁVEIS CATEGÓRICAS
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
REFERÊNCIAS BIBLIOGRÁFICAS
Chilès, J.P. ; Delfiner, P. 2012, Geostatistics: modeling spatial uncertainty. Hoboken, John Wiley & Sons. 2nd edition. 699p. Devore, J.L. 2000. Probability and statistics. Pacific Grove, Duxbury. 775p. Leuangthong, O.; Khan, K.D; Deutsch, C.V. 2008. Solved problems in geostatistics. Hoboke, John Wiley & Sons. 207p. Matheron, G. 1971. The theory of regionalized variables and its applications. Paris, ENSMP. 211p. Stevens, S.S. 1946. On the theory of scales of measurement. Science, v. 103, ´. 677-680. Yamamoto, J.K.; Mao, X.M.; Koike, K.; Crosta, A.P.; Landim, P.M.B.; Hu, H.Z.; Wang, C.Y.; Yao, L.Q. 2012. Mapping an uncertainty zone between interpolated types of a categorical variable. Computers & Geosciences, v. 40, p. 146-152.
Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018
OBRIGADO!
• (11) 2276-5711
• (11) 94887-0770 https://www.linkedin.com/company/geokrigagem/
http://www.geokrigagem.com.br