modelowanie i analiza danych przestrzennychhome.agh.edu.pl/~lesniak/wyklady/wyklad_3.pdf ·...
TRANSCRIPT
Modelowanie i Analiza Danych Przestrzennych
Andrzej LeśniakKatedra Geoinformatyki i Informatyki StosowanejAkademia Górniczo-Hutnicza w Krakowie
Wykład 3
Relacje pomiędzy punktami
Do tej pory analizowaliśmy obrazy punktowe pod kątem ich zgodności z rozkładem
Poissona. Alternatywnym podejściem jest badanie zależności pomiędzy punktami
rozkładu punktowego.
Rozróżnia się w tym wypadku trzy mozliwości:
• rozkłady niezależne (proces Poissona)
• rozkłady regularne (punkty „unikają” się wzajemnie
• rozkłady pogrupowane (punkty mają tendencję do tworzenia klastrów)
Prostymi testami określającymi typ rozmieszczenia punktów są :
� Wykres Morishity - obraz jest dzielony na L kwadratów o tym samym rozmiarze i
liczony jest indeks:
gdzie: n(i) – ilość punktów w i-tym kwadracie, N – suma wszystkich punktów.
Jest to statystyka χ2 z ilości punktów w kwadratach. Czynność powtarzamy dla
zmieniającego się(rosnącego) boku kwadratu (malejącej ilości kwadratów).
Sporządzany jest wykres MI w zależności od długości boku kwadratu.
� Wykres Fry – (definicja manualna ;-)
Na kalce zaznaczamy jej środek (na czerwono) i przesuwany kalkę tak, by punkt
czerwony pokrył się z wybranym punktem na rysunku. Nanosimy pozostałe
punkty na kalkę. Przesuwamy kalkę do kolejnego punktu. Nanosimy punkty itd.
dla wszystkich punktów. Ilość punktów na kalce FI = N(N-1).
( ) ( )( )( )∑
= −⋅
−⋅=
L
i NN
ininLMI
1 1
1*
Dla regularnego rozkładu punktów
wykres Morischita asymptotycznie
dąży do jedynki od dołu zaś wykres
Fry ma w centrum obszar bez
punktów.
Dla rozkładu punktów z tendencją do
klasteryzacji wykres Morischita
asymptotycznie dąży do jedynki od
góry zaś wykres Fry ma w centrum
obszar ze zwiększoną ilością punktów
(zagęszczenie w centrum).
Dla niezależnego (poissonowskiego)
rozkładu punktów wykres Morischita
oscyluje wokół jedynki zaś wykres Fry
jest stosunkowo jednorodny
(oczywiście in bardziej proces jest
procesem Poissona tym lepiej będą te
wykresy wyglądać).
Oba wykresy (Morishita i Frey) mają charakter jakościowy i są użyteczne do
szybkiej klasyfikacji typu obrazu, lecz w dużej mierze zależą od subiektywnej
oceny interpretatora.
Stąd w metodach posługujących się odległościami definiujemy parametry
ilosciowe , np.:
• odległości wzajemne
• odległość do najbliższego sąsiada
• miara pustej przestrzeni -
Poszczególne miary zwracają w kolejności: tablicę 2D, wektor 1D i mapę.
Przykład:
jiij xxs −=
ijji
i st≠
= min
( ) ii
xuud −= min
Najczęściej do analizy ilościowej używamy dystrybuanty empirycznej określonej
wielkości. Przedyskutujemy problem związany z miarą pustej przestrzeni (ang.
empty space distances) .
Definicja:
Efekty brzegowe:
( ) ii
xuud −= min
Ograniczając obserwacje do skończonego okna W powoduje, że w niektórych
przypadkach obserwowane odległości do najbliższego sąsiada (definiujące pustą
przestrzeń) mogą być większe niż prawdziwe odległości zmierzone bez okna W
wycinającego fragment przestrzeni.
Załóżmy na moment, że można pominąć efekty brzegowe. Zakładając stacjonarność
procesu punktowego X (statystyczną niezależność względem translacji, tj.
niezależność od współrzędnej u) definiujemy dystrybuantę miary pustej przestrzeni:
( ) ( ){ }rudrF ≤= X,Pr
Dla zmiennej dyskretnej (opartej na siatce punktów uj , i=1..,N) obliczana jest
dystrybuanta empiryczna:
( ) ( ){ }∑ ≤=j
j rxudN
rF ,1ˆ 1
gdzie: jest indykatorem zbioru {…}. W tym wypadku konieczna jest korekta
efektu brzegowego. Typowym sposobem jest wagowanie powyższej sumy:
( )K1
( ) ( ) ( ){ }∑ ≤⋅=j
jj rxudruerF ,,ˆ 1
gdzie wagi zaprojektowano w ten sposób by estymator dystrybuanty był
nieobciążony (z reguły metodą Horvitza - Thompsona).
Indykator 1B zbioru B to funkcja
równa:
( )
∉
∈=
Bx
BxxB
0
11
Interpretacją tej estymaty i jej ilustracją niech będzie proces Poissona.
Dla danego punktu u fakt, że odległość jest równoważny
stwierdzeniu, że wewnątrz dysku o środku w u i promieniu r nie ma
punktów. Dla jednorodnego procesu Poissona o intensywności λ wartość
oczekiwana liczby punktów wewnątrz dysku b wynosi:
( ) rud >X,
( )rub ,
( )( ) 2, rrubpole λπλµ =⋅=
Prawdopodobieństwo, że wewnątrz dysku b nie ma żadnego punktu wynosi:
2r
eeλπµ −− =
gdyż dla k = 0 ( ) λλλ
λ −−
=== ee
kf!0
,00
Stąd dystrybuanta procesu Poissona ( ) ( ){ } ( ){ }rudrudrF >−=≤= XX ,Pr1,Pr
( ) ( )2exp1 rrF λπ−−=
Jeśli porównamy dystrybuantę empiryczną z dystrybuantą teoretyczną
i pierwsza będzie większa od drugiej to oznacza, że puste przestrzenia są w
zbiorze większe niż dla teoret. r. Poissona czyli rozkład jest regularny. W
przeciwnym wypadku rozkład ma tendencje do klasteryzacji
( )rF( )rF
.....................................................................
Description
r distance argument r
pois theoretical Poisson F(r)
cs Chiu-Stoyan estimate of F(r)
rs border corrected estimate of F(r)
km Kaplan-Meier estimate of F(r)
hazard Kaplan-Meier estimate of hazard
function h(r)
theohaz theoretical Poisson hazard h(r)
.....................................................................
Można rysować wykres jednej dystrybuanty np.
Kaplana-Meiera względem innej (z reguły wybieramy
teoretyczną)
- zbiór regularny
Dystrybuanta empiryczna leży
powyżej dystrybuanty teoretycznej
- zbiór z tendencją do klasteryzacji
Poniżej wykres dystrybuanty K-M na tle dystrybuanty
teoretycznej – obie w funkcji odległości oraz podobnie
jak poprzednio wykres dystrybuanty Kaplana-Meiera
względem dystrybuanty teoretycznej.
Łatwo zauważyć że dystrybuanta
empiryczna leży poniżej teoretycznej
- zbiór losowy, jednorodny
W tym wypadku dystrybuanta empiryczna
praktycznie pokrywa się z dystrybuantą
teoretyczną (czego należało oczekiwać)
Podobne problemy (zależność wyniku estymacji dystrybuanty empirycznej od okna
obserwacji, konieczność stosowania funkcji korekcyjnych likwidujących obciążenie
estymatora itd.) występują w wypadku funkcji „odległość do najbliższego sąsiada”:
jiji
i xxt −=≠
min
( ) { }( ){ }XX ∈≤= uruudrG ,\,Pr
Zakładając, że proces punktowy X jest stacjonarny, definiujemy dystrybuantę
odległości do najbliższego sąsiada jako:
gdzie u jest dowolnym punktem w przestrzeni X zaś jest najkrótszą
odległością z u do jakiegoś punktu w przestrzeni X z wyłączeniem samego u. Jeśli
proces jest stacjonarny ta definicja nie zależy od wyboru konkretnego punktu u.
{ }( )uud \, X
( )( )
{ }∑ ≤=i
i rtn
rG 1x
1ˆ
( ) ( ) { }∑ ≤⋅=i
ii rtrxerG 1,ˆ
Dystrybuanty : empiryczna i poprawiona empiryczna mają postać:
Dla jednorodnego procesu Poissona o intensywności λ dystrybuanta
rozkłady odległości do najbliższego sąsiada nie różni się od dystrybuanty
funkcji pustych przestrzeni i ma postać :( )rF
( ) ( )2exp1 rrGpoiss λπ−−=
Interpretacja jest w pewnym sensie odwrotnością interpretacji funkcji
Jeśli porównamy dystrybuantę empiryczną z dystrybuantą teoretyczną
i pierwsza będzie mniejsza od drugiej to oznacza, że odległości do najbliższego
sąsiada są w zbiorze mniejsze niż dla teoret. r. Poissona czyli rozkład jest
regularny. W przeciwnym wypadku rozkład ma tendencje do
klasteryzacji
( )rF( )rG
Dzieje się tak ponieważ punkty u w rozkładzie Poissona są wzajemnie
niezależne i nie wpływają na siebie wzajemnie, zaś przestrzeń X składa się z
punktów u, które w pewnej części są punktami xi ({xi} C {u} ), które stanowią
podzbiór X).
( )rG ( )rGpoiss
( ) ( )rGrG poiss>ˆ
Function value object (class ‘fv’) for the function r -> G(r) ..................................................................... Math.label Description r r distance argument r theo G[pois](r) theoretical Poisson G(r) han hat(G)[han](r) Hanisch estimate of G(r) rs hat(G)[bord](r) border corrected estimate of G(r) km hat(G)[km](r) Kaplan-Meier estimate of G(r) hazard hat(h)[km](r) Kaplan-Meier estimate of hazard function h(r) theohaz h[pois](r) theoretical Poisson hazard function h(r) ..................................................................... Default plot formula: .~r where “.” stands for ‘km’, ‘rs’, ‘han’, ‘theo’
Recommended range of argument r: [0, 0.15] Available range of argument r: [0, 0.29539]
- zbiór regularny
Dystrybuanta empiryczna leży poniżej dystrybuanty
teoretycznej czyli odwrotnie niż w przypadku
dystrybuanty dla miary pustej przestrzeni.
- zbiór z tendencją do klasteryzacji
Dystrybuanta empiryczna leży
powyżej dystrybuanty teoretycznej
czyli odwrotnie niż w przypadku
dystrybuanty dla miary pustej
przestrzeni.
- zbiór losowy, jednorodny
W tym wypadku dystrybuanta empiryczna
odległości do najbliższego sąsiada oscyluje
wokół dystrybuanty teoretycznej.
Jako ostatnia zostanie przeanalizowana miara „odległość wzajemnej” między
punktami w przestrzeni X:
( ) ( ) { }( ){ }XX ∈∩= uurubnrK |\,Pr1
λ
Do opisu odległości wzajemnej używamy tzw K-funkcji. Zakładając, że proces
punktowy X jest stacjonarny, definiujemy ją tak by iloczyn λK(r) był równy wartości
oczekiwanej ilości punktów w odległości mniejszej niż r od danego punktu u:
Dla jednorodnego procesu Poissona wartość oczekiwana liczby punktów
znajdujących się od u w odległości mniejszej niż r (tj należących do b(u,r) ) jest
równa proporcjonalna do pola powierzchni koła o promieniu r tj, 2rλπ
( ) 2rrK poiss π=
( )( )
{ } ( )∑∑≠
≤−=i ij
jiji rxxerxxWarea
rK ,,1ˆ
12λ
i jest niezależna od intensywności procesu.
Istnieje wiele różnych propozycji estymatora funkcji K. Wiele z nich ma postać
znormalizowanego i znormalizowanego rozkładu funkcji odległości wzajemnych:
jiij xxs −=
gdzie jest wagą korygującą efekty brzegowe. Jeśli jest stosowana to
różne estymatory dają dość podobne wyniki. ( )rxxe ji ,,
Jeśli porównamy funkcję z teoretyczną dla procesu Poissona
i pierwsza będzie większa od drugiej to oznacza rozkład ma tendencje do
klasteryzacji. W przeciwnym wypadku proces punktowy ma
charakter regularny.
( )rK
( ) ( ) 2rrKrK poiss π=<
( )rK
Function value object (class ‘fv’)
for the function r -> K(r)
..............................................................
Math. label Description
r r distance argument r
theo K[pois](r) theoretical Poisson K(r)
border hat(K)[bord](r) border-corrected estimate of K(r)
trans hat(K)[trans](r) translation-corrected estimate of K(r)
iso hat(K)[iso](r) isotropic-corrected estimate of K(r)
..............................................................
Default plot formula: .~r
where “.” stands for ‘iso’, ‘trans’, ‘border’, ‘theo’
Recommended range of argument r: [0, 0.25]
Available range of argument r: [0, 0.25]
Wybieramy do analizy izotropową wersję
estymatora („iso”). Po prawej u góry
porównanie K funkcji dla zbioru
regularnego z K-funkcją teoretyczną, po
prawej na dole dla zbioru z tendencją do
klasteryzacji a poniżej wygenerowany,
empiryczny rozkład jednorodny i losowy i
rozkład teoretyczny.
Czasami zamiast funkcji K używamy jej
lekko zmodyfikowanej wersji, tj funkcji L:
( ) ( )π
rKrL =
Daje ona dla rozkładu Poissona linię
prostą.
Dość prostą interpretację ma kolejna
funkcja jakiej używamy, tj łączna korelacja
rozkładu punktów:
( ) ( )r
rKrg
π2
′=
Interpretujemy ją jako prawdopodobieństwo
zaobserwowania pary punktów oddalonych
od siebie o r podzielone przez to
prawdopodobieństwo dla rozkładu Poissona.
Wartości g(r) > 1 sugerują dane zgrupowane,
g(r) < 1 dane regularne.
Estymator dla b. małych r nie jest interpretowany.
Pewne ograniczenia:
Funkcje F, G, K i funkcje od nich pochodne wykorzystuje się w różnych
zastosowaniach. Niekiedy używa się ich dość bezkrytycznie i bez wzajemnego
odniesienia. Ważne jest by pamiętać, że :
1. Funkcje F, G i K są zdefiniowane i obliczane przy założeniu, że obserwowany
proces jest jednorodny (homogeniczny)
2. Powyższe funkcje nie charakteryzują w sposób jednoznaczny danego
procesu
3. Jeśli proces X nie jest stacjonarny różnice pomiędzy wartością empiryczną i
teoretyczną niekoniecznie charakteryzują typ rozkładu (tendencja do
klasteryzacji, regularność) - mogą być wynikiem zmiennej intensywności.
Kontrprzykłady:
- Dla punktu 2 – proces Badelleya-Silvermana o funkcji K identycznej z pr. Poissona
- Dla punktu 3
- Niejednorodny rozkład Poissona a wynik taki jak dla rozkładu z tendencją
do klasteryzacji