modelowanie i analiza danych przestrzennychhome.agh.edu.pl/~lesniak/wyklady/wyklad_3.pdf ·...

Modelowanie i Analiza Danych Przestrzennych

Andrzej LeśniakKatedra Geoinformatyki i Informatyki StosowanejAkademia Górniczo-Hutnicza w Krakowie

Wykład 3

Relacje pomiędzy punktami

Do tej pory analizowaliśmy obrazy punktowe pod kątem ich zgodności z rozkładem

Poissona. Alternatywnym podejściem jest badanie zależności pomiędzy punktami

rozkładu punktowego.

Rozróżnia się w tym wypadku trzy mozliwości:

• rozkłady niezależne (proces Poissona)

• rozkłady regularne (punkty „unikają” się wzajemnie

• rozkłady pogrupowane (punkty mają tendencję do tworzenia klastrów)

Prostymi testami określającymi typ rozmieszczenia punktów są :

� Wykres Morishity - obraz jest dzielony na L kwadratów o tym samym rozmiarze i

liczony jest indeks:

gdzie: n(i) – ilość punktów w i-tym kwadracie, N – suma wszystkich punktów.

Jest to statystyka χ2 z ilości punktów w kwadratach. Czynność powtarzamy dla

zmieniającego się(rosnącego) boku kwadratu (malejącej ilości kwadratów).

Sporządzany jest wykres MI w zależności od długości boku kwadratu.

� Wykres Fry – (definicja manualna ;-)

Na kalce zaznaczamy jej środek (na czerwono) i przesuwany kalkę tak, by punkt

czerwony pokrył się z wybranym punktem na rysunku. Nanosimy pozostałe

punkty na kalkę. Przesuwamy kalkę do kolejnego punktu. Nanosimy punkty itd.

dla wszystkich punktów. Ilość punktów na kalce FI = N(N-1).

( ) ( )( )( )∑

= −⋅

−⋅=

L

i NN

ininLMI

1 1

1*

Dla regularnego rozkładu punktów

wykres Morischita asymptotycznie

dąży do jedynki od dołu zaś wykres

Fry ma w centrum obszar bez

punktów.

Dla rozkładu punktów z tendencją do

klasteryzacji wykres Morischita

asymptotycznie dąży do jedynki od

góry zaś wykres Fry ma w centrum

obszar ze zwiększoną ilością punktów

(zagęszczenie w centrum).

Dla niezależnego (poissonowskiego)

rozkładu punktów wykres Morischita

oscyluje wokół jedynki zaś wykres Fry

jest stosunkowo jednorodny

(oczywiście in bardziej proces jest

procesem Poissona tym lepiej będą te

wykresy wyglądać).

Oba wykresy (Morishita i Frey) mają charakter jakościowy i są użyteczne do

szybkiej klasyfikacji typu obrazu, lecz w dużej mierze zależą od subiektywnej

oceny interpretatora.

Stąd w metodach posługujących się odległościami definiujemy parametry

ilosciowe , np.:

• odległości wzajemne

• odległość do najbliższego sąsiada

• miara pustej przestrzeni -

Poszczególne miary zwracają w kolejności: tablicę 2D, wektor 1D i mapę.

Przykład:

jiij xxs −=

ijji

i st≠

= min

( ) ii

xuud −= min

Najczęściej do analizy ilościowej używamy dystrybuanty empirycznej określonej

wielkości. Przedyskutujemy problem związany z miarą pustej przestrzeni (ang.

empty space distances) .

Definicja:

Efekty brzegowe:

( ) ii

xuud −= min

Ograniczając obserwacje do skończonego okna W powoduje, że w niektórych

przypadkach obserwowane odległości do najbliższego sąsiada (definiujące pustą

przestrzeń) mogą być większe niż prawdziwe odległości zmierzone bez okna W

wycinającego fragment przestrzeni.

Załóżmy na moment, że można pominąć efekty brzegowe. Zakładając stacjonarność

procesu punktowego X (statystyczną niezależność względem translacji, tj.

niezależność od współrzędnej u) definiujemy dystrybuantę miary pustej przestrzeni:

( ) ( ){ }rudrF ≤= X,Pr

Dla zmiennej dyskretnej (opartej na siatce punktów uj , i=1..,N) obliczana jest

dystrybuanta empiryczna:

( ) ( ){ }∑ ≤=j

j rxudN

rF ,1ˆ 1

gdzie: jest indykatorem zbioru {…}. W tym wypadku konieczna jest korekta

efektu brzegowego. Typowym sposobem jest wagowanie powyższej sumy:

( )K1

( ) ( ) ( ){ }∑ ≤⋅=j

jj rxudruerF ,,ˆ 1

gdzie wagi zaprojektowano w ten sposób by estymator dystrybuanty był

nieobciążony (z reguły metodą Horvitza - Thompsona).

Indykator 1B zbioru B to funkcja

równa:

( )

∉

∈=

Bx

BxxB

0

11

Interpretacją tej estymaty i jej ilustracją niech będzie proces Poissona.

Dla danego punktu u fakt, że odległość jest równoważny

stwierdzeniu, że wewnątrz dysku o środku w u i promieniu r nie ma

punktów. Dla jednorodnego procesu Poissona o intensywności λ wartość

oczekiwana liczby punktów wewnątrz dysku b wynosi:

( ) rud >X,

( )rub ,

( )( ) 2, rrubpole λπλµ =⋅=

Prawdopodobieństwo, że wewnątrz dysku b nie ma żadnego punktu wynosi:

2r

eeλπµ −− =

gdyż dla k = 0 ( ) λλλ

λ −−

=== ee

kf!0

,00

Stąd dystrybuanta procesu Poissona ( ) ( ){ } ( ){ }rudrudrF >−=≤= XX ,Pr1,Pr

( ) ( )2exp1 rrF λπ−−=

Jeśli porównamy dystrybuantę empiryczną z dystrybuantą teoretyczną

i pierwsza będzie większa od drugiej to oznacza, że puste przestrzenia są w

zbiorze większe niż dla teoret. r. Poissona czyli rozkład jest regularny. W

przeciwnym wypadku rozkład ma tendencje do klasteryzacji

( )rF( )rF

.....................................................................

Description

r distance argument r

pois theoretical Poisson F(r)

cs Chiu-Stoyan estimate of F(r)

rs border corrected estimate of F(r)

km Kaplan-Meier estimate of F(r)

hazard Kaplan-Meier estimate of hazard

function h(r)

theohaz theoretical Poisson hazard h(r)

.....................................................................

Można rysować wykres jednej dystrybuanty np.

Kaplana-Meiera względem innej (z reguły wybieramy

teoretyczną)

- zbiór regularny

Dystrybuanta empiryczna leży

powyżej dystrybuanty teoretycznej

- zbiór z tendencją do klasteryzacji

Poniżej wykres dystrybuanty K-M na tle dystrybuanty

teoretycznej – obie w funkcji odległości oraz podobnie

jak poprzednio wykres dystrybuanty Kaplana-Meiera

względem dystrybuanty teoretycznej.

Łatwo zauważyć że dystrybuanta

empiryczna leży poniżej teoretycznej

- zbiór losowy, jednorodny

W tym wypadku dystrybuanta empiryczna

praktycznie pokrywa się z dystrybuantą

teoretyczną (czego należało oczekiwać)

Podobne problemy (zależność wyniku estymacji dystrybuanty empirycznej od okna

obserwacji, konieczność stosowania funkcji korekcyjnych likwidujących obciążenie

estymatora itd.) występują w wypadku funkcji „odległość do najbliższego sąsiada”:

jiji

i xxt −=≠

min

( ) { }( ){ }XX ∈≤= uruudrG ,\,Pr

Zakładając, że proces punktowy X jest stacjonarny, definiujemy dystrybuantę

odległości do najbliższego sąsiada jako:

gdzie u jest dowolnym punktem w przestrzeni X zaś jest najkrótszą

odległością z u do jakiegoś punktu w przestrzeni X z wyłączeniem samego u. Jeśli

proces jest stacjonarny ta definicja nie zależy od wyboru konkretnego punktu u.

{ }( )uud \, X

( )( )

{ }∑ ≤=i

i rtn

rG 1x

1ˆ

( ) ( ) { }∑ ≤⋅=i

ii rtrxerG 1,ˆ

Dystrybuanty : empiryczna i poprawiona empiryczna mają postać:

Dla jednorodnego procesu Poissona o intensywności λ dystrybuanta

rozkłady odległości do najbliższego sąsiada nie różni się od dystrybuanty

funkcji pustych przestrzeni i ma postać :( )rF

( ) ( )2exp1 rrGpoiss λπ−−=

Interpretacja jest w pewnym sensie odwrotnością interpretacji funkcji

Jeśli porównamy dystrybuantę empiryczną z dystrybuantą teoretyczną

i pierwsza będzie mniejsza od drugiej to oznacza, że odległości do najbliższego

sąsiada są w zbiorze mniejsze niż dla teoret. r. Poissona czyli rozkład jest

regularny. W przeciwnym wypadku rozkład ma tendencje do

klasteryzacji

( )rF( )rG

Dzieje się tak ponieważ punkty u w rozkładzie Poissona są wzajemnie

niezależne i nie wpływają na siebie wzajemnie, zaś przestrzeń X składa się z

punktów u, które w pewnej części są punktami xi ({xi} C {u} ), które stanowią

podzbiór X).

( )rG ( )rGpoiss

( ) ( )rGrG poiss>ˆ

Function value object (class ‘fv’) for the function r -> G(r) ..................................................................... Math.label Description r r distance argument r theo G[pois](r) theoretical Poisson G(r) han hat(G)[han](r) Hanisch estimate of G(r) rs hat(G)[bord](r) border corrected estimate of G(r) km hat(G)[km](r) Kaplan-Meier estimate of G(r) hazard hat(h)[km](r) Kaplan-Meier estimate of hazard function h(r) theohaz h[pois](r) theoretical Poisson hazard function h(r) ..................................................................... Default plot formula: .~r where “.” stands for ‘km’, ‘rs’, ‘han’, ‘theo’

Recommended range of argument r: [0, 0.15] Available range of argument r: [0, 0.29539]

- zbiór regularny

Dystrybuanta empiryczna leży poniżej dystrybuanty

teoretycznej czyli odwrotnie niż w przypadku

dystrybuanty dla miary pustej przestrzeni.

- zbiór z tendencją do klasteryzacji

Dystrybuanta empiryczna leży

powyżej dystrybuanty teoretycznej

czyli odwrotnie niż w przypadku

dystrybuanty dla miary pustej

przestrzeni.

- zbiór losowy, jednorodny

W tym wypadku dystrybuanta empiryczna

odległości do najbliższego sąsiada oscyluje

wokół dystrybuanty teoretycznej.

Jako ostatnia zostanie przeanalizowana miara „odległość wzajemnej” między

punktami w przestrzeni X:

( ) ( ) { }( ){ }XX ∈∩= uurubnrK |\,Pr1

λ

Do opisu odległości wzajemnej używamy tzw K-funkcji. Zakładając, że proces

punktowy X jest stacjonarny, definiujemy ją tak by iloczyn λK(r) był równy wartości

oczekiwanej ilości punktów w odległości mniejszej niż r od danego punktu u:

Dla jednorodnego procesu Poissona wartość oczekiwana liczby punktów

znajdujących się od u w odległości mniejszej niż r (tj należących do b(u,r) ) jest

równa proporcjonalna do pola powierzchni koła o promieniu r tj, 2rλπ

( ) 2rrK poiss π=

( )( )

{ } ( )∑∑≠

≤−=i ij

jiji rxxerxxWarea

rK ,,1ˆ

12λ

i jest niezależna od intensywności procesu.

Istnieje wiele różnych propozycji estymatora funkcji K. Wiele z nich ma postać

znormalizowanego i znormalizowanego rozkładu funkcji odległości wzajemnych:

jiij xxs −=

gdzie jest wagą korygującą efekty brzegowe. Jeśli jest stosowana to

różne estymatory dają dość podobne wyniki. ( )rxxe ji ,,

Jeśli porównamy funkcję z teoretyczną dla procesu Poissona

i pierwsza będzie większa od drugiej to oznacza rozkład ma tendencje do

klasteryzacji. W przeciwnym wypadku proces punktowy ma

charakter regularny.

( )rK

( ) ( ) 2rrKrK poiss π=<

( )rK

Function value object (class ‘fv’)

for the function r -> K(r)

..............................................................

Math. label Description

r r distance argument r

theo K[pois](r) theoretical Poisson K(r)

border hat(K)[bord](r) border-corrected estimate of K(r)

trans hat(K)[trans](r) translation-corrected estimate of K(r)

iso hat(K)[iso](r) isotropic-corrected estimate of K(r)

..............................................................

Default plot formula: .~r

where “.” stands for ‘iso’, ‘trans’, ‘border’, ‘theo’

Recommended range of argument r: [0, 0.25]

Available range of argument r: [0, 0.25]

Wybieramy do analizy izotropową wersję

estymatora („iso”). Po prawej u góry

porównanie K funkcji dla zbioru

regularnego z K-funkcją teoretyczną, po

prawej na dole dla zbioru z tendencją do

klasteryzacji a poniżej wygenerowany,

empiryczny rozkład jednorodny i losowy i

rozkład teoretyczny.

Czasami zamiast funkcji K używamy jej

lekko zmodyfikowanej wersji, tj funkcji L:

( ) ( )π

rKrL =

Daje ona dla rozkładu Poissona linię

prostą.

Dość prostą interpretację ma kolejna

funkcja jakiej używamy, tj łączna korelacja

rozkładu punktów:

( ) ( )r

rKrg

π2

′=

Interpretujemy ją jako prawdopodobieństwo

zaobserwowania pary punktów oddalonych

od siebie o r podzielone przez to

prawdopodobieństwo dla rozkładu Poissona.

Wartości g(r) > 1 sugerują dane zgrupowane,

g(r) < 1 dane regularne.

Estymator dla b. małych r nie jest interpretowany.

Pewne ograniczenia:

Funkcje F, G, K i funkcje od nich pochodne wykorzystuje się w różnych

zastosowaniach. Niekiedy używa się ich dość bezkrytycznie i bez wzajemnego

odniesienia. Ważne jest by pamiętać, że :

1. Funkcje F, G i K są zdefiniowane i obliczane przy założeniu, że obserwowany

proces jest jednorodny (homogeniczny)

2. Powyższe funkcje nie charakteryzują w sposób jednoznaczny danego

procesu

3. Jeśli proces X nie jest stacjonarny różnice pomiędzy wartością empiryczną i

teoretyczną niekoniecznie charakteryzują typ rozkładu (tendencja do

klasteryzacji, regularność) - mogą być wynikiem zmiennej intensywności.

Kontrprzykłady:

- Dla punktu 2 – proces Badelleya-Silvermana o funkcji K identycznej z pr. Poissona

- Dla punktu 3

- Niejednorodny rozkład Poissona a wynik taki jak dla rozkładu z tendencją

do klasteryzacji

modelowanie i analiza danych przestrzennychhome.agh.edu.pl/~lesniak/wyklady/wyklad_3.pdf ·...

Documents