kroswalidacja estymacji przestrzennych metodą krigingu ...applied geostatistics with sgems: a...

Ponadto w pliku tekstowym zapisane są wyliczone dla modelu statystyki jakości estymacji: średni błąd (ME), średni błąd bezwzględny (MAE), średni błąd kwadratowy (MSE), pierwiastek średniego błędu kwadratowego (RMSE), średni standaryzowany kwadrat reszt (MSSR), błąd minimalny, maksymalny, amplituda błędów, wariancja i odchylenie standardowe błędów oraz procentowy udział błędów dodatnich i ujemnych (Isaaks, Srivastava, 1989) (ryc. 3). Poza tym, w odpowiednich plikach zapisane zostają następujące wykresy: (1) rozrzutu wartości estymowanych i rzeczywistych z obliczonym współczynnikiem korelacji (ang. correlation) (ryc. 5); (2) rozrzutu wartości estymowanych i standaryzowanych błędów; (3) histogram standaryzowanych błędów (ryc. 6).

Sprawdzono poprawnośd działania skryptu przez porównanie rezultatów jego obliczeo z wynikami innych aplikacji służących do kroswalidacji: komercyjnego oprogramowania ISATIS („Isatis 2011: Technical References”, 2011) oraz darmowego GsLIB (Deutsch, Journel, 1992). W efekcie stwierdzono, iż skrypt „Kroswalidacja.py" w SGeMS daje porównywalne wyniki w stosunku do innych narzędzi, zarówno komercyjnych, jak i darmowych. Jego dużym atutem zaś jest większa ilośd obliczanych statystyk jakości estymacji, wizualizowanych także na wykresach.

Wykorzystanie kroswalidacji – optymalizacja parametrów estymacji

Jednym z zastosowao kroswalidacji jest optymalizacja parametrów estymacji. Dzięki wyliczonym statystykom jakości estymacji możliwe jest porównanie modeli oraz optymalizacja ich parametrów i sąsiedztwa szukania. Sąsiedztwo szukania jest to obszar, wewnątrz którego znajdują się punkty brane pod uwagę przy estymacji wartości w danym punkcie. Najczęściej przyjmuje kształt koła lub elipsy z estymowanym punktem jako środkiem. Do analizy porównawczej przygotowano 4 różne modele estymacji (semiwariancji) dla powszechnie znanych danych zanieczyszczenia gleb metalami ciężkimi z Jury Szwajcarskiej szerzej opisanych przez Atteia, Dubois, Webstera (1994) oraz Goovaertsa (1997). Dla każdego modelu wykonano za pomocą skryptu „Kroswalidacja.py” po 10 sekwencji obliczeo metodą zwykłego krigingu (OK) z liczbą punktów w otoczeniu od 6 do 24 co 2 (czyli 6, 8, 10, 12, 14, 16, 18, 20, 22 i 24 punktów). Za każdym razem użyto izotropowego sąsiedztwa szukania o promieniu 1,1 km. Porównanie modeli dla wybranych statystyk jakości estymacji przedstawiono na ryc. 7 a-d.

Im lepszy model tym ME, MAE i RMSE powinny byd bliżej 0, a współczynnik korelacji dążyd do 1 (lub -1). Dlatego za najlepszy uznano model nr 3, który osiąga najniższe wartości MAE, RMSE przy niezbyt wysokim ME i najwyższym współczynniku korelacji.

Natomiast obliczenia estymacji dla danych z Jury powinno się wykonywad wykorzystując 14 najbliższych punktów z otoczenia, gdyż od tego momentu można zauważyd na wykresach wyraźną stabilizację wyników.

Wykorzystanie kroswalidacji – wpływ właściwości zbiorów danych na jakośd estymacji

Kolejnym niezwykle istotnym zastosowaniem kroswalidacji jest wskazanie właściwości zbiorów danych wpływających na jakośd estymacji. Do zilustrowania powyższego zastosowania wykorzystano dane o jakości opadów atmosferycznych pochodzące ze wschodniej części Stanów Zjednoczonych (The National Atmospheric Deposition Program, 2011). Analizę przeprowadzono na podstawie danych miesięcznych z lat 1996-2000. W zależności od miesiąca ilośd punktów pomiarowych różni się od 107 do 145 (ryc. 8). We wszystkich zmierzono stężenia różnych jonów. Na potrzeby niniejszej analizy wykorzystano jedynie dane dotyczące średnich ważonych miesięcznych stężeo wapnia (Ca) i chloru (Cl) (w mg/L). Wybrano je ze względu na odmienną charakterystykę rozkładu przestrzennego, co jest efektem ich różnego pochodzenia: kontynentalnego jonów Ca oraz oceanicznego jonów Cl.

Dla każdego ze 120 zbiorów danych (po 60 dla każdego z jonów) obliczono za pomocą programu Surfer statystyki globalne (klasyczne) i lokalne (różnic wartości pomiarowych pomiędzy lokalizacjami najbliższych sąsiadów - NN), które stanowią zmienne niezależne modelu regresji. Następnie dla wszystkich zbiorów danych wykonano kroswalidację za pomocą skryptu „Kroswalidacja.py”, dzięki czemu uzyskano statystki jakości estymacji. Do dalszej analizy wybrano 4 z nich: MAE, RMSE, MSSR oraz odchylenie standardowe błędów (σ), stanowiące zmienne zależne modeli regresji. Przed przystąpieniem do obliczania modeli pozytywnie zweryfikowano hipotezę, iż zmiany liczby i konfiguracji stanowisk pomiarowych nie mają istotnego wpływu na jakośd estymacji. Modele dla wybranych statystyk jakości estymacji obliczano metodą regresji wielokrotnej z krokową eliminacją zmiennych „do tyłu” (ang. backward stepwise linear regression) (Internetowy podręcznik statystyki, 2010). W efekcie uzyskano 8 modeli regresji (po 4 dla wapnia i chloru). Każdy z nich można przedstawid za pomocą wzoru funkcji liniowej. I tak wzór MAE dla wapnia przyjmuje następującą postad:

MAECA=0,146819 * odchylenie standardowe (NN)+ +1,799303 * średnia (NN)- -0,95303 * średnia różnica (NN)

+ 0,130659 * średnia różnica -0,11687

Stopieo dopasowania modelu określa współczynnik R2. Jego wartośd wyrażoną w procentach interpretuje się jako udział zmienności wartości prognozowanej objaśnianej przez zmienne niezależne. W tabeli nr 1 przedstawiono skorygowany ze względu na liczbę i wzajemne zależności w zbiorze zmiennych niezależnych współczynnik R2 dla wszystkich 8 modeli. Wyraźnie widad, że dla większości zmiennych zależnych R2 wynosi powyżej 95%, co oznacza, że modele te są bardzo dobre.

Z analizy wszystkich modeli regresji wynika, iż dla omawianych danych największy wpływ na jakośd estymacji wywierają następujące statystyki opisowe: średnia kwadratowa, globalna i lokalna średnia arytmetyczna, globalne i lokalne odchylenie standardowe oraz średnia różnica. Dzięki obliczonym modelom możliwe jest przewidywanie statystyk jakości estymacji dla nowych zbiorów danych, dla których jeszcze nie wykonano estymacji.

Tło teoretyczne

Kriging jest to nazwa własna nadana grupie algorytmów opartych na uogólnionej regresji metodą najmniejszych kwadratów. Podstawowym zadaniem krigingu jest estymacja wartości cechy z w każdej nieopróbowanej lokalizacji u na podstawie n pomiarów danej cechy dokonanych w punktach o znanej lokalizacji (uα) na danym obszarze. Punktem wyjścia dla krigingu jest podstawowe równanie regresji linowej zmiennej losowej Z (oznaczającej zbiór wartości cechy z) w lokalizacji u (Z*(u)):

gdzie m(u) oraz m(ua) to oczekiwane wartości zmiennej losowej Z(u) oraz Z(ua) (Goovaerts, 1997), a to wagi, które zależą od odległości lokalizacji danego pomiaru od miejsca estymacji, przestrzennego rozkładu opróbowanych lokalizacji oraz przestrzennej struktury określonej przez model uzyskany na podstawie autokowariancji empirycznej (Stach, 2009). Wszystkie estymatory krigingowe są różnymi wariantami powyższego równania.

Kroswalidacja (ang. cross-validation) służy do oceny "zgodności" wykonanych estymacji z wynikami pomiaru, a poprzez to do oceny stopnia poprawności modelu struktury przestrzennej (semiwariancji). Polega ona na podziale zbioru opróbowanych lokalizacji n na dwa podzbiory: „konstrukcji”, zawierającym n-1 pomiarów danej cechy z oraz „walidacji”, w którym znajduje się 1 pomiar z danej lokalizacji (uα). Następnie używając podzbioru konstrukcji dokonuje się estymacji wartości cechy z dla lokalizacji z podzbioru walidacji. Procedurę należy powtórzyd tyle razy, ile jest pomiarów, za każdym razem odrzucając próbkę z innej lokalizacji. W efekcie uzyskuje się n estymacji dla n pomiarów danej cechy z, które można ze sobą porównad obliczając statystyki jakości estymacji (Isaaks, Srivastava, 1989; Stone, 1974). Niestety stosowanie kroswalidacji jest często ograniczone, ze względu na to, iż nie jest ona dostępna w każdym oprogramowaniu, a czas wykonania takich obliczeo „ręcznie” jest zbyt długi (Stach, Tamulewicz, 2003).

Stanford Geostatistical Modeling Software (SGeMS) (ryc. 4) jest oprogramowaniem geostatystycznym stworzonym przez trzech naukowców związanych z Uniwersytetem Stanforda. Jest on dostępny na zasadach Powszechnej Licencji Publicznej GNU (ang. GNU General Public License) (Remy, Boucher, Wu, 2009; „About SGeMS”, 2009). Oznacza to, że oprogramowanie jest darmowe, a jego kod źródłowy udostępniony wszystkim użytkownikom, którzy mogą go dowolnie modyfikowad i rozpowszechniad wraz z dokonanymi zmianami („GNU General Public Licence”, 2010). Jednym ze sposobów automatyzacji i rozwijania pewnych funkcji tego oprogramowania jest korzystanie ze skryptów napisanych w języku programowania Python („About Python”, 2010; Northon et al., 2006).

Skrypt kroswalidacja.py i efekty jego działania

W związku z tym, iż SGeMS nie posiada niezwykle przydatnej funkcji jaką jest kroswalidacja, autorka napisała skrypt do kroswalidacji dla SGeMS w języku Python rozszerzając możliwości tego oprogramowania. Skrypt „Kroswalidacja.py” liczy 136 linii kodu, opatrzonego komentarzami w języku polskim i angielskim objaśniającymi jego budowę i działanie. Na ryc. 1 przedstawiono schematyczny zapis skryptu.

Skrypt uruchamia się za pomocą edytora skryptów Pythona w SGeMS (ryc. 2). Efektem działania skryptu jest plik tekstowy z obliczonymi wartościami estymowanymi, błędami, standaryzowanymi błędami i wariancjami krigingowymi dla każdego punktu (ryc. 3), które dodatkowo są dodawane do panelu widoku w SGeMS (ryc. 4).

KROSWALIDACJA ESTYMACJI PRZESTRZENNYCH METODĄ KRIGINGU: KOD W JĘZYKU PYTHON DLA PROGRAMU SGEMS I PRZYKŁADY ZASTOSOWAŃ

Praca napisana w Zakładzie Geoekologii Instytutu Geoekologii i Geoinformacji

pod kierunkiem prof. UAM dr hab. Alfreda Stacha

mgr Inez Beszterda geografia, specjalność geoinformacja, rok

akademicki 2010/2011

Literatura Atteia O., Dubois J.-P., Webster R. (1994). Geostatistical analysis of soil contamination in the Swiss Jura. Environmental

Pollution, 86, 315- 327. About Python (2010). Pozyskane 21 listopada 2010 r. ze strony Pythona: http://www.python.org/about About SGeMS (12 kwietnia 2009). Pozyskane 21 listopada 2010 r. ze strony SGeMSa:

http://sgems.sourceforge.net/?q=node/20 Deutsch C. V., Journel A. G. (1992). GSLIB: Geostatistical Software Library and User's Guide. New York: Oxford University Press. GNU General Public Licence (9 października 2010). Pozyskane 21 listopada 2010 r. ze strony GNU Operating System:

www.gnu.org/copyleft/gpl.html Goovaerts P. (1997). Geostatistics for Natural Resources Evaluation. New York: Oxford Univeristy Press. Internetowy podręcznik statystyki (2010). Pozyskane 7 maja 2011 r. ze strony: www.statsoft.pl/textbook/glosfra.html Isaaks E. H., Srivastava R. M. (1989). Applied Geostatistics. New York: Oxford Univeristy Press. Isatis 2011: Technical References (2011). Avon Cedex : GEOVARIANCES. Northon P., Samuel A., Aitel D., Foster-Johnoson E., Richardson L., Diamond J., Parker A., Roberts M. (2006). Python. Od

podstaw. Gliwice: Wydawnictwo Helion. Remy N., Boucher A., Wu J. (2009). Applied Geostatistics with SGeMS: A User’s Guide. Cambridge: Cambridge University Press. Stach A., Tamulewicz J. (2003). Wstępna ocena przydatności wybranych algorytmów przestrzennej estymacji

miesięcznych i rocznych sum opadów na obszarze Polski. *W:+ A. Kostrzewski, J. Szpikowski (red.), Funkcjonowanie geoekosystemów zlewni rzecznych, t. 3, Obieg wody – uwarunkowania i skutki w środowisku przyrodniczym. Poznao: Bogucki Wydawnictwo Naukowe, 87-111.

Stach A. (2009). Analiza struktury przestrzennej i czasoprzestrzennej maksymalnych opadów dobowych w Polsce w latach 1956-1980. Poznao: Wyd. Naukowe UAM.

Stone M. (1974). Cross-validatory choice and assessment of statistical predictions. Journal of the Royal Statistical Society. Series B (Methodological)36(4), 111-147.

Surfer 10.0 Help (2011). Colorado: Golden Software. The National Atmospheric Deposition Program (2011). Pozyskane 15 kwietnia 2011 r. ze strony Narodowego Programu

Osadów Atmosferycznych: http://nadp.sws.uiuc.edu/

Ryc. 1. Schematyczny zapis skryptu „Kroswalidacja.py”

Ryc. 7. Wpływ liczby punktów w sąsiedztwie szukania na: a)średni błąd, b) średni błąd absolutny, c) pierwiastek średniego błędu kwadratowego, d) współczynnik korelacji

0 0,005

0,01 0,015

0,02 0,025

0,03 0,035

0,04 0,045

6 8 10 12 14 16 18 20 22 24

ME

liczba punktów w sąsiedztwie

ME

model nr 1

model nr 2

model nr 3

model nr 4

a

0,5

0,52

0,54

0,56

0,58

0,6

6 8 10 12 14 16 18 20 22 24

MA

E


MAE

model nr 1

model nr 2

model nr 3

model nr 4

b

0,72

0,74

0,76

0,78

0,8

0,82

0,84

6 8 10 12 14 16 18 20 22 24

RM

SE


RMSE

model nr 1

model nr 2

model nr 3

model nr 4

c

0,39

0,44

0,49

0,54

6 8 10 12 14 16 18 20 22 24

wsp

ółc

zyn

nik

ko

rela

cji


współczynnik korelacji

model nr 1

model nr 2

model nr 3

model nr 4

d

Ryc. 8. Rozmieszczenie punktów pomiarowych w styczniu 2000 r. (144 punkty)

Ryc. 2. Edytor skryptów w SGeMS Ryc. 3. Plik z wynikami działania skryptu

Ryc. 4. SGeMS – dodanie nowych właściwości do obiektu

Ryc. 6. Histogram standaryzowanych błędów

Ryc. 5. Wykres rozrzutu wartości estymowanych oraz rzeczywistych.

Tab. 1. Wartośd współczynnika R2 dla modeli regresji

Zmienna

zależna

MAE

Ca

RMSE

Ca

MSSR

Ca

σ błędów

Ca

MAE

Cl

RMSE

Cl

MSSR

Cl

σ błędów

Cl

dostosowane R2 0,9598 0,998 0,76905 0,998 0,9796 0,996 0,43288 0,996

kroswalidacja estymacji przestrzennych metodą krigingu ...applied geostatistics with sgems: a...

Documents