seminarium: sieci neuronowe i statystykaaba/ssnis/subssnis/nowak.pdfseminarium: sieci neuronowe i...

38
Piotr Nowak Seminarium: Sieci Neuronowe i Statystyka 22.05.2006 Porównanie skuteczności sieci MLP z regresją liniową na przykładzie danych epidemiologicznych

Upload: others

Post on 13-Jul-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Porównanie skutecznościsieci MLP z regresją liniową

na przykładzie danych epidemiologicznych

Page 2: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

WstępSieci neuronowe znajdują szerokie zastosowanie także w medycynie. Na przykład rozpoznawanie chorób i diagnozowanie. Oczywiście izomorficzne problemy związane z rozpoznawaniem i klasyfikacją pojawiają się w innych dziedzinach, np. kryminalistyce, akustyce, optyce, data minig,...Analiza problemu często sprowadza się do szukania statystycznych własności rozważanych danych, chociażby takich jak występowanie normalności wzorców, występowanie pomiędzy nimi korelacji, w końcu dobór odpowiedniego modelu. Często, pomimo skromnej wiedzy o zależnościach pomiędzy wartościami a zmiennymi, przyjmujemy (badamy) model liniowy.Alternatywą dla tego podejścia jest wykorzystanie sieci neuronowych. W szczególności, jeśli chodzi o problem aproksymacji, możemy wyróżnić sieci MLP. Hornik udowadnia, że sieci MLP z trzema warstwami można uznać teoretycznie za uniwersalne aproksymatory. Wiele prac wskazuje, że sieci neuronowe dorównują bądź nawet przewyższają klasyczne metody związane z estymacją modeli statystycznych i predykcją.

Page 3: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Sieci neuronowe a statystyka

Wymieńmy kilka znanych nam metod sieci neuronowych mających statystyczne odpowiedniki:

• Sieci liniowe warstwowe odpowiadają ogólnym modelom liniowym• Sieci warstwowe nieliniowe są podklasą nieliniowych modeli regresyjnych i dyskryminacyjnych• Sieci Kohonena są odpowiednikiem analizy skupień metodą k-średnich• Sieci z uczeniem hebowskim są związane z analizą głównych składowych (PCA)

Page 4: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Plan prezentacji

Jak zaznaczono w tytule, głównym celem jest porównywanie metod sieci neuronowych z ich odpowiednikami statystycznymi, u nas to jest regresja liniowa. Dla zupełności skupimy się najpierw na teoretycznych podwalinach regresji liniowej i sieci neuronowych, tu szczególnie skupimy się na metodzie wyznaczania wektorów wagowych i architekturze sieci. W dalszej kolejności przeprowadzimy porównanie obu metod na przykładzie wysymulowanych modeli, takich jakie często pojawiają się w praktyce medycznej. Zostaną wprowadzone kryteria dobroci dopasowania. Zostanie zwrócona uwaga na odporność dwóch metod na zakłócenia, zdolność do predykcji. W końcu przyjdzie czas na wnioski.

Page 5: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Metoda Najmniejszych Kwadratów(MNK)

Idea MNK: Niech X1, X2,..., Xn są ustalonymi nielosowymi wielkościami oraz niech Y1,Y2,...,Yn będą odpowiadającymi im sygnałami wyjściowymi obarczonymi losowymi błędami εi o zerowej wartości oczekiwane, tzn. E(ei) =0 dla i=1,2,...,n. Załóżmy, że wektor Yjest postaci:

gdzie f jest nieznaną funkcją. Problem MNK polega na znalezieniuf na podstawie X i Y. Jako kryterium dopasowania f do danych eksperymentalnych przyjmujemy wielkość

Funkcję, która w danej klasie minimalizuje I(f) nazywamy estymatorem najmniejszych kwadratów funkcji regresji f.

Page 6: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Model liniowyOkreślenia klasyczna metoda najmniejsza kwadratów najczęściej używamy w odniesieniu do metody szacowania parametrów strukturalnych modelu liniowego:

yi – i-ta obserwacja zmiennej objaśnianejxji i-ta obserwacja j-tej zmiennej objaśniającej

W postaci macierzowej : Y=Xβ +ε, gdzie

jest macierzą zmiennych objaśniających, tzw. macierz planu, zaś βszukanym wektorem parametrów strukturalnych liniowego modelu.

Page 7: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Założenia MNK

Aby estymatory parametrów strukturalnych modelu liniowego miały pożądane własności (zgodność, nieobciążoność) muszą być spełnione pewne warunki:

1. Model jest liniowy względem parametrów

2. Zmienne objaśniające są nielosowe, ich wartości są traktowane jako wielkości stałe w powtarzających się próbach

3. Wartości oczekiwane składników losowych εi są równe zeru, tzn. E(εi) =0 dla i=1,2,...,n

4. Wariancje składników losowych εi (reszt) są stałe, tzn. D2(εi)=σ2 dla i=1,2,...,n (własność homoscedastyczności)

5. Składniki losowe εi i εj są nieskorelowane dla i≠ j, i,j=1,2...,n

Page 8: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

6. Każdy ze składników losowych εi ma rozkład normalny7. Liczba obserwacji musi być większa niż liczba szacowanych parametrów8. Pomiędzy wektorami obserwacji zmiennych objaśniających nie zachodzi liniowa zależność, jest to założenie o braku współliniowości

Uwaga: Dwa ostanie założenia dotyczą problemów numerycznych związanych z wyznaczaniem estymatorów. Jeśli te założenia są spełnione estymatory NMK są wyznaczone jednoznacznie. Jeśli n=k+1 i zachodzi 8 to pomiędzy yi a x1i, ...xkizachodzi funkcyjna zależność liniowa.

Page 9: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Estymacja parametrów modelu liniowego metodą najmniejszych kwadratów

Zadanie oszacowania wektora β metodą MNK polega na wyznaczeniu β minimalizującego:

W konsekwencji sprowadza się to do rozwiązania układu równań

Pokazuje się, że rozwiązanie powyższego równania zawsze istnieje. Jeśli macierz XTX jest nieosobliwa, to estymatorem wektora β jest oczywiście

Page 10: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Własności estymatorów uzyskanych metodą najmniejszych kwadratów

Twierdzenie Gaussa-MarkowaJeżeli ε1,ε2,...,εn mają wartość oczekiwaną zero, taką samą wariancję i są nieskorelowane, to dla każdej estymowalnej funkcji parametrycznej a’β, jej estymator MNK ma jednostajnie minimalną wariancję w klasie wszystkich liniowych nieobciążonych estymatorów funkcji a’β.

Reasumując, estymatory MNK mają własności:• liniowości• zgodności• efektywności• nieobciążoności

βa' ˆ

Page 11: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Dalsze konsekwencje przyjęcia założeń klasycznej metody najmniejszych kwadratów

Ponieważ estymatory parametrów strukturalnych modelu liniowego są liniowymi kombinacjami niezależnych zmiennych objaśnianych, mają więc także rozkłady normalne, znamy ich wartości oczekiwane, bo są zgodne. Dowodzi się natomiast, że macierz kowariancji estymatora β jest równa σ2(XTX)-1. Na ogół nie znamy wariancji składnika losowego. Za estymator σ przyjmujemy odchylenie standardowe reszt, Sc. (Wiemy, że wówczas jest to estymator nieobciążony). Zatem nieobciążonym estymatoremmacierzy kowariancji wektora β jest:

Elementy diagonalne macierzy V2 są ocenami wariancji estymatorów poszczególnych parametrów, zaś ich pierwiastki standartowymi błędami szacunku parametrów modelu. Do wyznaczenia przedziałów ufności dla estymatorów βj wykorzystuje się statystykę

Page 12: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Zagadnienia regresyjne w sieciach neuronowych

Jak wiemy, za pomocą perceptronu możemy rozwiązywać problemy separowalne liniowo, czyli takie co można przedstawić jako podział dychotomiczny za pomocą pewnej hiperpłaszczyzny. Jednak nie rozwiążemy np. separowalności funkcji XOR. Wprowadzenie dodatkowej warstwy elementów perceptronowych powiększa zakres stosowalności sieci. M neuronów ukrytych dzieliprzestrzeń RN na K obszarów wypukłych (simpleksów) utworzonych przez M hiperpłaszczyzn.Neuron wyjściowy odpowiednio skleja te obszary.

Sieci MLP są uogólnieniem sieci jednowarstwowych. Mogą służyć do rozwiązywania nieliniowych zagadnień regresyjnych oraz zagadnień dyskryminacyjnych.

Page 13: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Zagadnienia regresyjne, c.d.

Przyjęto następujący model sieci MLP (patrz rysunek 1) :

• Warstwa wejściowa składająca się z pięciu neuronów, każdy odpowiada jednej z pięciu zmiennych• Warstwa ukryta składająca się z pięciu neuronów z logistyczną funkcją aktywacji•Warstwa wyjściowa z jednym neuronem i liniową funkcją aktywacjiDodatkowo wyróżniamy jeden neuron zwany biasem, połączony z każdym neuronem warstwy ukrytej, może być ustawiany na zero bądź jeden.Ostatecznie, każde wyjście y jest obliczane w następujący sposób:

Page 14: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Architektura sieci MLP

Page 15: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Uczenie sieci MLP

Celem jest wyznaczenie macierzy W wektorów wagowych, tak aby zminimalizować błąd funkcji E(D,Y), gdzie D jest wektorem wzorców, zaś Y otrzymanych wyjść. Błąd definiujemy następująco:- Stosujemy klasyczne algorytmy służące do wyznaczenia minimum funkcji E. Korzystano z algorytmu wstecznej propagacji błędów, który polega na przesyłaniu obliczonego błędu wstecz z warstwy wyjściowej i modyfikacji odpowiednich wag neuronów poprzednich warstw- Używamy algorytmów iteracyjnychW kolejnej iteracji modyfikujemy wagi w następujący sposób:

Page 16: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Uczenie sieci, c.d.

Jeśli przyjmiemy h(X)=WTX i g(X)=(1+exp(-WTX))-1 mamy proste rozwiązanie: M wij=ηδXj

yXi

Dla danego wektora X δXjwspółczynnik związany z

wyjściem wyraża się wzorem: δXj=(dXj

-yXj)g’j(hXj

)oraz dla każdego neurona z warstwy ukrytej:δXi

=∑Sk=1(δXj

wij)g’j(hXj).

Aby przeciwdziałać chaotycznym zmainom, wprowadza sięwspółczynnik µ zwany momentum

Page 17: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Algorytm przycinania (pruning algorithm)

Page 18: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Własności funkcji logistycznej

Funkcja aktywacji użyta dla warstwy ukrytej posiada szereg ważnych własności:

• Ciągłe przejście pomiędzy wartością min i max• Funkcja niemalejąca• Funkcja ograniczona• Łatwa do obliczenia pochodna:

• Możliwość ustalania kształtu krzywej poprzez parametr β

Page 19: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

SymulacjePorównania sieci MLP z regresją liniową dokonano na podstawie wysymulowanych pięciu modeli uwzględniając między innymi takie założenia metody najmniejszych kwadratów jak: normalność składników losowych, homoscedastyczność, oraz niezależność składników losowych. Oto one:• Model 1,2 i 5:

Dla modelu pierwszego błędy wygenerowano względem rozkładu N(0,1), dla piątego U(0,1), zaś dla modelu drugiego względem rozkładu normalnego o niestałej wariancji (heterostatyczność)• Model 3, uwzględniono interakcje pomiędzy dwiema zmiennymi

• Model 4, składnik losowy zastąpiono procesem ARMA(3,3) (autoregresji z ruchomą średnią)

Page 20: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Charakterystyki

0.90.20.0302.142.98-0.661.17Values

νγβ5β4β3β2β1αParameters

Table 1Parameter values

18.051-0.69310.9458.361X5

10.48910.3290.0000910.409X4

13.166-0.6625.3766.922X3

6.9464.2680.1625.554X2

17.4540.6387.0468.882X1

MaximumMininumVarianceMean

Table 2Characteristics of covariates X

Page 21: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Charakterystyki, c.d.

45.66510.99829.94527.427Y=α+Xβ+εε ~U(0,1)

5

71.7712.78116.6440.17Y=α+Xβ+ΑΡΜΑ(3,3)4

77.4478.92311.35838.518Y=α+Xβ+γ X3X5+εε ~N(0,1)

3

47.08610.09335.10526.98Y=α+Xβ+εε ~ N(0,ν2·(f(X)))

2

436610.34932.01926.932Y=α+Xβ+εε ~N(0,1)

1

MaximunMinimumVarianceMeang(X)Design

Table 3Characteristics of the variables Y

Page 22: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Przebieg symulacji

Dla każdego modelu wygenerowano 3 zbiory danych, każdy po 1000 elementów.Dla sieci neuronowej procedura składała się z trzech kroków:Etap uczenia, testowanie sieci i predykcja. Dla każdego z krokówsymulowano zbiór liczący 1000 elementów.Do wyznaczenia rozkładów wag użyto metody Bootstrap.Do wyznaczenia modelu liniowego użyto zbiór 2000 danych. Trzeci zbiór 1000 elementów wykorzystano do predykcji.

Page 23: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Kryteria dopasowaniaAby zbadać jak wyestymowany model dopasowuje się do danych, rozważamy następujące współczynniki (Goodness-of-fit-criteria)•

gdzie jest wartością predykcji, zaś wartością predykowaną

• Logarytm wiarygodności: • Kryterium Akaïke : gdzie p jest liczbą współczynników w modelu liniowym bądź liczbą współczynników wagowych w sieci MLP• Uproszczone kryterium Kullbacka-Leiblera: • Kryterium Schwarza: Jak interpretujemy te kryteria: dla pierwszego i drugiego oczywiste, Zaś im mniejsze kryterium Akaïke i większe kryterium Schwarza tym lepsze dopasowanie.

Podane kryteria mogą służyć do porównania obu model.

)i(XfW )i(XfW

Page 24: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Wyniki

Page 25: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Wyniki, c.d.

Page 26: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

InterpretacjaW tabeli 4 podano wartości estymatorów parametrów strukturalnychmodelu liniowego obliczone metodą najmniejszych kwadratów oraz odpowiadające im wartości statystyki Walda.Jak interpretować tę wartość?Jak podano wcześniej, statystyka t=(bj-βj)/Sbj ma rozkład t Studenta z n-k-1 stopniami swobody.Najczęściej interesuje nas weryfikacja hipotezy dotyczącej istotności współczynnika, tzn. H0:βj=0, wobec alternatywy H1:βj≠ 0. Odrzucenie hipotezy zerowej oznacza, że współczynnik przy zmiennej Xj ma wartość istotnie różną od zera, czyli ta zmienna wywiera istotny wpływ na kształtowanie się wartości zmiennej zależnej Y.Zatem jeśli obliczona statystyka t spełnia nierówność |t|>tα to odrzucamy hipotezę zerową. Wartość tα zostaje tak dobrana, aby zachodziło P(|t|>tα)=α=0.05. Jeśli n dąży do nieskończoności, rozkład Studenta jestzbieżny do rozkłady normalnego. Dla dużych n (jeśli liczba stopni swobody powyżej 30), tα będzie niewiele większe od 1.96

Page 27: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Interpretacja, c.d.

Wartości statystyki t słusznie wskazują na brak istotności estymatora dla β4 dla wszystkich modeli. Jedynie dla modelu drugiego otrzymujemy brak istotności współczynnika związanego ze zmienną X5.Niestety, dla sieci neuronowych nie posiadamy tak klarownych, jak wyżej, metod statystycznych.

Page 28: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Wykresy predykcji, model 1

Page 29: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Wykresy predykcji, model 2

Page 30: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Wykresy predykcji, model 3

Page 31: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Wykresy predykcji, model 4

Page 32: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Wykresy predykcji, model 5

Page 33: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

WnioskiModel 5 wymagał największej liczby neuronów w warstwie ukrytej oraz iteracji w procesie uczenia.Przedziały ufności dla modeli wyznaczonych przez MLP wydają się być bardzo podobne jak dla regresji liniowej.Dla modelu 1 i 5 błędy predykcji były małe dla obu metod i tego samego rzędu.Dla modelu 2, gdzie nie był spełniony warunek homoscedastyczności, predykcja nie była dokładna w obu metodach.Dla modelu 3, pomimo zależności pomiędzy zmiennymi X3 oraz X5, obie metody dały bardzo podobne rezultaty.Dla modelu 4, gdzie wprowadziliśmy proces ARMA(3,3) dla obu metod, predykcje były dalekie od rzeczywistych wartości. Jednak wydaje się, że przedział ufności dla modelu liniowego jest węższy.

Page 34: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Wnioski, c.d.

W tabeli 6 zestawiono wartości wprowadzonych wcześniej współczynników. Dane były lepiej dopasowane przez model liniowy dla modeli 1,2,5. Sieć MLP okazała się bardziej skuteczna dla modelu 4 niż użycie regresji liniowej.Dla modelu 3 tylko współczynnik BIC wypadł gorzej dla MLP co może być najprawdopodobniej spowodowane wysoką liczbą wag (połączeń między neuronami) oraz interakcją pomiędzy zmiennymi. Jednak mniejsza wartość błędu względnego wskazuje na lepsze dopasowanie przez sieć neuronową.

Page 35: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Rozkłady wag, kolejno dla modeli 1,2,3,4,5

Page 36: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Rozkłady wag, c.d.

Wnioski: Rozkłady wag są w mniejszym bądź większym stopniu normalne. Istnieje wyraźne podobieństwo rozkładów wag dla modeli 1,2,5. One też były najbliżej modelu liniowego.Można zauważyć, że rozkłady wag odpowiadające zmiennej X3miały największą wariancję. Dla modelu 3 widać interakcję zmiennych X3 i X5. Podobne wnioski płyną z obserwacji statystyki Walda (model liniowy), której wartości były w tych przypadkach największe.

Page 37: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Dalsze uwagi

Używanie regresji wymaga spełnienia założeń metody najmniejszych kwadratów. Sieci neuronowe nie potrzebują tych założeń.Zignorowanie współzależności pomiędzy zmiennymi nie wpływa na jakość sieci MLP. Kryterium to musi być koniecznie uwzględnione przy stosowaniu modelu liniowego.

Inne:Według Karpińskiego i Mac Intyre’a (1995) proponowana liczba neuronów w warstwie ukrytej powinna wynosić C, gdzie gdzie n to liczba wejść i C spełnia nierówność

Page 38: Seminarium: Sieci Neuronowe i Statystykaaba/SSNiS/subSSNiS/nowak.pdfSeminarium: Sieci Neuronowe i Statystyka 22.05.2006 Uczenie sieci MLP Celem jest wyznaczenie macierzy W wektorów

Piotr Nowak

Seminarium: Sieci Neuronowe i Statystyka

22.05.2006

Literatura

1. Jean Gaudart, Bernard Giusiano, Laetitia Huiart, 2004. Comparsion of the performance of multi-layer perceptron and linear regression for epidemiological data. Computional Statistics & Data Analysis 44, 547-570.