inteligencja obliczeniowa sieci rbf

28
Inteligencja Inteligencja Obliczeniowa Obliczeniowa Sieci RBF. Sieci RBF. Wykład 13 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch

Upload: luce

Post on 31-Jan-2016

91 views

Category:

Documents


0 download

DESCRIPTION

Inteligencja Obliczeniowa Sieci RBF. Wykład 13 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch. Algorytmy konstruktywistyczne Przykłady zastosowań sieci MLP. Co było. Teoria aproksymacji Funkcje radialne Sieci RBF. Co będzie. Filozofia RBF. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Inteligencja Obliczeniowa Sieci RBF

Inteligencja ObliczeniowaInteligencja ObliczeniowaSieci RBF. Sieci RBF.

Wykład 13

Włodzisław Duch

Uniwersytet Mikołaja Kopernika

Google: W. Duch

Page 2: Inteligencja Obliczeniowa Sieci RBF

Co byłoCo było

• Algorytmy konstruktywistyczne

• Przykłady zastosowań sieci MLP

Page 3: Inteligencja Obliczeniowa Sieci RBF

Co będzieCo będzie

• Teoria aproksymacji

• Funkcje radialne

• Sieci RBF

Page 4: Inteligencja Obliczeniowa Sieci RBF

Filozofia RBFFilozofia RBF

MLP - dyskryminacja, LDA, aproksymacja stochastyczna.

RBF = Radial Basis Functions (1988) - inne podejście.Uczenie jako problem aproksymacji, najlepszego dopasowania (rekonstrukcji) hiperpowierzchni do danych treningowych.

• Twierdzenie (Cover 1965): Jeśli przekształcić wzorce X={X(i)}, i=1.. p, nieliniową funkcją na wektory (X(i))={h(X(i))k}, k = 1..M, M > p wzorce prawdopodobnie staną się liniowo separowalne: tj. istnieje płaszczyzna

WT (X(i)) 0 dla X(i)C1,

WT (X(i)) <0 dla X(i)C2

Page 5: Inteligencja Obliczeniowa Sieci RBF

Separowalność wielomianowaSeparowalność wielomianowa

Jeśli wziąć funkcje wielomianowe:

1 2 1 1

1 2

...0 ...

r

r

A i i i i i iri i i p

X A X X X

to zamiast sep. liniowej mamy sep. wielomianową.

Functional Link Networks (Pao), SVM i Kernel Methods: optymalizacja nieliniowego przekształcenia.

Page 6: Inteligencja Obliczeniowa Sieci RBF

Functional link networksFunctional link networksPao (1989) - sieci połączeń funkcjonalnych.Model tensorowy: do zmiennych wejściowych należy dodać ich iloczyny, to rozwiązuje nieliniowo sep. problemy.Separacja kwadratowaProblem: za dużo parametrów. Realizacja: sieć perceptronów z dodatkowymi wejściamilub sieć z jedną warstwą ukrytą realizująca nieliniowe mapowanie.

Page 7: Inteligencja Obliczeniowa Sieci RBF

Uczenie jako problem aproksymacjiUczenie jako problem aproksymacji

Dla N punktów znajdź funkcję spełniającą:

( )

1

Ki

W ii

F X W h X X

Postać funkcji RBF:

2 2( )

1

ˆN

iW i W W

i

E F Y F X PF

Funkcja błędu z członem regularyzacyjnym:

( ) , 1..iW iF X Y i N

( ) 1,i piX R Y R

Page 8: Inteligencja Obliczeniowa Sieci RBF

Funkcja RBFFunkcja RBF

Człon regularyzacjny: uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji.

( )

1

Ki

W ii

F X W h X X

Postać funkcji RBF:

2 2( ) ( )

1

ˆN

i iW W W

i

E F Y F X PF

Funkcja błędu z członem regularyzacyjnym:

( ) ( ) , 1..i iWF X Y i N

Page 9: Inteligencja Obliczeniowa Sieci RBF

Rozwiązanie RBFRozwiązanie RBFJeden węzeł sieci na jeden wektor treningowy, bez regularyzacji.

Dla wąskich f. Gaussowskich hij =ij, wagi Wi =Yi , idealne rozwiązanie, ale zła generalizacja. H - macierz interpolacji. Radialne f. bazowe: H dodatnio określona (Light 1992). Większe dyspersje, mniej funkcji - lepsza generalizacja.

11 12 1 1 1

( ) ( )21 22 2 2 2

1

1 2

;

Ni j

N ij

N N NN N N

h h h W Y

h h h W Y h h X X

h h h W Y

W H Y

Page 10: Inteligencja Obliczeniowa Sieci RBF

Interpretacja geometrycznaInterpretacja geometryczna

Jeśli prawdziwa aproksymowana funkcja f(x) leży w przestrzeni rozpiętej przez wektory bazowe (x) to możliwe jest rozwiązanie bez błędu, w przeciwnym razie aproksymowana jest projekcja ortogonalna (błąd jest ortogonalny do p-ni bazowej).

ˆ ( ; ) ( )i ii

f wx w x

Page 11: Inteligencja Obliczeniowa Sieci RBF

Regularyzacja RBFRegularyzacja RBF

Człon regularyzacjny uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji.

Jeśli człon regularyzacyjny jest niezmienniczy translacyjnie i rotacyjnie to funkcja aproksymująca musi mieć postać radialną.

( ) ( ), i iX X X X

2

22ˆ

N

WW

i jR

F XPF dX

X X

Dowód: teoria aproksymacji zaszumionych danych, teoria f. Greena, teoria estymacji z Gaussowskimi jądrami.

Page 12: Inteligencja Obliczeniowa Sieci RBF

Rozwiązanie z regularyzacjąRozwiązanie z regularyzacjąRegularyzacja w teorii aproksymacji źle uwarunkowanych problemów: Tikhonov 1963. Stabilizacja przez dodatkowe warunki, operator P. Minimalizacja funkcji błędu z członem regularyzacyjnym

daje równanie Eulera-Lagrange’a dla funkcjonału kosztu E(F)

2

2( )

1

ˆ( )N

ii

i

E F F X Y PF X

† 1 ( ) ( )

1

ˆ ˆN

i ii

i

P PF X Y F X X X

Dla operatorów P w postaci różniczkowej:

2

2

0 1

ˆ ; ; ,K N

kk i i i

k i

PF X a F X F X WG X X

Page 13: Inteligencja Obliczeniowa Sieci RBF

Wpływ regularyzacjiWpływ regularyzacji

Duża liczba f. bazowych o małej dyspersji bez regularyzacji i po regularyzacji (Ossowski 1996)

Page 14: Inteligencja Obliczeniowa Sieci RBF

Funkcje radialneFunkcje radialne

Przykłady: lokalne i nie

2

2 2

2 2

( / )

2

( )

( ) , 0

( ) , 1 0

( )

( ) ( ) ln( )

i

r

h r r X X

h r r

h r r

h r e

h r r r

RadialnaInverse multiquadraticMultiquadraticGaussThin splines (cienkiej płytki)

Page 15: Inteligencja Obliczeniowa Sieci RBF

Funkcja GaussaFunkcja Gaussa

Jedyna lokalna i separowalna f. radialna

( ) 1 ( )2 2

1/2 2( )

Ti iX X X Xrh r e e

Page 16: Inteligencja Obliczeniowa Sieci RBF

Funkcja współrzędnej radialnejFunkcja współrzędnej radialnej

( )( ) iih r r X X

Page 17: Inteligencja Obliczeniowa Sieci RBF

Funkcje wielokwadratoweFunkcje wielokwadratowe

2 2

2 2

( ) , 1;

( ) , 1 / 2

h r r

h r r

Page 18: Inteligencja Obliczeniowa Sieci RBF

Funkcje cienkiej płytkiFunkcje cienkiej płytki

2( ) ( ) ln( )h r r r

Page 19: Inteligencja Obliczeniowa Sieci RBF

Sieci RBFSieci RBF

Jedna warstwa ukryta, parametry nieliniowe funkcji transferu + wagi łączące z warstwą wyjściową.

Sieci GRBF - mniejsza liczba węzłów niż danych.

Sieci HRBF - pełna macierz obrotów i skalowania Q:

2

( ) ( ) ( )Ti i T i

QX X X X Q Q X X

Q różne dla różnych centrów

Page 20: Inteligencja Obliczeniowa Sieci RBF

Uczenie sieci RBFUczenie sieci RBFParametry nieliniowe funkcji transferu: centra, dyspersje; + wagi.Inicjalizacja początkowych centrów: klasteryzacja lub samoorganizacja.Inicjalizacja dyspersji: średnie odległości od wektorów z innych klas.Uczenie - metody gradientowe, podobnie jak w BP.

Metoda probabilistyczna: jeśli rozkład równomierny, p. przynależności X do klastra o centrum Di i zakładamy diagonalne dyspersje to:

11

2|T

i i iX D X D

i ip D X X e

2( )

11

i k i i i

ik k i

k X X D k kk

X

( ) ( )1

1i k i i

ik k i

D k X X D kD k

X

Page 21: Inteligencja Obliczeniowa Sieci RBF

Inicjalizacja RBF 1Inicjalizacja RBF 1

• Algorytm inicjalizacji centrów przez klasteryzację: • Wybierz w przypadkowy sposób punkt początkowy, nie

należący do otoczenia już ustalonych centrów. • Utwórz zbiór wszystkich punktów z danej klasy leżących

bliżej niż punkty z innej klasy.• Przyjmij położenie centrum Di jako średnią dla punktów

znalezionego zbioru• Powtarzaj dwa ostatnie kroki aż do zbieżności

Inne metody klasteryzacji: dendrogramy, łączenie histogramów.

Page 22: Inteligencja Obliczeniowa Sieci RBF

Inicjalizacja RBF 2Inicjalizacja RBF 2Algorytm inicjalizacji centrów przez samoorganizację:• Wybierz w przypadkowy sposób punkt początkowy, nie

należący do otoczenia już ustalonych centrów. • Utwórz zbiór wszystkich punktów z danej klasy leżących bliżej

niż punkty z innej klasy.

• Zmieniaj położenie centrum Di po prezentacji każdego wektora

treningowego:

( )1 ki i k iD k D k X D k

Stała uczenia zanika w miarę wzrostu k, np. (T - stała l. epok)

0 / 1 /k k T

Przesuwanie centrów w jakimś promieniu - samoorganizacja.

Page 23: Inteligencja Obliczeniowa Sieci RBF

Uczenie - obroty i usuwanie.Uczenie - obroty i usuwanie.

Pełna macierz transformacji Q: za dużo parametrów dla danych o dużej l. cech; diagonalna - ustawienia wzdłuż osi.

22, i id X D Q X D

Obroty f. zlokalizowanych - przydatne;

wystarczy Qii0 i Qii+1 0,

realizuje dowolne obroty.

Inna metoda: iloczyn

Gauss * ((WX+b)(WX+b’))

Uproszczenie: kąt obrotu ustalony po inicjalizacji

Page 24: Inteligencja Obliczeniowa Sieci RBF

Konstruktywny RBF.Konstruktywny RBF.

GAL (Growing and Learning), GrRBF (Growing Radial Basis Function), FEN (Function Estimation Networks), RAN (Resource Allocation Networks)Klasyfikatory Gaussowskie, sieci probabilistyczne ...

Dwa kryteria wzrostu: duży błąd + brak centrum w okolicy, które ma szanse po modyfikacji ten błąd zmniejszyć.

( 1) ( )

( )min

; ,

min

n ii W

ik k

Y F X D

X D d

Page 25: Inteligencja Obliczeniowa Sieci RBF

RCERCE

Funkcje typu twardej sfery o zmiennym promieniu pokrywające całą przestrzeń.

Początkowo ri jak największe, w czasie uczenia są zmniejszane do połowy odległości z centrum odmiennej klasy i dostawiane są nowe sfery.

Niejednoznaczne obszary - kolor ciemnoczerwony.

Reduced Coulomb Energy model (Bachman, Cooper .. 1987)

Page 26: Inteligencja Obliczeniowa Sieci RBF

Porównanie MLP-RBFPorównanie MLP-RBF

MLPNielokalne, wymagają douczania

jeden rodzaj parametrów

trudna inicjalizacja

trudna interpretacja

ustalone klasy

uczenie tylko pod nadzorem

zawsze wie

BP dość skomplikowane dla wielu warstw

RBF

Lokalne efekty, stabilność

kilka rodzajów parametrów

łatwa inicjalizacja

tworzą nowe klasy

możliwe uczenie bez nadzoru

czasami nie wie

uczenie łatwe bo 1 warstwa

Page 27: Inteligencja Obliczeniowa Sieci RBF

Co dalej? Co dalej?

• Sieci Hopfielda

• Sieci Hebbowskie i modele mózgu

• Samoorganizacja

Page 28: Inteligencja Obliczeniowa Sieci RBF

Koniec wykładu 13Koniec wykładu 13

Dobranoc !