inteligencja obliczeniowa sieci rbf

Inteligencja ObliczeniowaInteligencja ObliczeniowaSieci RBF. Sieci RBF.

Wykład 13

Włodzisław Duch

Uniwersytet Mikołaja Kopernika

Google: W. Duch

Co byłoCo było

• Algorytmy konstruktywistyczne

• Przykłady zastosowań sieci MLP

Co będzieCo będzie

• Teoria aproksymacji

• Funkcje radialne

• Sieci RBF

Filozofia RBFFilozofia RBF

MLP - dyskryminacja, LDA, aproksymacja stochastyczna.

RBF = Radial Basis Functions (1988) - inne podejście.Uczenie jako problem aproksymacji, najlepszego dopasowania (rekonstrukcji) hiperpowierzchni do danych treningowych.

• Twierdzenie (Cover 1965): Jeśli przekształcić wzorce X={X(i)}, i=1.. p, nieliniową funkcją na wektory (X(i))={h(X(i))k}, k = 1..M, M > p wzorce prawdopodobnie staną się liniowo separowalne: tj. istnieje płaszczyzna

WT (X(i)) 0 dla X(i)C1,

WT (X(i)) <0 dla X(i)C2

Separowalność wielomianowaSeparowalność wielomianowa

Jeśli wziąć funkcje wielomianowe:

1 2 1 1

1 2

...0 ...

r

r

A i i i i i iri i i p

X A X X X

to zamiast sep. liniowej mamy sep. wielomianową.

Functional Link Networks (Pao), SVM i Kernel Methods: optymalizacja nieliniowego przekształcenia.

Functional link networksFunctional link networksPao (1989) - sieci połączeń funkcjonalnych.Model tensorowy: do zmiennych wejściowych należy dodać ich iloczyny, to rozwiązuje nieliniowo sep. problemy.Separacja kwadratowaProblem: za dużo parametrów. Realizacja: sieć perceptronów z dodatkowymi wejściamilub sieć z jedną warstwą ukrytą realizująca nieliniowe mapowanie.

Uczenie jako problem aproksymacjiUczenie jako problem aproksymacji

Dla N punktów znajdź funkcję spełniającą:

( )

1

Ki

W ii

F X W h X X

Postać funkcji RBF:

2 2( )

1

ˆN

iW i W W

i

E F Y F X PF

Funkcja błędu z członem regularyzacyjnym:

( ) , 1..iW iF X Y i N

( ) 1,i piX R Y R

Funkcja RBFFunkcja RBF

Człon regularyzacjny: uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji.

( )

1

Ki

W ii

F X W h X X

Postać funkcji RBF:

2 2( ) ( )

1

ˆN

i iW W W

i

E F Y F X PF

Funkcja błędu z członem regularyzacyjnym:

( ) ( ) , 1..i iWF X Y i N

Rozwiązanie RBFRozwiązanie RBFJeden węzeł sieci na jeden wektor treningowy, bez regularyzacji.

Dla wąskich f. Gaussowskich hij =ij, wagi Wi =Yi , idealne rozwiązanie, ale zła generalizacja. H - macierz interpolacji. Radialne f. bazowe: H dodatnio określona (Light 1992). Większe dyspersje, mniej funkcji - lepsza generalizacja.

11 12 1 1 1

( ) ( )21 22 2 2 2

1

1 2

;

Ni j

N ij

N N NN N N

h h h W Y

h h h W Y h h X X

h h h W Y

W H Y

Interpretacja geometrycznaInterpretacja geometryczna

Jeśli prawdziwa aproksymowana funkcja f(x) leży w przestrzeni rozpiętej przez wektory bazowe (x) to możliwe jest rozwiązanie bez błędu, w przeciwnym razie aproksymowana jest projekcja ortogonalna (błąd jest ortogonalny do p-ni bazowej).

ˆ ( ; ) ( )i ii

f wx w x

Regularyzacja RBFRegularyzacja RBF

Człon regularyzacjny uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji.

Jeśli człon regularyzacyjny jest niezmienniczy translacyjnie i rotacyjnie to funkcja aproksymująca musi mieć postać radialną.

( ) ( ), i iX X X X

2

22ˆ

N

WW

i jR

F XPF dX

X X

Dowód: teoria aproksymacji zaszumionych danych, teoria f. Greena, teoria estymacji z Gaussowskimi jądrami.

Rozwiązanie z regularyzacjąRozwiązanie z regularyzacjąRegularyzacja w teorii aproksymacji źle uwarunkowanych problemów: Tikhonov 1963. Stabilizacja przez dodatkowe warunki, operator P. Minimalizacja funkcji błędu z członem regularyzacyjnym

daje równanie Eulera-Lagrange’a dla funkcjonału kosztu E(F)

2

2( )

1

ˆ( )N

ii

i

E F F X Y PF X

† 1 ( ) ( )

1

ˆ ˆN

i ii

i

P PF X Y F X X X

Dla operatorów P w postaci różniczkowej:

2

2

0 1

ˆ ; ; ,K N

kk i i i

k i

PF X a F X F X WG X X

Wpływ regularyzacjiWpływ regularyzacji

Duża liczba f. bazowych o małej dyspersji bez regularyzacji i po regularyzacji (Ossowski 1996)

Funkcje radialneFunkcje radialne

Przykłady: lokalne i nie

2

2 2

2 2

( / )

2

( )

( ) , 0

( ) , 1 0

( )

( ) ( ) ln( )

i

r

h r r X X

h r r

h r r

h r e

h r r r

RadialnaInverse multiquadraticMultiquadraticGaussThin splines (cienkiej płytki)

Funkcja GaussaFunkcja Gaussa

Jedyna lokalna i separowalna f. radialna

( ) 1 ( )2 2

1/2 2( )

Ti iX X X Xrh r e e

Funkcja współrzędnej radialnejFunkcja współrzędnej radialnej

( )( ) iih r r X X

Funkcje wielokwadratoweFunkcje wielokwadratowe

2 2

2 2

( ) , 1;

( ) , 1 / 2

h r r

h r r

Funkcje cienkiej płytkiFunkcje cienkiej płytki

2( ) ( ) ln( )h r r r

Sieci RBFSieci RBF

Jedna warstwa ukryta, parametry nieliniowe funkcji transferu + wagi łączące z warstwą wyjściową.

Sieci GRBF - mniejsza liczba węzłów niż danych.

Sieci HRBF - pełna macierz obrotów i skalowania Q:

2

( ) ( ) ( )Ti i T i

QX X X X Q Q X X

Q różne dla różnych centrów

Uczenie sieci RBFUczenie sieci RBFParametry nieliniowe funkcji transferu: centra, dyspersje; + wagi.Inicjalizacja początkowych centrów: klasteryzacja lub samoorganizacja.Inicjalizacja dyspersji: średnie odległości od wektorów z innych klas.Uczenie - metody gradientowe, podobnie jak w BP.

Metoda probabilistyczna: jeśli rozkład równomierny, p. przynależności X do klastra o centrum Di i zakładamy diagonalne dyspersje to:

11

2|T

i i iX D X D

i ip D X X e

2( )

11

i k i i i

ik k i

k X X D k kk

X

( ) ( )1

1i k i i

ik k i

D k X X D kD k

X

Inicjalizacja RBF 1Inicjalizacja RBF 1

• Algorytm inicjalizacji centrów przez klasteryzację: • Wybierz w przypadkowy sposób punkt początkowy, nie

należący do otoczenia już ustalonych centrów. • Utwórz zbiór wszystkich punktów z danej klasy leżących

bliżej niż punkty z innej klasy.• Przyjmij położenie centrum Di jako średnią dla punktów

znalezionego zbioru• Powtarzaj dwa ostatnie kroki aż do zbieżności

Inne metody klasteryzacji: dendrogramy, łączenie histogramów.

Inicjalizacja RBF 2Inicjalizacja RBF 2Algorytm inicjalizacji centrów przez samoorganizację:• Wybierz w przypadkowy sposób punkt początkowy, nie

należący do otoczenia już ustalonych centrów. • Utwórz zbiór wszystkich punktów z danej klasy leżących bliżej

niż punkty z innej klasy.

• Zmieniaj położenie centrum Di po prezentacji każdego wektora

treningowego:

( )1 ki i k iD k D k X D k

Stała uczenia zanika w miarę wzrostu k, np. (T - stała l. epok)

0 / 1 /k k T

Przesuwanie centrów w jakimś promieniu - samoorganizacja.

Uczenie - obroty i usuwanie.Uczenie - obroty i usuwanie.

Pełna macierz transformacji Q: za dużo parametrów dla danych o dużej l. cech; diagonalna - ustawienia wzdłuż osi.

22, i id X D Q X D

Obroty f. zlokalizowanych - przydatne;

wystarczy Qii0 i Qii+1 0,

realizuje dowolne obroty.

Inna metoda: iloczyn

Gauss * ((WX+b)(WX+b’))

Uproszczenie: kąt obrotu ustalony po inicjalizacji

Konstruktywny RBF.Konstruktywny RBF.

GAL (Growing and Learning), GrRBF (Growing Radial Basis Function), FEN (Function Estimation Networks), RAN (Resource Allocation Networks)Klasyfikatory Gaussowskie, sieci probabilistyczne ...

Dwa kryteria wzrostu: duży błąd + brak centrum w okolicy, które ma szanse po modyfikacji ten błąd zmniejszyć.

( 1) ( )

( )min

; ,

min

n ii W

ik k

Y F X D

X D d

RCERCE

Funkcje typu twardej sfery o zmiennym promieniu pokrywające całą przestrzeń.

Początkowo ri jak największe, w czasie uczenia są zmniejszane do połowy odległości z centrum odmiennej klasy i dostawiane są nowe sfery.

Niejednoznaczne obszary - kolor ciemnoczerwony.

Reduced Coulomb Energy model (Bachman, Cooper .. 1987)

Porównanie MLP-RBFPorównanie MLP-RBF

MLPNielokalne, wymagają douczania

jeden rodzaj parametrów

trudna inicjalizacja

trudna interpretacja

ustalone klasy

uczenie tylko pod nadzorem

zawsze wie

BP dość skomplikowane dla wielu warstw

RBF

Lokalne efekty, stabilność

kilka rodzajów parametrów

łatwa inicjalizacja

tworzą nowe klasy

możliwe uczenie bez nadzoru

czasami nie wie

uczenie łatwe bo 1 warstwa

Co dalej? Co dalej?

• Sieci Hopfielda

• Sieci Hebbowskie i modele mózgu

• Samoorganizacja

Koniec wykładu 13Koniec wykładu 13

Dobranoc !

inteligencja obliczeniowa sieci rbf

Documents