inteligencja obliczeniowa sieci rbf
DESCRIPTION
Inteligencja Obliczeniowa Sieci RBF. Wykład 13 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch. Algorytmy konstruktywistyczne Przykłady zastosowań sieci MLP. Co było. Teoria aproksymacji Funkcje radialne Sieci RBF. Co będzie. Filozofia RBF. - PowerPoint PPT PresentationTRANSCRIPT
Inteligencja ObliczeniowaInteligencja ObliczeniowaSieci RBF. Sieci RBF.
Wykład 13
Włodzisław Duch
Uniwersytet Mikołaja Kopernika
Google: W. Duch
Co byłoCo było
• Algorytmy konstruktywistyczne
• Przykłady zastosowań sieci MLP
Co będzieCo będzie
• Teoria aproksymacji
• Funkcje radialne
• Sieci RBF
Filozofia RBFFilozofia RBF
MLP - dyskryminacja, LDA, aproksymacja stochastyczna.
RBF = Radial Basis Functions (1988) - inne podejście.Uczenie jako problem aproksymacji, najlepszego dopasowania (rekonstrukcji) hiperpowierzchni do danych treningowych.
• Twierdzenie (Cover 1965): Jeśli przekształcić wzorce X={X(i)}, i=1.. p, nieliniową funkcją na wektory (X(i))={h(X(i))k}, k = 1..M, M > p wzorce prawdopodobnie staną się liniowo separowalne: tj. istnieje płaszczyzna
WT (X(i)) 0 dla X(i)C1,
WT (X(i)) <0 dla X(i)C2
Separowalność wielomianowaSeparowalność wielomianowa
Jeśli wziąć funkcje wielomianowe:
1 2 1 1
1 2
...0 ...
r
r
A i i i i i iri i i p
X A X X X
to zamiast sep. liniowej mamy sep. wielomianową.
Functional Link Networks (Pao), SVM i Kernel Methods: optymalizacja nieliniowego przekształcenia.
Functional link networksFunctional link networksPao (1989) - sieci połączeń funkcjonalnych.Model tensorowy: do zmiennych wejściowych należy dodać ich iloczyny, to rozwiązuje nieliniowo sep. problemy.Separacja kwadratowaProblem: za dużo parametrów. Realizacja: sieć perceptronów z dodatkowymi wejściamilub sieć z jedną warstwą ukrytą realizująca nieliniowe mapowanie.
Uczenie jako problem aproksymacjiUczenie jako problem aproksymacji
Dla N punktów znajdź funkcję spełniającą:
( )
1
Ki
W ii
F X W h X X
Postać funkcji RBF:
2 2( )
1
ˆN
iW i W W
i
E F Y F X PF
Funkcja błędu z członem regularyzacyjnym:
( ) , 1..iW iF X Y i N
( ) 1,i piX R Y R
Funkcja RBFFunkcja RBF
Człon regularyzacjny: uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji.
( )
1
Ki
W ii
F X W h X X
Postać funkcji RBF:
2 2( ) ( )
1
ˆN
i iW W W
i
E F Y F X PF
Funkcja błędu z członem regularyzacyjnym:
( ) ( ) , 1..i iWF X Y i N
Rozwiązanie RBFRozwiązanie RBFJeden węzeł sieci na jeden wektor treningowy, bez regularyzacji.
Dla wąskich f. Gaussowskich hij =ij, wagi Wi =Yi , idealne rozwiązanie, ale zła generalizacja. H - macierz interpolacji. Radialne f. bazowe: H dodatnio określona (Light 1992). Większe dyspersje, mniej funkcji - lepsza generalizacja.
11 12 1 1 1
( ) ( )21 22 2 2 2
1
1 2
;
Ni j
N ij
N N NN N N
h h h W Y
h h h W Y h h X X
h h h W Y
W H Y
Interpretacja geometrycznaInterpretacja geometryczna
Jeśli prawdziwa aproksymowana funkcja f(x) leży w przestrzeni rozpiętej przez wektory bazowe (x) to możliwe jest rozwiązanie bez błędu, w przeciwnym razie aproksymowana jest projekcja ortogonalna (błąd jest ortogonalny do p-ni bazowej).
ˆ ( ; ) ( )i ii
f wx w x
Regularyzacja RBFRegularyzacja RBF
Człon regularyzacjny uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji.
Jeśli człon regularyzacyjny jest niezmienniczy translacyjnie i rotacyjnie to funkcja aproksymująca musi mieć postać radialną.
( ) ( ), i iX X X X
2
22ˆ
N
WW
i jR
F XPF dX
X X
Dowód: teoria aproksymacji zaszumionych danych, teoria f. Greena, teoria estymacji z Gaussowskimi jądrami.
Rozwiązanie z regularyzacjąRozwiązanie z regularyzacjąRegularyzacja w teorii aproksymacji źle uwarunkowanych problemów: Tikhonov 1963. Stabilizacja przez dodatkowe warunki, operator P. Minimalizacja funkcji błędu z członem regularyzacyjnym
daje równanie Eulera-Lagrange’a dla funkcjonału kosztu E(F)
2
2( )
1
ˆ( )N
ii
i
E F F X Y PF X
† 1 ( ) ( )
1
ˆ ˆN
i ii
i
P PF X Y F X X X
Dla operatorów P w postaci różniczkowej:
2
2
0 1
ˆ ; ; ,K N
kk i i i
k i
PF X a F X F X WG X X
Wpływ regularyzacjiWpływ regularyzacji
Duża liczba f. bazowych o małej dyspersji bez regularyzacji i po regularyzacji (Ossowski 1996)
Funkcje radialneFunkcje radialne
Przykłady: lokalne i nie
2
2 2
2 2
( / )
2
( )
( ) , 0
( ) , 1 0
( )
( ) ( ) ln( )
i
r
h r r X X
h r r
h r r
h r e
h r r r
RadialnaInverse multiquadraticMultiquadraticGaussThin splines (cienkiej płytki)
Funkcja GaussaFunkcja Gaussa
Jedyna lokalna i separowalna f. radialna
( ) 1 ( )2 2
1/2 2( )
Ti iX X X Xrh r e e
Funkcja współrzędnej radialnejFunkcja współrzędnej radialnej
( )( ) iih r r X X
Funkcje wielokwadratoweFunkcje wielokwadratowe
2 2
2 2
( ) , 1;
( ) , 1 / 2
h r r
h r r
Funkcje cienkiej płytkiFunkcje cienkiej płytki
2( ) ( ) ln( )h r r r
Sieci RBFSieci RBF
Jedna warstwa ukryta, parametry nieliniowe funkcji transferu + wagi łączące z warstwą wyjściową.
Sieci GRBF - mniejsza liczba węzłów niż danych.
Sieci HRBF - pełna macierz obrotów i skalowania Q:
2
( ) ( ) ( )Ti i T i
QX X X X Q Q X X
Q różne dla różnych centrów
Uczenie sieci RBFUczenie sieci RBFParametry nieliniowe funkcji transferu: centra, dyspersje; + wagi.Inicjalizacja początkowych centrów: klasteryzacja lub samoorganizacja.Inicjalizacja dyspersji: średnie odległości od wektorów z innych klas.Uczenie - metody gradientowe, podobnie jak w BP.
Metoda probabilistyczna: jeśli rozkład równomierny, p. przynależności X do klastra o centrum Di i zakładamy diagonalne dyspersje to:
11
2|T
i i iX D X D
i ip D X X e
2( )
11
i k i i i
ik k i
k X X D k kk
X
( ) ( )1
1i k i i
ik k i
D k X X D kD k
X
Inicjalizacja RBF 1Inicjalizacja RBF 1
• Algorytm inicjalizacji centrów przez klasteryzację: • Wybierz w przypadkowy sposób punkt początkowy, nie
należący do otoczenia już ustalonych centrów. • Utwórz zbiór wszystkich punktów z danej klasy leżących
bliżej niż punkty z innej klasy.• Przyjmij położenie centrum Di jako średnią dla punktów
znalezionego zbioru• Powtarzaj dwa ostatnie kroki aż do zbieżności
Inne metody klasteryzacji: dendrogramy, łączenie histogramów.
Inicjalizacja RBF 2Inicjalizacja RBF 2Algorytm inicjalizacji centrów przez samoorganizację:• Wybierz w przypadkowy sposób punkt początkowy, nie
należący do otoczenia już ustalonych centrów. • Utwórz zbiór wszystkich punktów z danej klasy leżących bliżej
niż punkty z innej klasy.
• Zmieniaj położenie centrum Di po prezentacji każdego wektora
treningowego:
( )1 ki i k iD k D k X D k
Stała uczenia zanika w miarę wzrostu k, np. (T - stała l. epok)
0 / 1 /k k T
Przesuwanie centrów w jakimś promieniu - samoorganizacja.
Uczenie - obroty i usuwanie.Uczenie - obroty i usuwanie.
Pełna macierz transformacji Q: za dużo parametrów dla danych o dużej l. cech; diagonalna - ustawienia wzdłuż osi.
22, i id X D Q X D
Obroty f. zlokalizowanych - przydatne;
wystarczy Qii0 i Qii+1 0,
realizuje dowolne obroty.
Inna metoda: iloczyn
Gauss * ((WX+b)(WX+b’))
Uproszczenie: kąt obrotu ustalony po inicjalizacji
Konstruktywny RBF.Konstruktywny RBF.
GAL (Growing and Learning), GrRBF (Growing Radial Basis Function), FEN (Function Estimation Networks), RAN (Resource Allocation Networks)Klasyfikatory Gaussowskie, sieci probabilistyczne ...
Dwa kryteria wzrostu: duży błąd + brak centrum w okolicy, które ma szanse po modyfikacji ten błąd zmniejszyć.
( 1) ( )
( )min
; ,
min
n ii W
ik k
Y F X D
X D d
RCERCE
Funkcje typu twardej sfery o zmiennym promieniu pokrywające całą przestrzeń.
Początkowo ri jak największe, w czasie uczenia są zmniejszane do połowy odległości z centrum odmiennej klasy i dostawiane są nowe sfery.
Niejednoznaczne obszary - kolor ciemnoczerwony.
Reduced Coulomb Energy model (Bachman, Cooper .. 1987)
Porównanie MLP-RBFPorównanie MLP-RBF
MLPNielokalne, wymagają douczania
jeden rodzaj parametrów
trudna inicjalizacja
trudna interpretacja
ustalone klasy
uczenie tylko pod nadzorem
zawsze wie
BP dość skomplikowane dla wielu warstw
RBF
Lokalne efekty, stabilność
kilka rodzajów parametrów
łatwa inicjalizacja
tworzą nowe klasy
możliwe uczenie bez nadzoru
czasami nie wie
uczenie łatwe bo 1 warstwa
Co dalej? Co dalej?
• Sieci Hopfielda
• Sieci Hebbowskie i modele mózgu
• Samoorganizacja
Koniec wykładu 13Koniec wykładu 13
Dobranoc !