neuro 07
TRANSCRIPT
Sven LončarićNeuronske mreže: Radijalne mreže
7-1
Neuronske mreže:Radijalne mreže
Prof. dr. sc. Sven Lončarić
Fakultet elektrotehnike i rač[email protected]://ipg.zesoi.fer.hr
Pregled predavanja
� Uvod
� Coverov teorem o separabilnosti uzoraka� Problem interpolacije
� Interpolacija radijalnom mrežom
� Generalizirane radijalne mreže� Učenje pod nadzorom kao loše postavljeni problem
rekonstrukcije hiperplohe� Teorija regularizacije
� Regularizacijske mreže
� XOR problem
Pregled predavanja
� Usporedba višeslojnih i radijalnih mreža
� Strategije učenja� Diskusija
� Zadaci
Uvod
� Engl. radial-basis function (RBF) networks
� Kod višeslojnih mreža koje koriste BP algoritam učenje se interpretira kao problem optimizacije (minimizacije srednje kvadratne pogreške)
� Kod radijalnih mreža učenje se interpretira kao problem aproksimacije funkcije s više argumenata
� Funkcija koju treba aproksimirati je funkcija ulaz-izlaz definirana parovima za učenje
Struktura radijalne mreže
� Osnovna RBF mreža ima tri sloja:� ulazni sloj� skriveni sloj koji ima drugačiju ulogu nego kod višeslojnih
mreža� izlazni sloj
� Transformacija od ulaznog sloja do skrivenog sloja je nelinearna
� Transformacija od skrivenog sloja do izlaznog sloja je linearna
Struktura radijalne mreže
ulazni skriveni izlazni nelinearni linearni sloj sloj sloj
Sven LončarićNeuronske mreže: Radijalne mreže
7-2
Coverov teorem
� Kod upotrebe RBF mreža za probleme klasifikacije uzoraka problem se rješava nelinearnom transformacijom ulaznih uzoraka u prostor više dimenzije nego što je ulazni prostor
� Motivacija za ovaj postupak je Coverov teorem o separabilnosti uzoraka koji kaže:
Veća je vjerojatnost da nelinearno transformirani vektori u višedimenzionalnom prostoru budu linearno separabilni nego u originalnom nižedimenzionalnom prostoru
Coverov teorem - interpretacija
� Iz materijala o perceptronu poznato nam je da je problem klasifikacije jednostavan kad su uzorci linearno separabilni
� Interpretacija radijalne mreže kao klasifikatora:1. Skriveni sloj nelinearno transformira ulazne uzorke tako da
klase postanu linearno separabilne
2. Izlazni sloj je linearan i kao takav može obaviti klasifikaciju dvaju linearno separabilnih klasa
Coverov teorem
� Neka je X = { x1, x2, …, xN } skup ulaznih uzoraka gdje svaki uzorak pripada jednoj od dviju klasa X+ i X-
� Neka je ulazni vektor x p-dimenzionalan
� Formirajmo za svaki vektor x novi vektor:
� Tada vektor ϕ(x) preslikava ulazne vektore u novi M-dimenzionalni prostor
� Funkcija ϕi(x) zove se skrivena funkcija jer ima ulogu sličnu skrivenom neuronu u višeslojnoj mreži
TM )](,),(),([)( 21 xxxx ϕϕϕ K=ϕ
Coverov teorem
� Za dvije klase ulaznih uzoraka X+ i X- kaže se da su ϕ-separabilne ako postoji M-dimenzionalni vektor wtakav da vrijedi:
� Hiperravnina definirana jednadžbom
definira plohu razdvajanja u ϕ prostoru
−
+
∈<∈≥
X
XT
T
xxw
xxw
,0)(
,0)(
ϕϕ
0)( =xw ϕT
Coverov teorem
� Inverzna slika ove hiperravnine definira graničnu plohu u ulaznom prostoru (prostoru ulaznih uzoraka):
{ }0)(: =xwx ϕT
Primjer: XOR problem
� 0 XOR 0 = 0
� 1 XOR 1 = 0� 0 XOR 1 = 1
� 1 XOR 0 = 1
(0,0) (1,0)
(0,1)(1,1)
x1
x2
Sven LončarićNeuronske mreže: Radijalne mreže
7-3
Primjer: XOR problem
� Definirajmo skrivene funkcije kao:
� Ulazni vektori se preslikavaju u ϕ prostoru na slijedeći način
T
T
e
e
]0,0[,)(
]1,1[,)(
22
112
2
21
==ϕ==ϕ
−−
−−
tx
txtx
tx
Primjer: XOR problem
� Vidi se da su ulazni uzorci u novom prostoru linearno separabilni i problem se može rješiti linearnim klasifikatorom kao što je perceptron (izlazni sloj radijalne mreže)
(0,0) (1,0) (0,1)
(1,1) ϕ2
granica
1
1
ϕ1
Problem interpolacije
� Pretpostavimo da imamo mrežu s ulaznim, jednim skrivenim i izlaznim slojem s jednim neuronom
� Neka mreža realizira nelinearno preslikavanje od ulaza do skrivenog sloja i linearno preslikavanje od skrivenog do izlaznog sloja
� Sveukupno mreža realizira preslikavanje
� Ovo preslikavanje može se prikazati kao ploha
RRs p →:
1+⊂Γ pR
Problem interpolacije
� Treniranje mreže može se onda shvatiti kao optimizacija aproksimacijske funkcije koja bi trebala biti što sličnija željenoj plohi Γ koja je određena pomoću parova za učenje ulaz-izlaz
� Faza generalizacije je ekvivalentna interpolaciji između zadanih točaka ulaz-izlaz
� Ovo vodi na teoriju multivarijabilne interpolacije u okviru koje se problem interpolacije postavlja na sljedeći način
Problem interpolacije
� Uz dani skup od N točaka
i korespondentni skup od N realnih brojeva
treba naći funkciju
takvu da zadovoljava uvjet interpolacijeRRF p →:
{ }NiR pi ,,2,1| K=∈x
{ }NiRdi ,,2,1| K=∈
NidF ii ,,2,1,)( K==x
Interpolacija radijalnom mrežom
� Radijalne mreže koriste interpolacijsku tehniku gdje funkcija F ima slijedeću formu:
gdje je
skup proizvoljnih (nelinearnih) funkcija koje se zovu radijalne funkcije (engl. radial-basis functions)
� Poznati uzorci xi se uzimaju kao centri radijalnih funkcija
( )∑=
−=N
iiiwF
1
)( xxx ϕ
( ){ }Nii ,,2,1| K=− xxϕ
Sven LončarićNeuronske mreže: Radijalne mreže
7-4
Interpolacija radijalnom mrežom
� Ako uvjet interpolacije izrazimo pomoću izraza za radijalne funkcije dobivamo:
gdje je
=
NNNNNN
N
N
d
d
d
w
w
w
MM
L
MMMM
L
L
2
1
2
1
21
22221
11211
ϕϕϕ
ϕϕϕϕϕϕ
Nijijji ,,2,1,),( K=−= xxϕϕ
Interpolacija radijalnom mrežom
� Neka su d i w vektor željenog odziva i vektor težina:
� Neka je Φ matrica dimenzija N×N s elementima ϕij:
� Ova matrica zove se interpolacijska matrica
� Ranije dobiveni sustav jednadžbi možemo pisati u obliku:
[ ][ ]T
N
TN
www
ddd
,,,
,,,
21
21
K
K
==
w
d
{ } Nijji ,,2,1,, K== ϕΦ
dΦw =
Interpolacija radijalnom mrežom
� Pretpostavimo da su x1, …, xN različiti vektori.
� Promatrajmo klasu radijalnih funkcija koje imaju svojstvo da je pripadna interpolacijska matrica Φpozitivno definitna
� Primjeri ovakvih radijalnih funkcija (najćešće korišteni) su:
0,0,)(
1)( 2/122 ≥>
+= rc
crrϕ
0,0,2
exp)( 2
2
≥>
−= r
rr σ
σϕ
Interpolacija radijalnom mrežom
� Istraživanja su pokazala da izbor nelinearne funkcije nije kritičan
� Budući da je matrica Φ pozitivno definitna postoji inverzna matrica i nepoznati vektor težina možemo dobiti kao:
� Iako danu jednadžbu teoretski uvijek možemo riješiti u praksi imamo poteškoća s nalaženjem inverzne matrice ako je matrica Φ blizu singularnoj matrici
� Ovaj problem se može riješiti uz pomoć teorije regularizacije
dΦw 1−=
Interpolacija radijalnom mrežom
� i-ti neuron skrivenog sloja realizira funkciju ϕ(||x-xi||)
� Izlazni neuron računa linearnu kombinaciju svojih ulaza
ulazni skriveni izlazni sloj sloj sloj
w1
wN
F(x)
x1
xp
ϕ(||x-x1||)
ϕ(||x-xN||)
Generalizirana radijalna mreža
� Iz ranije izloženoga vidi se da za svaki ulazni uzorak xi trebamo jedan neuron u skrivenom sloju
� Za veliki broj ulaznih uzoraka to postaje problem� U tom slučaju može se koristiti umjesto N samo
M << N radijalnih funkcija
∑=
−=M
iiiwF
1
)()( xxx ϕ
Sven LončarićNeuronske mreže: Radijalne mreže
7-5
Generalizirana radijalna mreža
� Dobivena matrica Φ u ovom slučaju ima dimenzije N×M tako da inverzna matrica ne postoji
� Težine za ovaj slučaj možemo naći pomoću pseudoinverzne matrice od Φ
dΦΦΦdΦw TT 1)( −+ ==
Modifikacije
� Osim da se koristi M<<N moguće su i druge modifikacije osnovne ideje radijalnih mreža:
1. Centri radijalnih funkcija ne moraju biti određeni vrijednostima ulaznih vektora nego mogu imati i neke druge vrijednosti
2. Ako se koriste npr. Gausove funkcije, svaka funkcija može imati različiti parametar širine σ3. Izlaznom neuronu se može dodati i prag
� Svi ovi nepoznati parametri se moraju onda odrediti u procesu učenja
Učenje kao inverzni problem
� Učenje se može shvatiti kao problem rekonstrukcije plohe koja je definirana skupom točaka koje mogu biti i jako razmaknute
� Gledajući na taj način učenje je inverzni problem (poznato je nekoliko parova točaka ulaz-izlaz, a treba odrediti funkciju F tj. cijelu plohu)
� Inverzni problem može biti dobro postavljen (engl. well-posed) i loše postavljen (engl. ill-posed)
� Pretpostavimo da imamo nepoznato preslikavanje
gdje je X domena, a Y kodomena
YXF →:
Dobro postavljen problem
� Definicija: Problem rekonstrukcije funkcije F je dobro postavljen ako su zadovoljena slijedeća tri uvjeta:1. Egzistencija: za svaki ulaz x postoji izlaz y=F(x)
2. Injektivnost: F(x)=F(t) ako i samo ako x=t3. Kontinuiranost:
gdje su ρx i ρy mjere za udaljenost između vektora
ερδρεδδε <⇒<=∃>∀ ))(),((),(|)(,0 txtx FFyx
Loše postavljen problem
� Definicija: Problem rekonstrukcije funkcije F je loše postavljen onda i samo onda ako nije dobro postavljen
Učenje pod nadzorom
� Učenje pod nadzorom je loše postavljen problem rekonstrukcije željene plohe:
1. Nema dovoljno informacija u primjerima za učenje tako da injektivnost ne vrijedi
2. Zbog šuma i nepreciznosti ne vrijedi ni uvjet kontinuiranosti ni egzistencije
� Da bi problem učenja postao dobro postavljen potrebno je imati neko dodatno a priori znanje o preslikavanju F
� Takvo znanje može biti sadržano u redundantnosti uzoraka za učenje
Sven LončarićNeuronske mreže: Radijalne mreže
7-6
Teorija regularizacije
� Tikhonov, 1963
� Teorija regularizacije omogućuje nalaženje rješenja za loše postavljene inverzne probleme
� Ideja regularizacije je da stabilizira rješenje dodatnim funkcionalom koji sadrži u sebi a priori informaciju o preslikavanju F (npr. kontinuiranost)
� Na taj način se loše postavljeni problem pretvara u dobro postavljeni problem
� Nepoznata funkcija F se određuje minimizacijom funkcije cijene E(F) koja se sastoji od dva člana
Teorija regularizacije
� Standardni član pogreške mjeri pogrešku između željenog odziva i dobivenog odziva za neku funkciju F
� Član za regularizaciju ovisi o geometrijskim svojstvima funkcije F
gdje je P linearni diferencijalni operator
∑=
−=N
iiis FdFE
1
2)]([2
1)( x
2
21
)( FFEc P=
Rješenje problema
� Princip regularizacije je minimizirati funkciju definiranu izrazom
� Za određeni izbor operatora P može se izračunati optimalna vrijednost funkcije F koja ima formu:
gdje funkcija G (. ; .) ovisi o izboru operatora P
)()()( FEFEFE cs λ+=
∑=
=N
iiiGwF
1
);()( xxx
Rješenje problema
� U slučaju da je operator P invarijantan na pomak funkcija G je radijalna funkcija:
∑=
−=N
iiiGwF
1
)()( xxx
Regularizacijske mreže
� Zaključak: Regularizacija problema interpolacije dovodi do radijalnih mreža kao rješenja
� Radijalne mreže su arhitektura koja omogućuje rješenje interpolacijskog problema korištenjem teorije regularizacije
Radijalna mreža
� Skriveni sloj daje vrijednosti funkcija G(||x - xi||)
� Izlazni sloj realizira linearnu kombinaciju
ulazni skriveni izlazni sloj sloj sloj
w1
wN
F(x)
x1
xp
Sven LončarićNeuronske mreže: Radijalne mreže
7-7
� Kao radijalnu funkciju koristimo:
gdje su centri t1=[1 1]T i t2=[0 0]T
� Izlazni neuron ima i prag b da bi mreža mogla lakše naučiti željenu funkciju
( ) ( ) 2,1,exp2 =−=− iG ii txtx
Primjer: XOR problem Primjer: XOR problem
� Struktura RBF mreže prikazana je na slici:
w1
w2
+1 bx1
x2
y
Primjer: XOR problem
� Odnos ulaz-izlaz ima oblik:
� Da bi mreža naučila zadane primjere za učenje treba vrijediti:
� Neka je:
( ) bGwyi
ii +−=∑=
2
1
)( txx
4,3,2,1,)( == jdy jjx
( ) 2,1;4,3,2,1, ==−= ijGg ijji tx
Primjer: XOR problem
� Tada dobivamo sustav jednadžbi u matričnoj formi: Gw=d gdje je:
=
=
137,037,0
1113,0
137,037,0
113,01
1
1
1
1
4241
3231
2221
1211
gg
gg
gg
gg
G
[ ]Tbww 21=w
[ ]T0101=d
Primjer: XOR problem
� Ovaj sustav jednadžbi je predeterminiran jer ima više jednadžbi nego nepoznanica
� Zbog toga matrica G nije kvadratna� Rješenje nalazimo pomoću pseudoinverzne matrice:
w = G+ d = (GT G)–1 GT
� Rješenje je w = [2.28 2,28 –1,7]T
� Prve dvije dobivene težine su jednake zbog simetrije problema
Usporedba RBF i višeslojnih mreža
1. RBF mreža ima jedan skriveni sloj dok perceptron može imati i više slojeva
2. Svi neuroni perceptrona obično imaju isti model dok su skriveni neuroni RBF mreže različiti i imaju drugu ulogu
3. Skriveni sloj RBF mreže je nelinearan, a izlazni linearan, kod perceptrona svi su neuroni nelinearni
4. Argument aktivacijske funkcije kod RBF mreže je udaljenost između ulaznog vektora i centra, a kod perceptrona argument aktivacijske funkcije je skalarni produkt ulaznog vektora i vektora težine.
Sven LončarićNeuronske mreže: Radijalne mreže
7-8
Strategije učenja
� Postoji više različitih strategija učenja kod radijalnih mreža
� Neke od mogućih strategija su:
1. Fiksni centri koji su slučajno odabrani
2. Samo-organizirani odabir centara3. Odabir centara pod nadzorom
Fiksni centri
� U ovom pristupu centri RBF funkcija postavljeni su na unaprijed određene lokacije ti
gdje je M broj centara, a d je maksimalna udaljenost izmedu centara
� Standardna devijacija Gausovih funkcija jednaka je
( ) Mid
MG ii ,,2,1,exp
2
2K=
−−=− txtx
M
d
2=σ
Fiksni centri
� Ovakav odabir standardne devijacije garantira da Gausove funkcije neće biti niti preuske ni preširoke
� Jedine nepoznanice koje se trebaju odrediti procesom učenja su težine w
� Težine se mogu odrediti pseudoinverznom metodom:
gdje je matrica G={gji} i
dGw +=
MiNjd
Mg ijji ,,1;,,1,exp
2
2 KK ==
−−= tx
Samo-organizirani centri
� U ovom pristupu centri radijalnih funkcija se mogu pomicati na samoorganizirani način
� Samoorganizacija omogućuje da se centri funkcija postave samo u područjima gdje ima puno ulaznih vektora
Samo-organizirani centri
� Položaji centara mogu se računati algoritmom grupiranja s K srednjih vrijednosti
� Iznosi težina w se računaju kroz proces učenja pod nadzorom
� Za učenje pod nadzorom može se koristiti LMS algoritam
� Izlazi skrivenih neurona služe kao ulazi za LMS algoritam učenja
Učenje pod nadzorom
� Ovo je najopćenitiji slučaj gdje se svi slobodni parametri mreže određuju učenjem pod nadzorom (korekcijom pogreške)
� U ovom pristupu promatramo pogrešku mreže za sve parove ulaz-izlaz:
gdje je N broj parova za učenje, a ej signal pogreške
∑=
=N
jjeE
1
2
2
1
Sven LončarićNeuronske mreže: Radijalne mreže
7-9
Učenje pod nadzorom
� Pogreška ej definirana je kao:
gdje je:
a matrica A je pozitivno definitna matrica
( )∑=
−−=
−=M
iAijij
jjj
Gwd
Fde
1
)(
tx
x
AzzzzzAA
T== ,2
Učenje pod nadzorom
� U ovom pristupu slobodni parametri koje treba odrediti da bi se minimizirala pogreška su:
� težine wi
� centri radijalnih funkcija ti
� matrica skalarnog produkta A� Iterativnom metodom najbržeg spusta izvode se
korekcije gornjih parametara
Učenje pod nadzorom
� Eksperimenti su pokazali da:
1. Radijalna mreža s samo-organizirajućim centrima i učenjem izlaznih težina pod nadzorom ima lošija svojstva generalizacije od višeslojnog perceptrona
2. Generalizirane RBF mreže gdje se svi parametri određuju učenjem pod nadzorom imaju bolja svojstva generalizacije
Primjene radijalnih mreža
� Obrada slike
� Prepoznavanje govora� Adaptivna ekvalizacija
� Medicinska dijagnostika
� Lokalizacija izvora kod radara� Analiza stohastičkih signala
Zadaci
� Zadatak 7.3
� Težine w dobivene u primjeru za rješenje XOR problema predstavljaju samo jednu moguću realizaciju
� Naći alternativne vrijednosti težina w za rješenje XOR problema