neuro 07

Sven LončarićNeuronske mreže: Radijalne mreže

7-1

Neuronske mreže:Radijalne mreže

Prof. dr. sc. Sven Lončarić

Fakultet elektrotehnike i rač[email protected]://ipg.zesoi.fer.hr

Pregled predavanja

� Uvod

� Coverov teorem o separabilnosti uzoraka� Problem interpolacije

� Interpolacija radijalnom mrežom

� Generalizirane radijalne mreže� Učenje pod nadzorom kao loše postavljeni problem

rekonstrukcije hiperplohe� Teorija regularizacije

� Regularizacijske mreže

� XOR problem

Pregled predavanja

� Usporedba višeslojnih i radijalnih mreža

� Strategije učenja� Diskusija

� Zadaci

Uvod

� Engl. radial-basis function (RBF) networks

� Kod višeslojnih mreža koje koriste BP algoritam učenje se interpretira kao problem optimizacije (minimizacije srednje kvadratne pogreške)

� Kod radijalnih mreža učenje se interpretira kao problem aproksimacije funkcije s više argumenata

� Funkcija koju treba aproksimirati je funkcija ulaz-izlaz definirana parovima za učenje

Struktura radijalne mreže

� Osnovna RBF mreža ima tri sloja:� ulazni sloj� skriveni sloj koji ima drugačiju ulogu nego kod višeslojnih

mreža� izlazni sloj

� Transformacija od ulaznog sloja do skrivenog sloja je nelinearna

� Transformacija od skrivenog sloja do izlaznog sloja je linearna

Struktura radijalne mreže

ulazni skriveni izlazni nelinearni linearni sloj sloj sloj


7-2

Coverov teorem

� Kod upotrebe RBF mreža za probleme klasifikacije uzoraka problem se rješava nelinearnom transformacijom ulaznih uzoraka u prostor više dimenzije nego što je ulazni prostor

� Motivacija za ovaj postupak je Coverov teorem o separabilnosti uzoraka koji kaže:

Veća je vjerojatnost da nelinearno transformirani vektori u višedimenzionalnom prostoru budu linearno separabilni nego u originalnom nižedimenzionalnom prostoru

Coverov teorem - interpretacija

� Iz materijala o perceptronu poznato nam je da je problem klasifikacije jednostavan kad su uzorci linearno separabilni

� Interpretacija radijalne mreže kao klasifikatora:1. Skriveni sloj nelinearno transformira ulazne uzorke tako da

klase postanu linearno separabilne

2. Izlazni sloj je linearan i kao takav može obaviti klasifikaciju dvaju linearno separabilnih klasa

Coverov teorem

� Neka je X = { x1, x2, …, xN } skup ulaznih uzoraka gdje svaki uzorak pripada jednoj od dviju klasa X+ i X-

� Neka je ulazni vektor x p-dimenzionalan

� Formirajmo za svaki vektor x novi vektor:

� Tada vektor ϕ(x) preslikava ulazne vektore u novi M-dimenzionalni prostor

� Funkcija ϕi(x) zove se skrivena funkcija jer ima ulogu sličnu skrivenom neuronu u višeslojnoj mreži

TM )](,),(),([)( 21 xxxx ϕϕϕ K=ϕ

Coverov teorem

� Za dvije klase ulaznih uzoraka X+ i X- kaže se da su ϕ-separabilne ako postoji M-dimenzionalni vektor wtakav da vrijedi:

� Hiperravnina definirana jednadžbom

definira plohu razdvajanja u ϕ prostoru

−

+

∈<∈≥

X

XT

T

xxw

xxw

,0)(

,0)(

ϕϕ

0)( =xw ϕT

Coverov teorem

� Inverzna slika ove hiperravnine definira graničnu plohu u ulaznom prostoru (prostoru ulaznih uzoraka):

{ }0)(: =xwx ϕT

Primjer: XOR problem

� 0 XOR 0 = 0

� 1 XOR 1 = 0� 0 XOR 1 = 1

� 1 XOR 0 = 1

(0,0) (1,0)

(0,1)(1,1)

x1

x2


7-3


� Definirajmo skrivene funkcije kao:

� Ulazni vektori se preslikavaju u ϕ prostoru na slijedeći način

T

T

e

e

]0,0[,)(

]1,1[,)(

22

112

2

21

==ϕ==ϕ

−−

−−

tx

txtx

tx


� Vidi se da su ulazni uzorci u novom prostoru linearno separabilni i problem se može rješiti linearnim klasifikatorom kao što je perceptron (izlazni sloj radijalne mreže)

(0,0) (1,0) (0,1)

(1,1) ϕ2

granica

1

1

ϕ1

Problem interpolacije

� Pretpostavimo da imamo mrežu s ulaznim, jednim skrivenim i izlaznim slojem s jednim neuronom

� Neka mreža realizira nelinearno preslikavanje od ulaza do skrivenog sloja i linearno preslikavanje od skrivenog do izlaznog sloja

� Sveukupno mreža realizira preslikavanje

� Ovo preslikavanje može se prikazati kao ploha

RRs p →:

1+⊂Γ pR


� Treniranje mreže može se onda shvatiti kao optimizacija aproksimacijske funkcije koja bi trebala biti što sličnija željenoj plohi Γ koja je određena pomoću parova za učenje ulaz-izlaz

� Faza generalizacije je ekvivalentna interpolaciji između zadanih točaka ulaz-izlaz

� Ovo vodi na teoriju multivarijabilne interpolacije u okviru koje se problem interpolacije postavlja na sljedeći način


� Uz dani skup od N točaka

i korespondentni skup od N realnih brojeva

treba naći funkciju

takvu da zadovoljava uvjet interpolacijeRRF p →:

{ }NiR pi ,,2,1| K=∈x

{ }NiRdi ,,2,1| K=∈

NidF ii ,,2,1,)( K==x

Interpolacija radijalnom mrežom

� Radijalne mreže koriste interpolacijsku tehniku gdje funkcija F ima slijedeću formu:

gdje je

skup proizvoljnih (nelinearnih) funkcija koje se zovu radijalne funkcije (engl. radial-basis functions)

� Poznati uzorci xi se uzimaju kao centri radijalnih funkcija

( )∑=

−=N

iiiwF

1

)( xxx ϕ

( ){ }Nii ,,2,1| K=− xxϕ


7-4


� Ako uvjet interpolacije izrazimo pomoću izraza za radijalne funkcije dobivamo:

gdje je

=

NNNNNN

N

N

d

d

d

w

w

w

MM

L

MMMM

L

L

2

1

2

1

21

22221

11211

ϕϕϕ

ϕϕϕϕϕϕ

Nijijji ,,2,1,),( K=−= xxϕϕ


� Neka su d i w vektor željenog odziva i vektor težina:

� Neka je Φ matrica dimenzija N×N s elementima ϕij:

� Ova matrica zove se interpolacijska matrica

� Ranije dobiveni sustav jednadžbi možemo pisati u obliku:

[ ][ ]T

N

TN

www

ddd

,,,

,,,

21

21

K

K

==

w

d

{ } Nijji ,,2,1,, K== ϕΦ

dΦw =


� Pretpostavimo da su x1, …, xN različiti vektori.

� Promatrajmo klasu radijalnih funkcija koje imaju svojstvo da je pripadna interpolacijska matrica Φpozitivno definitna

� Primjeri ovakvih radijalnih funkcija (najćešće korišteni) su:

0,0,)(

1)( 2/122 ≥>

+= rc

crrϕ

0,0,2

exp)( 2

2

≥>

−= r

rr σ

σϕ


� Istraživanja su pokazala da izbor nelinearne funkcije nije kritičan

� Budući da je matrica Φ pozitivno definitna postoji inverzna matrica i nepoznati vektor težina možemo dobiti kao:

� Iako danu jednadžbu teoretski uvijek možemo riješiti u praksi imamo poteškoća s nalaženjem inverzne matrice ako je matrica Φ blizu singularnoj matrici

� Ovaj problem se može riješiti uz pomoć teorije regularizacije

dΦw 1−=


� i-ti neuron skrivenog sloja realizira funkciju ϕ(||x-xi||)

� Izlazni neuron računa linearnu kombinaciju svojih ulaza

ulazni skriveni izlazni sloj sloj sloj

w1

wN

F(x)

x1

xp

ϕ(||x-x1||)

ϕ(||x-xN||)

Generalizirana radijalna mreža

� Iz ranije izloženoga vidi se da za svaki ulazni uzorak xi trebamo jedan neuron u skrivenom sloju

� Za veliki broj ulaznih uzoraka to postaje problem� U tom slučaju može se koristiti umjesto N samo

M << N radijalnih funkcija

∑=

−=M

iiiwF

1

)()( xxx ϕ


7-5

Generalizirana radijalna mreža

� Dobivena matrica Φ u ovom slučaju ima dimenzije N×M tako da inverzna matrica ne postoji

� Težine za ovaj slučaj možemo naći pomoću pseudoinverzne matrice od Φ

dΦΦΦdΦw TT 1)( −+ ==

Modifikacije

� Osim da se koristi M<<N moguće su i druge modifikacije osnovne ideje radijalnih mreža:

1. Centri radijalnih funkcija ne moraju biti određeni vrijednostima ulaznih vektora nego mogu imati i neke druge vrijednosti

2. Ako se koriste npr. Gausove funkcije, svaka funkcija može imati različiti parametar širine σ3. Izlaznom neuronu se može dodati i prag

� Svi ovi nepoznati parametri se moraju onda odrediti u procesu učenja

Učenje kao inverzni problem

� Učenje se može shvatiti kao problem rekonstrukcije plohe koja je definirana skupom točaka koje mogu biti i jako razmaknute

� Gledajući na taj način učenje je inverzni problem (poznato je nekoliko parova točaka ulaz-izlaz, a treba odrediti funkciju F tj. cijelu plohu)

� Inverzni problem može biti dobro postavljen (engl. well-posed) i loše postavljen (engl. ill-posed)

� Pretpostavimo da imamo nepoznato preslikavanje

gdje je X domena, a Y kodomena

YXF →:

Dobro postavljen problem

� Definicija: Problem rekonstrukcije funkcije F je dobro postavljen ako su zadovoljena slijedeća tri uvjeta:1. Egzistencija: za svaki ulaz x postoji izlaz y=F(x)

2. Injektivnost: F(x)=F(t) ako i samo ako x=t3. Kontinuiranost:

gdje su ρx i ρy mjere za udaljenost između vektora

ερδρεδδε <⇒<=∃>∀ ))(),((),(|)(,0 txtx FFyx

Loše postavljen problem

� Definicija: Problem rekonstrukcije funkcije F je loše postavljen onda i samo onda ako nije dobro postavljen

Učenje pod nadzorom

� Učenje pod nadzorom je loše postavljen problem rekonstrukcije željene plohe:

1. Nema dovoljno informacija u primjerima za učenje tako da injektivnost ne vrijedi

2. Zbog šuma i nepreciznosti ne vrijedi ni uvjet kontinuiranosti ni egzistencije

� Da bi problem učenja postao dobro postavljen potrebno je imati neko dodatno a priori znanje o preslikavanju F

� Takvo znanje može biti sadržano u redundantnosti uzoraka za učenje


7-6

Teorija regularizacije

� Tikhonov, 1963

� Teorija regularizacije omogućuje nalaženje rješenja za loše postavljene inverzne probleme

� Ideja regularizacije je da stabilizira rješenje dodatnim funkcionalom koji sadrži u sebi a priori informaciju o preslikavanju F (npr. kontinuiranost)

� Na taj način se loše postavljeni problem pretvara u dobro postavljeni problem

� Nepoznata funkcija F se određuje minimizacijom funkcije cijene E(F) koja se sastoji od dva člana

Teorija regularizacije

� Standardni član pogreške mjeri pogrešku između željenog odziva i dobivenog odziva za neku funkciju F

� Član za regularizaciju ovisi o geometrijskim svojstvima funkcije F

gdje je P linearni diferencijalni operator

∑=

−=N

iiis FdFE

1

2)]([2

1)( x

2

21

)( FFEc P=

Rješenje problema

� Princip regularizacije je minimizirati funkciju definiranu izrazom

� Za određeni izbor operatora P može se izračunati optimalna vrijednost funkcije F koja ima formu:

gdje funkcija G (. ; .) ovisi o izboru operatora P

)()()( FEFEFE cs λ+=

∑=

=N

iiiGwF

1

);()( xxx

Rješenje problema

� U slučaju da je operator P invarijantan na pomak funkcija G je radijalna funkcija:

∑=

−=N

iiiGwF

1

)()( xxx

Regularizacijske mreže

� Zaključak: Regularizacija problema interpolacije dovodi do radijalnih mreža kao rješenja

� Radijalne mreže su arhitektura koja omogućuje rješenje interpolacijskog problema korištenjem teorije regularizacije

Radijalna mreža

� Skriveni sloj daje vrijednosti funkcija G(||x - xi||)

� Izlazni sloj realizira linearnu kombinaciju

ulazni skriveni izlazni sloj sloj sloj

w1

wN

F(x)

x1

xp


7-7

� Kao radijalnu funkciju koristimo:

gdje su centri t1=[1 1]T i t2=[0 0]T

� Izlazni neuron ima i prag b da bi mreža mogla lakše naučiti željenu funkciju

( ) ( ) 2,1,exp2 =−=− iG ii txtx

Primjer: XOR problem Primjer: XOR problem

� Struktura RBF mreže prikazana je na slici:

w1

w2

+1 bx1

x2

y


� Odnos ulaz-izlaz ima oblik:

� Da bi mreža naučila zadane primjere za učenje treba vrijediti:

� Neka je:

( ) bGwyi

ii +−=∑=

2

1

)( txx

4,3,2,1,)( == jdy jjx

( ) 2,1;4,3,2,1, ==−= ijGg ijji tx


� Tada dobivamo sustav jednadžbi u matričnoj formi: Gw=d gdje je:

=

=

137,037,0

1113,0

137,037,0

113,01

1

1

1

1

4241

3231

2221

1211

gg

gg

gg

gg

G

[ ]Tbww 21=w

[ ]T0101=d


� Ovaj sustav jednadžbi je predeterminiran jer ima više jednadžbi nego nepoznanica

� Zbog toga matrica G nije kvadratna� Rješenje nalazimo pomoću pseudoinverzne matrice:

w = G+ d = (GT G)–1 GT

� Rješenje je w = [2.28 2,28 –1,7]T

� Prve dvije dobivene težine su jednake zbog simetrije problema

Usporedba RBF i višeslojnih mreža

1. RBF mreža ima jedan skriveni sloj dok perceptron može imati i više slojeva

2. Svi neuroni perceptrona obično imaju isti model dok su skriveni neuroni RBF mreže različiti i imaju drugu ulogu

3. Skriveni sloj RBF mreže je nelinearan, a izlazni linearan, kod perceptrona svi su neuroni nelinearni

4. Argument aktivacijske funkcije kod RBF mreže je udaljenost između ulaznog vektora i centra, a kod perceptrona argument aktivacijske funkcije je skalarni produkt ulaznog vektora i vektora težine.


7-8

Strategije učenja

� Postoji više različitih strategija učenja kod radijalnih mreža

� Neke od mogućih strategija su:

1. Fiksni centri koji su slučajno odabrani

2. Samo-organizirani odabir centara3. Odabir centara pod nadzorom

Fiksni centri

� U ovom pristupu centri RBF funkcija postavljeni su na unaprijed određene lokacije ti

gdje je M broj centara, a d je maksimalna udaljenost izmedu centara

� Standardna devijacija Gausovih funkcija jednaka je

( ) Mid

MG ii ,,2,1,exp

2

2K=

−−=− txtx

M

d

2=σ

Fiksni centri

� Ovakav odabir standardne devijacije garantira da Gausove funkcije neće biti niti preuske ni preširoke

� Jedine nepoznanice koje se trebaju odrediti procesom učenja su težine w

� Težine se mogu odrediti pseudoinverznom metodom:

gdje je matrica G={gji} i

dGw +=

MiNjd

Mg ijji ,,1;,,1,exp

2

2 KK ==

−−= tx

Samo-organizirani centri

� U ovom pristupu centri radijalnih funkcija se mogu pomicati na samoorganizirani način

� Samoorganizacija omogućuje da se centri funkcija postave samo u područjima gdje ima puno ulaznih vektora

Samo-organizirani centri

� Položaji centara mogu se računati algoritmom grupiranja s K srednjih vrijednosti

� Iznosi težina w se računaju kroz proces učenja pod nadzorom

� Za učenje pod nadzorom može se koristiti LMS algoritam

� Izlazi skrivenih neurona služe kao ulazi za LMS algoritam učenja


� Ovo je najopćenitiji slučaj gdje se svi slobodni parametri mreže određuju učenjem pod nadzorom (korekcijom pogreške)

� U ovom pristupu promatramo pogrešku mreže za sve parove ulaz-izlaz:

gdje je N broj parova za učenje, a ej signal pogreške

∑=

=N

jjeE

1

2

2

1


7-9


� Pogreška ej definirana je kao:

gdje je:

a matrica A je pozitivno definitna matrica

( )∑=

−−=

−=M

iAijij

jjj

Gwd

Fde

1

)(

tx

x

AzzzzzAA

T== ,2


� U ovom pristupu slobodni parametri koje treba odrediti da bi se minimizirala pogreška su:

� težine wi

� centri radijalnih funkcija ti

� matrica skalarnog produkta A� Iterativnom metodom najbržeg spusta izvode se

korekcije gornjih parametara


� Eksperimenti su pokazali da:

1. Radijalna mreža s samo-organizirajućim centrima i učenjem izlaznih težina pod nadzorom ima lošija svojstva generalizacije od višeslojnog perceptrona

2. Generalizirane RBF mreže gdje se svi parametri određuju učenjem pod nadzorom imaju bolja svojstva generalizacije

Primjene radijalnih mreža

� Obrada slike

� Prepoznavanje govora� Adaptivna ekvalizacija

� Medicinska dijagnostika

� Lokalizacija izvora kod radara� Analiza stohastičkih signala

Zadaci

� Zadatak 7.3

� Težine w dobivene u primjeru za rješenje XOR problema predstavljaju samo jednu moguću realizaciju

� Naći alternativne vrijednosti težina w za rješenje XOR problema

neuro 07

Documents