support vector machines

Upload: 1983matija

Post on 10-Jul-2015

199 views

Category:

Documents


2 download

TRANSCRIPT

FAKULTET STROJARSTVA I BRODOGRADNJE

SEMINARPREDMET: UMJETNA INTELIGENCIJA TEMA: SUPPORT VECTOR MACHINES

Matija Petranovi 3-RA. IN.-1 0035148514

SADRAJ :1. Uvod , definicija 2. Linearna klasifikacija 2.1 Motivacija 2.2 Formalizacija 2.3 Daljnja teorija 2.4 SMO(Sequential Minimal Optimization) 2.5 Klasifikator s maksimalnom marginom 3. Nelinearna klasifikacija 4. Soft margin (slaba margina) 4.1 Metoda potpornih vektora sa slabom marginom 5. Primjer 6. Popis literature

1.Uvod ,definicijaSupport vector machines (metoda potpornih vektora) su set povezanih nadzornih metoda uenja koje se upotrebljavaju za klasifikaciju i regresiju. Njihova zajednika znaajka je upotrba tehnike znane kao KERNEL TRICK u svrhu primjene linearnih klasifikacijskih tehnika na nelinearno klasifikacijske probleme. Metoda potpornih vektora bazira se na principu strukturne minimizacije rizika koji pronalazi hipotezu h za koju se moe garantirati najmanja vjerojatnost pogreke na skupu za uenje definiran sa :

Pokazano je kako se granina pogreka minimizira maksimiziranjem margine .

2. Linearna klasifikacija2.1 Motivacija (ono to elimo postii) Recimo da elimo klasificirati neke skupove toaka u dvije klase.Obino nas zanima klasifikacija podataka kao dio strojnog uenja procesa.Te toke ne moraju biti nuno toke u R2 skupu ,nego mogu biti multidimenzijalni Rp ili Rn skupovi.Nas zanima da li ih moemo razdvojiti hiperravninom.Pregledom hiperravnine ustanovljena je forma klasifikacije poznatija kao linearna klasifikacija. Trebamo izabrati hiperravninu koja uredno razdvaja toke podataka sa maksimalnom udaljenosti najblie toke iz obje klase. Ta udaljenost se naziva margina.Prieljkujemo ovo svojstvo budui da ako dodamo jo jednu podatkovnu toku tokama koje ve imamo ,moemo preciznije klasificirati nove toke ,budui da je separacija izmeu dvije klase vea.Ako takva hiperravnina postoji onda je ta hiperravnina od velike vanosti i poznatija ja kao hiperravnina s maksimalnom marginom (Maximum margin hyperplane). Ta hiperravnina moe se nazvati i optimalna hiperravnina (Optimal hyperplane).Vektori koji su najblii toj hiperravnini zovu se potporni vektori (Support vectors).

2.2 Formalizacija (forma za klasifikaciju) Uzimamo u obzir skupove toaka ovog oblika gdje je Ci 1 ili -1 .Ova konstanta pokazuje kojoj klasi toka Xi pripada.Svaki Xi je p (statistics notation) ili n (computer science notation) dimenzionalni vektor iznosa

[ 0 , 1] ili [-1 , 1]. Taj iznos je vaan kao zatita od varijabli (atributa) sa velikim neslaganjem koje bi moglo dominirati klasifikacijom. To moemo gledati kao trening podatke koji pokazuju tonu klasifikaciju koju elimo da SVM s vremenom raspoznaje.To se postie dijeljenjem hiperravnine. Forma kojom se to postie je:

Kao to smo zainteresirani za maksimalnu marginu tako nas zanimaju i potporni vektori i paralelne hiperravnine koje su najblie potpornim vektorima u obje klase. Te hiperravnine su opisane ovim jednadbama :

elimo da te hiperravnine maksimiziraju udaljenost od podijeljne hiperravnine i da izmeu njih nema skupova toaka.Koristei geometriju moemo pronai udaljenost izmeu hiperravnina 2 / |w| .Da bi izuzeli skupove toaka ,moramo osigurati za sve i-ove ili ili Drugi oblik :

Sada je problem minimizirati |w| subjekt.Ovo je kvadratno optimizacijski programerski

problem.(QP) Nakon to je SVM istreniran ,moe biti koriten za klasifikaciju jo nevienih testnih podataka.Ovo se postie upotrebom sljedeih pravila za odluivanje:

Pisanjem klasifikacijskog pravila u njegovoj dualnoj formi otkriva se da je klasifikacija funkcija potpornih vektora.(support vector)

Hiperravnine s maksimalnom marginom za SVM s nauenim uzorcima za dvije klase.Uzorci uz hiperravnine se zovu potporni vektori.

2.3 Daljnja teorija Upotreba hiperravnine s maksimalnom marginom motivirana je teorijom Vapnika Chervonenkisa koja govori o vjerojatnoj testnoj graninoj pogreci koja je minimizirana kada je margina maksimalna. Parametri hiperravnine s maksimalnom marginom su izvedeni rjeavanjem optimizacije.Postoji nekoliko specijaliziranih algoritama za brzo rjeavanje QP problema koji proizlaze iz SVM-sa.Najea metoda za rjeavanje QP problema je Platts SMO algoritam.

2.4 SMO(Sequential Minimal Optimization) SMO je brza metoda za uenje strojeva s potpornim vektorima(SVM).Uenje SVM-a zahtjeva sloeno kvadratno programiranje(QP) optimizacijskih problema.SMO razbija velike QP probleme u to vie malih QP problema.Najmanji QP problemi rjeavaju se analitiki ,ime se izbjegava upotreba numerikih QP optimizacija kao unutarnja petlja ,koje zahtjevaju puno vremena.Koliina memorije koja je potrebna za SMO je linearna u veliini vjebovnih setova ,to omoguava rad sa velikim vjebovnim setovima. 2.5 Klasifikator s maksimalnom marginom Pretpostavimo da je skup za uenje linearno razdvojiv, tj. da egzistira hiperravnina (w,b) tako da izraz vrijedi za sve primjere skupa. Tada postoji vie hiperravnina koje razdvajaju skup za uenje bez pogreke.

Slika - Problem binarne klasifikacije u dvije dimenzije Na slici (lijevo) su prikazane neke od tih hiperravnina. Na istoj slici prikazana je i hiperravnina (desno) koju pronalazi metoda potpornih vektora, a karakterizira je maksimalna margina . Primjeri koji su najblii margini, nazivaju se potpornim vektorima.

Slika - Klasifikator s maksimalnom marginom Treba zamijetiti da se funkcija vezana uz hiperravninu (w,b) ne mijenja ako skaliramo hiperravninu na , gdje je . Stoga moemo skalirati parametre hiperravnine tako da funkcijska margina iznosi 1. Dakle, za primjer sa gornje slike , vrijedi izraz a) iz ega se lako izvodi izraz za geometrijsku marginu b)

a)

b)

Lako je uoiti kako je minimalna udaljenost izmeu bilo koja dva primjera razliitih klasa jednaka dvostrukoj margini definiranoj s b) . Kako bi maksimizirali marginu trebamo pronai:

uz zadovoljene uvjete:

Numeriki je ovaj problem veoma teko rijeiti, iako se radi o konveksnom problemu, stoga ga nastojimo transformirati u dualnu formu. Izrazom c) dan je Lagrangian ovog problema.

c) Dualna forma koju je potrebno maksimizirati :

Kada bi izostavili neki primjer iz skupa za uenje, oznaimo ga s xi*,konstruirali rjeenje i zatim provjerili kako na sustav klasificira izostavljeni primjer,nali bi se u jednoj od etiri situacije (Schlkopf,1997):

1. Primjer je dobro klasificiran i ne lei na margini; stoga ne bi postao potporni vektor pa ne bi niti utjecao na krajnji rezultat.

2. Primjer je dobro klasificiran, lei na margini, postao bi potporni vektor, ali vektor teina w se ne bi promijenio.

3. Primjer je dobro klasificiran, lei unutar margine, ali s prave strane hiperravnine. Postao bi potporni vektor i promijenio bi rjeenje w.

4. Primjer nije dobro klasificiran, lei s krive strane hiperravnine. Postao bi potporni vektor i promijenio bi rjeenje w.

3. Nelinearna klasifikacijaOrginalni algoritam za optimalnu hiperravninu kojeg je predloio Vladimir Vapnik godine 1963. bio je linearni klasifikator. 1992. Bernhard Boser ,Isabelle Guyon i Vapnik su predloili nain za stvaranje nelinearnih klasifikatora upotrebom tehnike kernel trick za hiperravnine s maksimalnom marginom.Dobiveni algoritam je prividno slian ,osim to je svaki skalarni produkt zamijenjen nelinearnom kernel funkcijom.To omoguava algoritmu da se prilagodi hiperravnini s maksimalnom marginom u transformiranom svojstvenom podruju.Transformacija moe biti nelinearna ,a transformirani prostor visoko dimenzionalan.Iako kroz klasifikator prolazi hiperravnina u visoko dimenzionalnom svojstvenom prostoru moe biti nelinearna u orginalnom ulaznom prostoru. Ako kernel koristi Gaussovu radijalnu baznu funkciju ,odgovarajui svojstveni prostor je Hilbertov prostor beskonanih dimenzija.Klasifikatori maksimalnih margina su dobro regulirani ,tako da beskonane dimenzije ne kvare rezultat .Neke uobiajene kernel funkcije ukljuuju:

Polynomial (homogeneous): Polynomial (inhomogeneous): Radial Basis Function: Gaussian RBF: Sigmoid: , for some (not every) > 0 and c < 0 , for > 0

4. Soft margin (slaba margina)1995. godine Corinna Cortes i Vapnik su predloili ideju modificiranih maksimalnih margina koja omoguava da neki primjeri budu krivo naueni.Ako ne postoji hiperravnina koja se moe podijeliti da i ne primjerima ,metoda slabe margine e izabrati hiperravninu koja dijeli primjere to je bolje mogue.U isto vrijeme udaljenost do najblieg istog podijeljenog primjera je maksimalna.Ovaj postupak je popularizirao izraz Support vector machine ili SVM (metoda potpornih vektora).Ova metoda uvodi slack varijable i jednadba (3) se transformira u :

4.1 Metoda potpornih vektora sa slabom marginom Nedostatak prethodne formulacije problema je taj to uenje nee biti uspjeno ukoliko primjeri nisu linearno razdvojivi. Ukoliko skup za uenje sadri um, to je karakteristika veine realnih skupova, u openitom sluaju kategorije nee biti linearno razdvojive. Stoga je potrebno razviti sofisticiraniju metodu kojom e se ovaj problem moi rijeiti. Uvonenjem slabe margine, doputa se da odreneni primjeri budu pogreno naueni. Kako bi se modelirala slaba margina, mijenjaju se uvjeti uvoenjem varijabli koje doputaju primjerima ne samo da stoje izvan granica margine ve i da budu krivo klasificirani. Uvjeti:

i

d)

e)

Menutim, uvjeti iz e) doputaju uenje s po volji velikom pogrekom. Da se ta pogreka uini to manjom, treba modificirati i izraz f ). U praksi se uglavnom koriste sljedee dvije metode: slaba margina u L2 normi :

te slaba margina u L1 normi :

5. Primjer

SVM se baziraju na konceptu ravnina za odluivanje koje definiraju granice odluivanja.Ravnina za odluivanje je ravnina koja razdvaja skupinu objekata razliite klase. U ovom primjeru objekti pripadaju ili zelenoj ili crvenoj klasi.Linija razdvajanja definira granicu s ije su desne strane svi objekti zeleni ,a s lijeve strane svi objekti su crveni.Bilo koji novi objekt (recimo bijeli krug) ako pada na desnu stranu bit e klasificiran kao zelen ,a ako pada na lijevu stranu bit e klasificiran kao crven.

Ovo je klasini primjer linearnog klasifikatora. Klasifikator razdvaja skupinu objekata ravnom linijom u njihove odnosne grupe (u ovo sluaju u crvenu i zelenu grupu).Veina klasifikacijskih zadataka nije ovako jednostavna i u veini sluajeva potrebno je vie sloenih struktura da bi se mogla napraviti optimalna separacija ,a ujedno i tona klasifikacija novih objekata na temelju primjera koji su dostupni.

Usporeujui ovu sliku s onom gore oigledno je da je za potpuno razdvajanje crvenih i zelenih objekata potrebna krivulja (koja je mnogo sloenija od ravne linije). Klasifikacijski zadaci temeljeni na postavljanju linija za razdvajanje koje omoguuju raspoznavanje objekata razliitih klasa zovu se hiperravnine.

Ovdje vidimo objekte koji su mapirani i prerasporeeni koritenjem setova matematikih funkcijama znanim kao kernel funkcije. Proces preraspodjele objekata je poznat kao mapiranje (transformacija). U ovoj novoj postavci mapirani objekti su linearno razdvojivi i umjesto da konstruiramo kompleksnu krivulju moramo pronai optimalnu liniju koja razdvaja zelene i crvene objekte.

6. Popis literature :

en.wikipedia.org/wiki/Support_vector_machine www.kernel-machines.org svmlight.joachims.org http://www.support-vector-machines.org/SVM_pr.html www.cs.wisc.edu/dmi/lsvm/ http://research.microsoft.com/~jplatt/svm.html