uvod u nadgledano mašinsko ucenje
TRANSCRIPT
![Page 1: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/1.jpg)
Uvod u nadgledano masinsko ucenje
Mladen Nikolic
Matematicki fakultetUniverzitet u Beogradu
1 / 303
![Page 2: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/2.jpg)
O predavanju
I Glavni cilj predavanja je upoznavanje sa masinskim ucenjem, ali ne na naivnomnivou
I Dodatni cilj je sakupiti na jedno mesto neka znanja koja su obicno rasuta politeraturi
I Bonus je pokazati da je matematika koja se uci na fakultetu izuzetno korisna!
I Bice tesko
2 / 303
![Page 3: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/3.jpg)
O predavanju
I Glavni cilj predavanja je upoznavanje sa masinskim ucenjem, ali ne na naivnomnivou
I Dodatni cilj je sakupiti na jedno mesto neka znanja koja su obicno rasuta politeraturi
I Bonus je pokazati da je matematika koja se uci na fakultetu izuzetno korisna!
I Bice tesko
2 / 303
![Page 4: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/4.jpg)
O predavanju
I Glavni cilj predavanja je upoznavanje sa masinskim ucenjem, ali ne na naivnomnivou
I Dodatni cilj je sakupiti na jedno mesto neka znanja koja su obicno rasuta politeraturi
I Bonus je pokazati da je matematika koja se uci na fakultetu izuzetno korisna!
I Bice tesko
2 / 303
![Page 5: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/5.jpg)
O predavanju
I Glavni cilj predavanja je upoznavanje sa masinskim ucenjem, ali ne na naivnomnivou
I Dodatni cilj je sakupiti na jedno mesto neka znanja koja su obicno rasuta politeraturi
I Bonus je pokazati da je matematika koja se uci na fakultetu izuzetno korisna!
I Bice tesko
2 / 303
![Page 6: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/6.jpg)
Zahvalnost
I Hvala kolegama Nemanji Micovicu i Urosu Stegicu na visestrukoj proveri slajdova iimplementaciji odabranih algoritama
3 / 303
![Page 7: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/7.jpg)
Pregled
Uopsteno o masinskom ucenju
Neformalan podsetnik verovatnoce i statistike
Teorijske osnove nadgledanog ucenja
Popularni modeli i algoritmi nadgledanog ucenja
Dizajn algoritama nadgledanog ucenja
Procena kvaliteta i izbor modela
Finalni saveti
4 / 303
![Page 8: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/8.jpg)
Pregled
Uopsteno o masinskom ucenju
Neformalan podsetnik verovatnoce i statistike
Teorijske osnove nadgledanog ucenja
Popularni modeli i algoritmi nadgledanog ucenja
Dizajn algoritama nadgledanog ucenja
Procena kvaliteta i izbor modela
Finalni saveti
5 / 303
![Page 9: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/9.jpg)
Mini anketa
I Ko ima elementarno razumevanje makar jednog algoritma masinskog ucenja?
I Ko je primenio neki algoritam masinskog ucenja?
I Ko je prilagodio neki algoritam masinskog ucenja ili razvio svoj?
6 / 303
![Page 10: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/10.jpg)
Mini anketa
I Ko ima elementarno razumevanje makar jednog algoritma masinskog ucenja?
I Ko je primenio neki algoritam masinskog ucenja?
I Ko je prilagodio neki algoritam masinskog ucenja ili razvio svoj?
6 / 303
![Page 11: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/11.jpg)
Mini anketa
I Ko ima elementarno razumevanje makar jednog algoritma masinskog ucenja?
I Ko je primenio neki algoritam masinskog ucenja?
I Ko je prilagodio neki algoritam masinskog ucenja ili razvio svoj?
6 / 303
![Page 12: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/12.jpg)
Sta je masinsko ucenje?
I Sa prakticnog stanovista: bavi se izgradnjom prilagodljivih racunarskih sistemakoji su sposobni da poboljsavaju svoje performanse koristeci informacije iz iskustva
I Sa teorijskog stanovista: bavi se proucavanjem generalizacije i konstrukcijom ianalizom algoritama koji generalizuju
7 / 303
![Page 13: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/13.jpg)
Mesto u vestackoj inteligenciji
I Ima istu ulogu u odnosu na induktivno zakljucivanje koju logika i automatskorezonovanje imaju u odnosu na deduktivno zakljucivanje
I Pristupi vestackoj inteligenciji zasnovani na logici zahtevaju definisanje problemapomocu formalno izrazenih pravila
I Cesto se odnose na probleme koji su ljudima intelektualno teski
I Sta sa problemima koji su nam laki, a koje ne znamo da opisemo, poputprepoznavanja lica?
I Binarne kategorije tacnog i netacnog nisu uvek dovoljno dobre zbog neizvesnosti
I Verovatnoca je okvir rezonovanja koji prirodno ukljucuje neizvesnost
I Masinsko ucenje pruza odgovor na oba problema
8 / 303
![Page 14: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/14.jpg)
Zasto je zanimljivo?
I Duboka teorija indukcije, odnosno generalizacije
I Brojne primene, a postignuti rezultati pomeraju granice tehnologije i maste
I Spoj statistike, optimizacije i racunarstva, ali se oslanja i na linearnu algebru,teoriju grafova, funkcionalnu analizu i na druge matematicke oblasti
I Sve je popularnije i u Srbiji
I Zbog toga je idealna oblast za studente Matematickog fakulteta
9 / 303
![Page 15: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/15.jpg)
Kako se razlikuje od istrazivanja podataka?
I Istrazivanje podataka (eng. data mining) se bavi pronalazenjem zakonitosti upodacima i ukljucuje primenu algoritama masinskog ucenja kao jedan od cestihkoraka
I Takode, istrazivanje podataka ukljucuje poslove poput preprocesiranja podataka,eksplorativne analize, vizualizacije...
I Masinsko ucenje se bavi dizajnom algoritama koji generalizuju i stoga mogu davrse predvidanje, njihovim svojstvima i time kako ta svojstva zavise od elemantadizajna algoritma
10 / 303
![Page 16: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/16.jpg)
Kako se razlikuje od statistike?
I Ciljevi su vrlo bliski i ukoliko se oblast definise prema cilju, mnogi se slazu daznacajne razlike nema
I Razlikuju se poreklo, terminologija, ali i fokusi, sto na strani masinskog ucenjaukljucuje:
I Cesto odustajanje od interpretabilnosti zarad boljeg kvaliteta predvidanja, sto vodivecem bogatstvu i slozenosti modela nego u klasicnoj statistici
I Jaci akcenat na optimizaciji i algoritmici, uslovljen vecom slozenoscu modelaI Neretko zanemarivanje analize svojstava za koja statisticari mare, poput npr.
nepristrasnosti, mimimalnosti varijanse i drugih i fokusiranje na kvalitet predvidanjaI Teoriju generalizacije1
I Zbrka bi bila izbegnuta ako bismo prestali da se trudimo da povucemo graniceizmedu oblasti
1Ova tema se podjednako uklapa i u statistiku (i zove se statisticka teorija ucenja), ali setradicionalno smatra podoblascu masinskog ucenja
11 / 303
![Page 17: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/17.jpg)
Kratka istorija (1)
I 1943 – Mekaloh i Pits formulisu threshold logic, pretecu neuronskih mreza
I 1950 – Alen Tjuring razmislja o masinama koje uce
I 1952 – Artur Semjuel je napisao prvi program koji uci da igra dame
I 1957 – Frenk Rozenblat je napravio (u hardveru) perceptron
I 1963 – Vapnik i Cervonenkis predlazu prvu varijantu metoda potpornih vektora
I 1967 – Kaver i Hart predlazu algoritam k najblizih suseda sa primenom uproblemu trgovackog putnika
12 / 303
![Page 18: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/18.jpg)
Kratka istorija (2)
I 1969 – Marvin Minski i Sejmur Papert kritikuju perceptron, sto usporava razvojneuronskih mreza
I 1975 – Verbos formulise algoritam propagacije unazad (eng. backpropagation) zaizracunavanje gradijenta neuronske mreze
I 1981 – Dedzong uvodi ucenje zasnovano na objasnjavanju kojim se omogucujeizvodenje pravila iz podataka
I 1985 – Sejnovski i Rozenberg prave sistem koji uci da izgovara engleske reci
I 1992 – Bozer, Gijon i Vapnik predlazu upotrebu kernela sa metodom potpornihvektora sto cini da ovaj metod dominira oblascu tokom devedesetih
13 / 303
![Page 19: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/19.jpg)
Kratka istorija (3)
I 1992 – Tezauro pravi TD-Gammon, sistem koji igra igru tavla (eng. backgammon)
I 2006 – Hinton uvodi izraz duboko ucenje (eng. deep learning) za algoritme zatrening viseslojnih neuronskih mreza koje nadalje dominiraju oblascu
I 2011 – IBM-ov sistem Watson pobeduje ranije prvake u kvizu Jeopardy!
I 2012 – Google X razvija sistem koji je u stanju da sam pregleda video zapise naYouTube-u i prepoznaje macke!!
I 2016 – Guglov sistem Alfa Go pobeduje svetskog prvaka u igri go rezultatom 4:1
14 / 303
![Page 20: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/20.jpg)
Koliko je popularno?
I Jedna od glavnih i trenutno najpopularnija oblast vestacke inteligencije
I Trenutno medu najpopularnijim oblastima racunarstva i primenjene matematike
I Intenzivno se proucava u akademskim krugovima i primenjuje u industriji
15 / 303
![Page 21: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/21.jpg)
Koji univerziteti imaju ovakav kurs?
I Stanford (1)
I Harvard (2)
I Princeton (3)
I Berkeley (2)
I Carnegie Mellon (master program)
I Washington (3)
I Illinois Urbana-Champaigne (1)
I Cornell (3)
I ...
I Columbia (master program)
I Oxford (2)
I Cambridge (master program)
I EPFL (4)
I ETH Zurich (1)
I Edinburgh (2)
I Imperial College London (1)
I TU Munich (2)
16 / 303
![Page 22: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/22.jpg)
Koje svetske firme primenjuju masinsko ucenje?
I Google
I Google Deep Mind
I Yahoo
I Microsoft
I IBM
I Facebook
I Twitter
I Apple
I Samsung
I HP
I Oracle
I Fujitsu
I Hittachi
I NEC
I Ericsson
I Siemens
I SAP
I Locheed Martin
I Huawei
I DELL
I Bell Labs
I CISCO
I Nokia
I ...
17 / 303
![Page 23: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/23.jpg)
Koliki je obim istrazivanja?
I Broj radova na konferencijama u 2015.
Oblast Konferencija Primljeno Objavljeno
MU NIPS 1838 403MU ICML 1037 270O1 K1 85 36O1 K2 70 30O1 K3 54 27O2 K1 241 42O2 K2 170 36
18 / 303
![Page 24: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/24.jpg)
Gde se primenjuje?
I Bioinformatika
I Interfejsi mozga sa masinama
I Hemijska informatika
I Racunarsko opazanje
I Detekcija prevara sa kreditnimkarticama
I Racunarske igre
I Pretrazivanje informacija
I Marketing
I Medicinska dijagnostika
I Obrada prirodnog jezika
I Onlajn reklamiranje
I Sistemi za preporucivanje
I Upravljanje robotima
I Prepoznavanje govora
I Prepoznavanje rukom pisanog teksta
I Pracenje zdravstvenog stanja
I Ekonomija
I Analiza drustvenih mreza
19 / 303
![Page 25: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/25.jpg)
Sta je kljuc uspeha?
I Spoj ozbiljne teorije i vaznih prakticnih problema
I Vandredno jaka povratna sprega izmedu nauke i industrije
20 / 303
![Page 26: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/26.jpg)
Analiza slika i videa
I Prepoznavanje lica
I Prepoznavanje objekata na slikama i u videu
I Rekonstrukcija trodimenzionalne informacije iz videa
21 / 303
![Page 27: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/27.jpg)
Autonomna voznja
I ALVINN je vozio 140km na autoputu krajem osamdesetih bez ljudske pomoci
I Google X je razvio nov sistem namenjen gradskoj voznji
I Google X je razvio sistem za upravljanje kvadrotorima
22 / 303
![Page 28: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/28.jpg)
Igranje igara
I Devedesetih godina je napravljen sistem koji igra Backgammon u rangu svetskihsampiona
I Alfa Go je 2016. pobedio svetskog sampiona u igri go 4 naprema 1
I Neuronska mreza uspesno igra igre sa Atarija
I Neuronska mreza igra Doom bolje od coveka
23 / 303
![Page 29: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/29.jpg)
Obrada prirodnog jezika i govora
I Opticko prepoznavanje karaktera i prepoznavanje rukom pisanog teksta
I Sistemi za razgovor i preporuke korisnicima
I Analiza osecanja izrazenih u tekstu
I Parsiranje recenica
I Klasifikacija teksta
I Masinsko prevodenje
I Automatsko opisivanje slika
24 / 303
![Page 30: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/30.jpg)
Primene u medicini
I Prepoznavanje tumora na snimcima razlicitih skenera
I Predvidanje buduceg stanja pacijenata
I Odredivanje terapije za sepsu
25 / 303
![Page 31: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/31.jpg)
Analiza drustvenih mreza
I Otkrivanje povezanosti u teroristickim i kriminalnim mrezama
I Ciljano reklamiranje
26 / 303
![Page 32: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/32.jpg)
Prepoznavanje racunarskih clanaka
I Potrebno je napraviti sistem koji automatski prepoznaje racunarske clanke kako biih preporucio klijentima
I Kako ih prepoznati?
I Recimo po strucnim terminima
I Na primer ,,racunar“ i ,,datoteka“
I Svaki clanak se predstavlja frekvencijama ovih reci
I Radi se o tackama u ravni
I Potrebno je naci nacin da se u tom prostoru identifikuje granica izmeduracunarskih clanaka i ostalih
27 / 303
![Page 33: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/33.jpg)
Prepoznavanje racunarskih clanaka
I Potrebno je napraviti sistem koji automatski prepoznaje racunarske clanke kako biih preporucio klijentima
I Kako ih prepoznati?
I Recimo po strucnim terminima
I Na primer ,,racunar“ i ,,datoteka“
I Svaki clanak se predstavlja frekvencijama ovih reci
I Radi se o tackama u ravni
I Potrebno je naci nacin da se u tom prostoru identifikuje granica izmeduracunarskih clanaka i ostalih
27 / 303
![Page 34: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/34.jpg)
Prepoznavanje racunarskih clanaka
0 0
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
28 / 303
![Page 35: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/35.jpg)
Vrste masinskog ucenja
I Nadgledano ucenje (eng. supervised learning)
I Nenadgledano ucenje (eng. unsupervised learning)
I Ucenje uslovljavanjem (eng. reinforcement learning)
29 / 303
![Page 36: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/36.jpg)
Pregled
Uopsteno o masinskom ucenju
Neformalan podsetnik verovatnoce i statistike
Teorijske osnove nadgledanog ucenja
Popularni modeli i algoritmi nadgledanog ucenja
Dizajn algoritama nadgledanog ucenja
Procena kvaliteta i izbor modela
Finalni saveti
30 / 303
![Page 37: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/37.jpg)
Ishodi i dogadaji
I Eksperimenti imaju ishodeI Ishodi bacanja kockice su brojevi od 1 do 6
I Dogadaji su skupovi ishodaI Dogadaj moze biti da je dobijen broj veci od 3, sto je skup ishoda 4, 5, 6
I Kazemo da se neki dogadaj desio ako se desio neki ishod iz tog dogadaja
31 / 303
![Page 38: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/38.jpg)
Verovatnoca dogadaja
I Verovatnoce su dugorocne frekvencije dogadaja
I Postoje drugacije interpretacije pojma verovatnoce (npr. Bajesova)I Formalno, govorimo o verovatnosnoj meri P koja mora da zadovolji sledece
aksiome:I P(Ω) = 1, gde je Ω skup svih ishodaI P(A) ≥ 0, za svaki dogadaj A ⊆ ΩI P(
⋃∞i=1 Ai ) =
∑∞i=1 P(Ai ) ako su Ai disjunktni dogadaji
32 / 303
![Page 39: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/39.jpg)
Uslovna verovatnoca
I P(A|B) je verovatnoca dogadaja A pri uslovu B i definise se kao
P(A|B) =P(A ∩ B)
P(B)
I Ako znamo da je broj koji je kockica dala neparan, koja je verovantoca da je tobas 3?
P(3|1, 3, 5) =P(3)
P(1, 3, 5)=
1612
=1
3
33 / 303
![Page 40: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/40.jpg)
Nezavisnost dogadaja
I Dogadaji A i B su nezavisni ako vazi
P(A|B) = P(A)
odnosnoP(A ∩ B) = P(A)P(B)
34 / 303
![Page 41: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/41.jpg)
Nezavisnost dogadaja
I Posmatrajmo dogadaje x > 0.5, y > 0.5 i x > 0.5 ∧ y > 0.5
I Koji slucaj odrazava zavisne, a koji nezavisne dogadaje?
I U prvom se vidi nezavisnost, a verovatnoce su 0.5, 0.5 i 0.25
I U drugom se vidi zavisnost, a verovatnoce su 0.5, 0.5 i 0.5
35 / 303
![Page 42: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/42.jpg)
Nezavisnost dogadaja
I Posmatrajmo dogadaje x > 0.5, y > 0.5 i x > 0.5 ∧ y > 0.5
I Koji slucaj odrazava zavisne, a koji nezavisne dogadaje?
I U prvom se vidi nezavisnost, a verovatnoce su 0.5, 0.5 i 0.25
I U drugom se vidi zavisnost, a verovatnoce su 0.5, 0.5 i 0.5
35 / 303
![Page 43: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/43.jpg)
Slucajna promenljiva
I Funkcije koje preslikavaju ishode u skup realnih brojeva nazivaju se slucajnimvelicinama
I Na primer visina slucajno izabrane osobe
I Opisujemo ih pomocu pojma raspodele verovatnoce
36 / 303
![Page 44: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/44.jpg)
Diskretna raspodela verovatnoce
I Pridruzuje verovatnocu svakom od prebrojivo mnogo vrednosti slucajnepromenljive
Slika: http://www2.cedarcrest.edu/academic/bio/hale/biostat/session10links/probgraph.html
37 / 303
![Page 45: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/45.jpg)
Histogram i neprekidna raspodela verovatnoce (1)
38 / 303
![Page 46: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/46.jpg)
Histogram i neprekidna raspodela verovatnoce (2)
39 / 303
![Page 47: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/47.jpg)
Histogram i neprekidna raspodela verovatnoce (3)
40 / 303
![Page 48: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/48.jpg)
Histogram i neprekidna raspodela verovatnoce (4)
41 / 303
![Page 49: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/49.jpg)
Gustina raspodele
I Histogram oslikava gustinu raspodele
I Mora da vazi ∫p(x)dx = 1
42 / 303
![Page 50: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/50.jpg)
Gustina raspodele
P([a, b]) =
∫ b
ap(x)dx
Slika: http://www.disfrutalasmatematicas.com/datos/distribucion-normal-estandar.html
43 / 303
![Page 51: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/51.jpg)
Matematicko ocekivanje
I Intuitivno, predstavlja srednju vrednost neke slucajne velicine
I Ocekivanje slucajne velicine X se oznacava E[X ]
I Postoje i drugi nacini da se definise srednja vrednost (npr. medijana) koji mogubiti pogodniji u nekim kontekstima
44 / 303
![Page 52: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/52.jpg)
Matematicko ocekivanje
E[X ] ≈∑i
xini
N= −2.5
1
100− 2
2
100− 1.5
6
100− 1
8
100− 0.5
19
100+ 0
16
100+ 0.5
20
100+ 1
14
100+ 1.5
11
100+ 2
0
100+ 2.5
2
100+ 3
1
100
45 / 303
![Page 53: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/53.jpg)
Matematicko ocekivanje
I Za siroku klasu raspodela vazi (u praksi, prakticno uvek):
E[f (X )] =
∫f (x)p(x)dx
I VaziE[αX + βY ] = αE[X ] + βE[Y ]
46 / 303
![Page 54: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/54.jpg)
Uniformna raspodela
X ∼ U(a, b) p(x) =1
b − aE[X ] =
a + b
2Var(X ) =
1
12(b − a)2
Slika: http://pro.arcgis.com/en/pro-app/tool-reference/data-management/distributions-for-assigning-random-values.htm 47 / 303
![Page 55: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/55.jpg)
Normalna raspodela
X ∼ N (µ, σ) p(x) =1√
2σ2πe−
(x−µ)2
2σ2 E[X ] = µ Var(X ) = σ2
Slika: https://en.wikipedia.org/wiki/Normal distribution48 / 303
![Page 56: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/56.jpg)
Varijansa (disperzija)
I Varijansa je mera rasprsenosti slucajne promenljive i definise se kao
Var(X ) = E[(X − E[X ])2] = E[X 2]− (E[X ])2
I Predstavlja ocekivanje odstupanja slucajne promenljive od njenog ocekivanja
I Koren varijanse se naziva standardna devijacija
49 / 303
![Page 57: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/57.jpg)
Statistika
I Donosi zakljucke o fenomenima na osnovu uzoraka iz iskustva
I Osnovni zadatak matematicke statistike je izabrati, iz skupa dopustivihverovatnosnih mera, jednu koja najbolje odgovara uzorku podataka
I Cesto se ovaj, a i drugi problemi statistike, svode na ocenu nekih nepoznatihparametara verovatnosne mere, na osnovu podataka
I Funkcija koja slika uzorak u realan broj i ima jos neka lepa svojstva, naziva sestatistika
50 / 303
![Page 58: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/58.jpg)
Pozeljna svojstva statistika
I Neka je θ ocena parametra θ
I Ocena θ je nepristrasna (centrirana) ako vazi
E[θ] = θ
I E[θ]− θ je sistematsko odstupanje ocene θ
I Nepristrasna ocena koja ima manju varijansu je bolja od nepristrasne ocene kojaima vecu varijansu
51 / 303
![Page 59: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/59.jpg)
Ilustracija sistematske ocene i varijanse statistike
Slika: P.-N. Tan, M. Steinbach, V. Kumar, Introduction to Data Mining. Modifikovano.
52 / 303
![Page 60: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/60.jpg)
Pregled
Uopsteno o masinskom ucenju
Neformalan podsetnik verovatnoce i statistike
Teorijske osnove nadgledanog ucenja
Popularni modeli i algoritmi nadgledanog ucenja
Dizajn algoritama nadgledanog ucenja
Procena kvaliteta i izbor modela
Finalni saveti
53 / 303
![Page 61: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/61.jpg)
Sta je nadgledano ucenje?
I Potrebno je ustanoviti odnos izmedu atributa x i ciljne promenljive y
I Problemi koje danas razmatramo su cesto previse kompleksni
I Stoga se pomenuti odnos cesto aproksimira na osnovu uzorka
I Zavisnosti izmedu promenljivih se modeluju funkcijom koja se naziva model
I Model treba da generalizuje
54 / 303
![Page 62: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/62.jpg)
Standardni problemi nadgledanog ucenja
I Klasifikacija – ciljna promenljiva je kategoricka
I Regresija – ciljna promenljiva je neprekidna
55 / 303
![Page 63: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/63.jpg)
Osnovna teorijska postavka nadgledanog ucenja
I Odnos izmedu x i y je odreden probabilistickim zakonom p(x , y)
I Potrebno je odrediti ,,najbolju“ funkciju f takvu da vazi y ≈ f (x)
I Funkcija greske (eng. loss) L kvantifikuje odstupanje izmedu y i f (x)
I Funkcional rizika R formalizuje pojam ,,najboljeg“:
R(f ) = E[L(y , f (x))] =
∫L(y , f (x))p(x , y)dxdy
I Potrebno je odrediti funkciju f za koju je vrednost R(f ) najmanja
56 / 303
![Page 64: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/64.jpg)
Ali u praksi...
I Razmatranje svih mogucih modela nije izvodljivo, tako da se pretpostavljareprezentacija modela
I Modeli fw (x) za neku reprezentaciju zaivise od vektora relanih vrednosti w , kojenazivamo parametrima modela
I Funkcional rizika se onda moze predstaviti kao funkcija parametara w :R(w) = R(fw (x))
I Problem je sto raspodela p(x , y) nije poznata, ali se pretpostavlja da postojiuzorak D = (xi , yi ) | i = 1, . . . ,N takav da vazi (xi , yi ) ∼ p(x , y)
I Potreban je praktican princip indukcije
57 / 303
![Page 65: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/65.jpg)
Minimizacija empirijskog rizika
I Empirijski rizik:
E (w ,D) =1
N
N∑i=1
L(yi , fw (xi ))
I Kada nije naveden, argument D se podrazumevaI Princip minimizacije empirijskog rizika (ERM):
I funkciju koja minimizuje E (w ,D) uzeti za aproksimaciju funkcije koja minimizujeR(w)
I Umesto empirijski rizik, govoricemo prosecna greska ili samo greska
58 / 303
![Page 66: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/66.jpg)
Pitanja vezana za ERM
I Da li bi trebalo da radi?
I Valjda bi trebalo, posto proseci konvergiraju ocekivanjima
I Ali ne aproksimiramo parametar raspodele na osnovu uzorka!
I Vrsimo aproksimaciju funkcionala, a funkcije se dobijaju minimizacijom pobeskonacnoj familiji funkcija!
59 / 303
![Page 67: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/67.jpg)
Pitanja vezana za ERM
I Da li bi trebalo da radi?
I Valjda bi trebalo, posto proseci konvergiraju ocekivanjima
I Ali ne aproksimiramo parametar raspodele na osnovu uzorka!
I Vrsimo aproksimaciju funkcionala, a funkcije se dobijaju minimizacijom pobeskonacnoj familiji funkcija!
59 / 303
![Page 68: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/68.jpg)
Pitanja vezana za ERM
I Da li bi trebalo da radi?
I Valjda bi trebalo, posto proseci konvergiraju ocekivanjima
I Ali ne aproksimiramo parametar raspodele na osnovu uzorka!
I Vrsimo aproksimaciju funkcionala, a funkcije se dobijaju minimizacijom pobeskonacnoj familiji funkcija!
59 / 303
![Page 69: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/69.jpg)
Pitanja vezana za ERM
I Da li bi trebalo da radi?
I Valjda bi trebalo, posto proseci konvergiraju ocekivanjima
I Ali ne aproksimiramo parametar raspodele na osnovu uzorka!
I Vrsimo aproksimaciju funkcionala, a funkcije se dobijaju minimizacijom pobeskonacnoj familiji funkcija!
59 / 303
![Page 70: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/70.jpg)
Pitanja vezana za ERM
I Da li bi trebalo da radi?
I Odgovor bi trebalo da zavisi od svojstava skupa modela fw (x)I Koja je greska aproksimacije?
I Nesto kasnije...
I Da li je konvergencija aproksimacije uniformna i nezavisna od aproksimiranefunkcije?
I Moze biti, ali preskacemo...
60 / 303
![Page 71: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/71.jpg)
Pitanja vezana za ERM
I Da li bi trebalo da radi?
I Odgovor bi trebalo da zavisi od svojstava skupa modela fw (x)
I Koja je greska aproksimacije?
I Nesto kasnije...
I Da li je konvergencija aproksimacije uniformna i nezavisna od aproksimiranefunkcije?
I Moze biti, ali preskacemo...
60 / 303
![Page 72: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/72.jpg)
Pitanja vezana za ERM
I Da li bi trebalo da radi?
I Odgovor bi trebalo da zavisi od svojstava skupa modela fw (x)I Koja je greska aproksimacije?
I Nesto kasnije...
I Da li je konvergencija aproksimacije uniformna i nezavisna od aproksimiranefunkcije?
I Moze biti, ali preskacemo...
60 / 303
![Page 73: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/73.jpg)
Pitanja vezana za ERM
I Da li bi trebalo da radi?
I Odgovor bi trebalo da zavisi od svojstava skupa modela fw (x)I Koja je greska aproksimacije?
I Nesto kasnije...
I Da li je konvergencija aproksimacije uniformna i nezavisna od aproksimiranefunkcije?
I Moze biti, ali preskacemo...
60 / 303
![Page 74: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/74.jpg)
Pitanja vezana za ERM
I Da li bi trebalo da radi?
I Odgovor bi trebalo da zavisi od svojstava skupa modela fw (x)I Koja je greska aproksimacije?
I Nesto kasnije...
I Da li je konvergencija aproksimacije uniformna i nezavisna od aproksimiranefunkcije?
I Moze biti, ali preskacemo...
60 / 303
![Page 75: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/75.jpg)
Pitanja vezana za ERM
I Da li bi trebalo da radi?
I Odgovor bi trebalo da zavisi od svojstava skupa modela fw (x)I Koja je greska aproksimacije?
I Nesto kasnije...
I Da li je konvergencija aproksimacije uniformna i nezavisna od aproksimiranefunkcije?
I Moze biti, ali preskacemo...
60 / 303
![Page 76: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/76.jpg)
ERM za klasifikaciju
I Sta treba da minimizujemo?
I Broj gresaka na trening skupu
I Indikatorska funkcija:
I (F ) =
1 ako vazi F0 ako vazi ¬F
I Funkcija greske: L(u, v) = I (u 6= v)
I Optimizacioni problem:
minw
1
N
N∑i=1
I (yi 6= fw (xi ))
61 / 303
![Page 77: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/77.jpg)
ERM za klasifikaciju
I Sta treba da minimizujemo?
I Broj gresaka na trening skupu
I Indikatorska funkcija:
I (F ) =
1 ako vazi F0 ako vazi ¬F
I Funkcija greske: L(u, v) = I (u 6= v)
I Optimizacioni problem:
minw
1
N
N∑i=1
I (yi 6= fw (xi ))
61 / 303
![Page 78: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/78.jpg)
ERM za klasifikaciju
I Sta treba da minimizujemo?
I Broj gresaka na trening skupu
I Indikatorska funkcija:
I (F ) =
1 ako vazi F0 ako vazi ¬F
I Funkcija greske: L(u, v) = I (u 6= v)
I Optimizacioni problem:
minw
1
N
N∑i=1
I (yi 6= fw (xi ))
61 / 303
![Page 79: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/79.jpg)
Regresija
0 2 4 6 8 10
−4
−2
02
4
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
62 / 303
![Page 80: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/80.jpg)
Regresija
I Regresiona funkcija: r(x) = E(y |x) =∫y p(y |x)dy
I Ako vazi r(x) = fw (x) za neko w∗, tada se minimum rizika dostize bas za w∗:
R(w) = E[(y − fw (x))2]
I U opstem slucaju, minimum R(w) se dostize za funkciju najblizu2 funkciji r(x)
2U odnosu na `2 normu63 / 303
![Page 81: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/81.jpg)
ERM za regresiju
I Funkcija greske:L(u, v) = (u − v)2
I Optimizacioni problem:
minw
1
N
N∑i=1
(yi − fw (xi ))2
64 / 303
![Page 82: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/82.jpg)
Koliko dobro se model moze prilagoditi podacima?
I Imajmo u vidu problem regresije
I Jednostavna linearna regresija: fw (x) = w0 + w1x
I Polinomijalna linearna regresija: fw (x) =∑n
i=0 wixi
65 / 303
![Page 83: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/83.jpg)
Jednostavna linearna regresija
5 10 15 20
05
1015
20
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
66 / 303
![Page 84: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/84.jpg)
Polinomijalna linearna regresija
5 10 15 20
05
1015
20
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
67 / 303
![Page 85: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/85.jpg)
Preprilagodavanje (eng. overfitting)
I Dobra prilagodenost modela trening podacima ne obezbeduje dobru generalizaciju
I Uporediti sa ucenjem napamet
I Uzrok problema je prevelika prilagodljivost modela
I Upravljanje prilagodljivoscu modela je od kljucnog znacaja za dobru generalizaciju!
I Ovo je glavni problem masinskog ucenja i izvor njegove najdublje teorije
68 / 303
![Page 86: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/86.jpg)
Kako uciniti modele manje prilagodljivim?
I Izabrati neprilagodljivu reprezentaciju (npr. linearni modeli)?
I Moguce, ali takav pristup je previse krut i nije podlozan finom podesavanju
I Da li je moguce fino podesavati prilagodljivost modela nezavisno od izabranereprezentacije?
69 / 303
![Page 87: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/87.jpg)
Kako uciniti modele manje prilagodljivim?
I Izabrati neprilagodljivu reprezentaciju (npr. linearni modeli)?
I Moguce, ali takav pristup je previse krut i nije podlozan finom podesavanju
I Da li je moguce fino podesavati prilagodljivost modela nezavisno od izabranereprezentacije?
69 / 303
![Page 88: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/88.jpg)
Kako uciniti modele manje prilagodljivim?
I Izabrati neprilagodljivu reprezentaciju (npr. linearni modeli)?
I Moguce, ali takav pristup je previse krut i nije podlozan finom podesavanju
I Da li je moguce fino podesavati prilagodljivost modela nezavisno od izabranereprezentacije?
69 / 303
![Page 89: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/89.jpg)
Regularizacija (1)
I Minimizacija regularizovane greske:
minw
1
N
N∑i=1
L(yi , fw (xi )) + λΩ(w)
I Cest izbor regularizacionog izraza Ω je kvadrat `2 norme
Ω(w) = ‖w‖22 =
n∑i=1
w2i
I Regularizacioni izraz kaznjava visoke apsolutne vrednosti parametara, cineci modelmanje prilagodljivim
I Regularizacioni parametar λ sluzi za fino podesavanje prilagodljivosti modela
70 / 303
![Page 90: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/90.jpg)
Regularizacija (1)
I Minimizacija regularizovane greske:
minw
1
N
N∑i=1
L(yi , fw (xi )) + λΩ(w)
I Cest izbor regularizacionog izraza Ω je kvadrat `2 norme
Ω(w) = ‖w‖22 =
n∑i=1
w2i
I Regularizacioni izraz kaznjava visoke apsolutne vrednosti parametara, cineci modelmanje prilagodljivim
I Regularizacioni parametar λ sluzi za fino podesavanje prilagodljivosti modela
70 / 303
![Page 91: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/91.jpg)
Regularizacija (2)
I U slucaju linearnih modela fw (x) =∑n
i=1 wixi vazi
w = ∇x fw (x)
I Koji je efekat regularizacije?
I Ogranicavanje gradijenta ogranicava brzinu promene funkcije
I U opstijem smislu, regularizacijom se naziva bilo koja modifikacija optimizacionogproblema koja ogranicava prilagodljivost modela i cini ga manje podloznimpreprilagodavanju
I U jos opstijem smislu, regularizacija je bilo kakva modifikacija matematickogproblema koja ga cini bolje uslovljenim
71 / 303
![Page 92: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/92.jpg)
Regularizacija (2)
I U slucaju linearnih modela fw (x) =∑n
i=1 wixi vazi
w = ∇x fw (x)
I Koji je efekat regularizacije?
I Ogranicavanje gradijenta ogranicava brzinu promene funkcije
I U opstijem smislu, regularizacijom se naziva bilo koja modifikacija optimizacionogproblema koja ogranicava prilagodljivost modela i cini ga manje podloznimpreprilagodavanju
I U jos opstijem smislu, regularizacija je bilo kakva modifikacija matematickogproblema koja ga cini bolje uslovljenim
71 / 303
![Page 93: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/93.jpg)
Primer regularizacije – klasifikacioni model
I Linearni klasifikacioni model:
fw (x) = w0 + w1x1 + w2x2
I Polinomijalni klasifikacioni model:
fw (x) =n∑
i=0
i∑j=0
wijxj1x
i−j2
72 / 303
![Page 94: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/94.jpg)
Primer regularizacije – podaci
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
73 / 303
![Page 95: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/95.jpg)
Primer regularizacije – linearni klasifikator
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
74 / 303
![Page 96: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/96.jpg)
Primer regularizacije – polinomijalni klasifikator
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
75 / 303
![Page 97: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/97.jpg)
Primer regularizacije – regularizovani polinomijalni klasifikator
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
76 / 303
![Page 98: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/98.jpg)
Primer regularizacije – regularizovani polinomijalni klasifikator
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
77 / 303
![Page 99: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/99.jpg)
Primer regularizacije – regularizovani polinomijalni klasifikator
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
78 / 303
![Page 100: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/100.jpg)
Primer regularizacije – regularizovani polinomijalni klasifikator
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
79 / 303
![Page 101: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/101.jpg)
Primer regularizacije – regularizovani polinomijalni klasifikator
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
80 / 303
![Page 102: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/102.jpg)
Primer regularizacije – regularizovani polinomijalni klasifikator
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
81 / 303
![Page 103: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/103.jpg)
Sistematsko odstupanje i varijansa
Slika: P.-N. Tan, M. Steinbach, V. Kumar, Introduction to Data Mining. Modified.
82 / 303
![Page 104: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/104.jpg)
Nagodba izmedu sistematskog odstupanja i varijanse
E[(fw (x)− r(x))2] = E[(fw (x)− E[fw (x)] + E[fw (x)]− r(x))2]
= (E[fw (x)]− r(x))2︸ ︷︷ ︸sistematsko odstupanje2
+E[(fw (x)− E[fw (x)])2]︸ ︷︷ ︸varijansa
I gde je ocekivanje po mogucim uzorcima podataka
83 / 303
![Page 105: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/105.jpg)
Sistematsko odstupanje i varijansa
84 / 303
![Page 106: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/106.jpg)
Sistematsko odstupanje i varijansa
85 / 303
![Page 107: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/107.jpg)
Sistematsko odstupanje i varijansa
86 / 303
![Page 108: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/108.jpg)
Sistematsko odstupanje i varijansa
87 / 303
![Page 109: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/109.jpg)
Sistematsko odstupanje i varijansa
88 / 303
![Page 110: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/110.jpg)
Nagodba izmedu sistematskog odstupanja i varijanse i uslovljenost
I U slucaju fleksibilnih modela, nauceni model dramaticno varira u zavisnosti odnebitnih promena u podacima
I To znaci visoku varijansu predvidanja, kao i da je problem ucenja lose uslovljen
89 / 303
![Page 111: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/111.jpg)
Nagodba izmedu sistematskog odstupanja i varijanse i regularizacija
I Regularizacijom se menja optimizacioni problem, tako sto se smanjuje fleksibilnostmodela
I Ovim se unosi sistematsko odstupanje u resenje, ali se varijansa smanjuje visenego sto se sistematsko odstupanje povecava!
I To objasnjava smanjenje greske u slucaju regularizovanih modela
90 / 303
![Page 112: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/112.jpg)
Nagodba izmedu sistematskog odstupanja i varijanse
Slika: T. Hastie, R. Tibshirani, J. Friedman, Elements of Statistical Learning, 2001.
91 / 303
![Page 113: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/113.jpg)
Prilagodljivost modela
I Razmatramo samo problem binarne klasifikacije
I U strogom smislu, ne analiziraju se pojedinacni modeli, vec skup mogucih modela
I Kada kazemo da je reprezentacija modela slozena ili prilagodljiva ili da je skupsvih modela bogat?
I Ako moze da razlikuje sva razlicita obelezavanja podataka
I Na koliko tacaka?
I Sto je veci broj tacaka, veca je prilagodljivost
92 / 303
![Page 114: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/114.jpg)
Prilagodljivost modela
I Razmatramo samo problem binarne klasifikacije
I U strogom smislu, ne analiziraju se pojedinacni modeli, vec skup mogucih modela
I Kada kazemo da je reprezentacija modela slozena ili prilagodljiva ili da je skupsvih modela bogat?
I Ako moze da razlikuje sva razlicita obelezavanja podataka
I Na koliko tacaka?
I Sto je veci broj tacaka, veca je prilagodljivost
92 / 303
![Page 115: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/115.jpg)
Prilagodljivost modela
I Razmatramo samo problem binarne klasifikacije
I U strogom smislu, ne analiziraju se pojedinacni modeli, vec skup mogucih modela
I Kada kazemo da je reprezentacija modela slozena ili prilagodljiva ili da je skupsvih modela bogat?
I Ako moze da razlikuje sva razlicita obelezavanja podataka
I Na koliko tacaka?
I Sto je veci broj tacaka, veca je prilagodljivost
92 / 303
![Page 116: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/116.jpg)
Prilagodljivost modela
I Razmatramo samo problem binarne klasifikacije
I U strogom smislu, ne analiziraju se pojedinacni modeli, vec skup mogucih modela
I Kada kazemo da je reprezentacija modela slozena ili prilagodljiva ili da je skupsvih modela bogat?
I Ako moze da razlikuje sva razlicita obelezavanja podataka
I Na koliko tacaka?
I Sto je veci broj tacaka, veca je prilagodljivost
92 / 303
![Page 117: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/117.jpg)
Prave razlikuju razlicita obelezavanja tacaka
Slika: T. Hastie, R. Tibshirani, J. Friedman, Elements of Statistical Learning, 2001.Modifikovano. 93 / 303
![Page 118: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/118.jpg)
VC dimenzija za indikatorske funkcije
I F = f | f : Rn → 0, 1I X ⊆ Rn oznacava skup tacaka
I F|X je skup restrikcija funkcija iz skupa F na domen XI F razbija X ukoliko vazi |F|X | = 2|X |
I Vapnik Cervonenkisova (VC) dimenzija skupa F je najveci broj N takav da postojiskup X kardinalnosti N koji F razbija
I Ako takav broj ne postoji, onda kazemo da je VC dimenzija beskonacna
94 / 303
![Page 119: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/119.jpg)
VC dimenzija – primer
I Kolika je VC dimenzija skupa svih linearnih modela sa n parametara
I Mogu se posmatrati kao hiperravni u n − 1 dimenzionalnom prostoru
I Stoga je VC dimenzija n
I Da li ovo vazi za bilo koju vrstu modela?
I Kolika je VC dimenzija skupa I (sin(wx) > 0)?I Beskonacna je!
I Za bilo koji broj N, mogu se izabrati tacke xi = 10−i , i = 1, 2, . . . ,N
I Za bilo koje oznake y1, y2, . . . , yN ∈ −1, 1, dovoljno je izabrati
w = π
(1 +
N∑i=1
(1− yi )10i
2
)
95 / 303
![Page 120: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/120.jpg)
VC dimenzija – primer
I Kolika je VC dimenzija skupa svih linearnih modela sa n parametara
I Mogu se posmatrati kao hiperravni u n − 1 dimenzionalnom prostoru
I Stoga je VC dimenzija n
I Da li ovo vazi za bilo koju vrstu modela?
I Kolika je VC dimenzija skupa I (sin(wx) > 0)?I Beskonacna je!
I Za bilo koji broj N, mogu se izabrati tacke xi = 10−i , i = 1, 2, . . . ,N
I Za bilo koje oznake y1, y2, . . . , yN ∈ −1, 1, dovoljno je izabrati
w = π
(1 +
N∑i=1
(1− yi )10i
2
)
95 / 303
![Page 121: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/121.jpg)
VC dimenzija – primer
I Kolika je VC dimenzija skupa svih linearnih modela sa n parametara
I Mogu se posmatrati kao hiperravni u n − 1 dimenzionalnom prostoru
I Stoga je VC dimenzija n
I Da li ovo vazi za bilo koju vrstu modela?
I Kolika je VC dimenzija skupa I (sin(wx) > 0)?I Beskonacna je!
I Za bilo koji broj N, mogu se izabrati tacke xi = 10−i , i = 1, 2, . . . ,N
I Za bilo koje oznake y1, y2, . . . , yN ∈ −1, 1, dovoljno je izabrati
w = π
(1 +
N∑i=1
(1− yi )10i
2
)
95 / 303
![Page 122: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/122.jpg)
VC dimenzija – primer
I Kolika je VC dimenzija skupa svih linearnih modela sa n parametara
I Mogu se posmatrati kao hiperravni u n − 1 dimenzionalnom prostoru
I Stoga je VC dimenzija n
I Da li ovo vazi za bilo koju vrstu modela?
I Kolika je VC dimenzija skupa I (sin(wx) > 0)?I Beskonacna je!
I Za bilo koji broj N, mogu se izabrati tacke xi = 10−i , i = 1, 2, . . . ,N
I Za bilo koje oznake y1, y2, . . . , yN ∈ −1, 1, dovoljno je izabrati
w = π
(1 +
N∑i=1
(1− yi )10i
2
)
95 / 303
![Page 123: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/123.jpg)
VC dimenzija – primer
I Kolika je VC dimenzija skupa svih linearnih modela sa n parametara
I Mogu se posmatrati kao hiperravni u n − 1 dimenzionalnom prostoru
I Stoga je VC dimenzija n
I Da li ovo vazi za bilo koju vrstu modela?
I Kolika je VC dimenzija skupa I (sin(wx) > 0)?
I Beskonacna je!
I Za bilo koji broj N, mogu se izabrati tacke xi = 10−i , i = 1, 2, . . . ,N
I Za bilo koje oznake y1, y2, . . . , yN ∈ −1, 1, dovoljno je izabrati
w = π
(1 +
N∑i=1
(1− yi )10i
2
)
95 / 303
![Page 124: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/124.jpg)
VC dimenzija – primer
I Kolika je VC dimenzija skupa svih linearnih modela sa n parametara
I Mogu se posmatrati kao hiperravni u n − 1 dimenzionalnom prostoru
I Stoga je VC dimenzija n
I Da li ovo vazi za bilo koju vrstu modela?
I Kolika je VC dimenzija skupa I (sin(wx) > 0)?I Beskonacna je!
I Za bilo koji broj N, mogu se izabrati tacke xi = 10−i , i = 1, 2, . . . ,N
I Za bilo koje oznake y1, y2, . . . , yN ∈ −1, 1, dovoljno je izabrati
w = π
(1 +
N∑i=1
(1− yi )10i
2
)
95 / 303
![Page 125: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/125.jpg)
Granica rizika
I h je VC dimenzija skupa modela FI Sa verovatnocom bar µ, vazi
R(w) ≤ E (w ,D) + c(h, |D|, µ)
za sve modele iz skupa FI c opada kako |D| raste, a raste kako rastu h i µ
96 / 303
![Page 126: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/126.jpg)
Granica rizika
Slika: T. Hastie, R. Tibshirani, J. Friedman, Elements of Statistical Learning, 2001.Modifikovano.
97 / 303
![Page 127: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/127.jpg)
Znacaj VC dimenzije
I Kvantifikuje bogatstvo skupa modela i njegov potencijal da generalizuje!
I Nudi dubok uvid u to sta cini generalizaciju mogucom
I Ima duboke veze sa Poperovom filozofijom nauke
I ...ali, u opstem slucaju, VC dimenziju nije lako izracunati
98 / 303
![Page 128: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/128.jpg)
Znacaj VC dimenzije
I Kvantifikuje bogatstvo skupa modela i njegov potencijal da generalizuje!
I Nudi dubok uvid u to sta cini generalizaciju mogucom
I Ima duboke veze sa Poperovom filozofijom nauke
I ...ali, u opstem slucaju, VC dimenziju nije lako izracunati
98 / 303
![Page 129: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/129.jpg)
Treniranje i testiranje
I Kako se rizik ne moze lako teorijski oceniti, obicno se kvalitet naucenog modelaproverava na podacima koji nisu ucestvovali u izboru modela
I Proces izbora modela se naziva treningom, a skup podataka na osnovu kojih se tajizbor vrsi, trening skupom
I Skup podataka na kojima se model evaluira se naziva test skupom
I Najjednostavniji pristup je odvojiti oko 70% svih podataka za treniranje, a 30% zatestiranje
I Postoje i komplikovaniji (i pouzdaniji) pristupi evaluaciji modela
99 / 303
![Page 130: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/130.jpg)
Pregled
Uopsteno o masinskom ucenju
Neformalan podsetnik verovatnoce i statistike
Teorijske osnove nadgledanog ucenja
Popularni modeli i algoritmi nadgledanog ucenja
Dizajn algoritama nadgledanog ucenja
Procena kvaliteta i izbor modela
Finalni saveti
100 / 303
![Page 131: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/131.jpg)
k najblizih suseda
I Za instancu koju je potrebno klasifikovati, pronaci k najblizih instanci u treningskupu
I Instancu klasifikovati u najfrekventniju klasu medu tim susedima
I Zahteva metriku (najcesce se koristi euklidska)
101 / 303
![Page 132: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/132.jpg)
Stabilnost
0
A
B
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
102 / 303
![Page 133: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/133.jpg)
Granice izmedu klasa
Slika: K. Murphy, Machine Learning, A Probabilistic Perspective, 2012.
103 / 303
![Page 134: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/134.jpg)
Granice izmedu klasa
Slika: T. Hastie, R. Tibshirani, J. Friedman, Elements of Statistical Learning, 2001.
104 / 303
![Page 135: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/135.jpg)
Primer
Hladnoca Curenje iz nosa Glavobolja Groznica Grip
Da Ne Blaga Da NeDa Da Ne Ne DaDa Ne Jaka Da DaNe Da Blaga Da DaNe Ne Ne Ne NeNe Da Jaka Da DaNe Da Jaka Ne NeDa Da Blaga Da Da
I Metrika:
d(u, v) =n∑
i=1
I (ui 6= vi )
I Koja je klasa instance (Da,Ne,Blaga,Ne) ako se uzima u obzir 1 najblizi sused?
I Klasa je ,,Ne“, posto je najblizi prvi primer iz tabele
105 / 303
![Page 136: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/136.jpg)
Primer
Hladnoca Curenje iz nosa Glavobolja Groznica Grip
Da Ne Blaga Da NeDa Da Ne Ne DaDa Ne Jaka Da DaNe Da Blaga Da DaNe Ne Ne Ne NeNe Da Jaka Da DaNe Da Jaka Ne NeDa Da Blaga Da Da
I Metrika:
d(u, v) =n∑
i=1
I (ui 6= vi )
I Koja je klasa instance (Da,Ne,Blaga,Ne) ako se uzima u obzir 1 najblizi sused?
I Klasa je ,,Ne“, posto je najblizi prvi primer iz tabele
105 / 303
![Page 137: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/137.jpg)
VC dimenzija
I Koja je VC dimenzija algoritma jednog najblizeg suseda?
I Beskonacna je!
I Svaki podatak iz trening skupa je svoj najblizi sused, pa ne postoji mogucnostgreske
106 / 303
![Page 138: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/138.jpg)
VC dimenzija
I Koja je VC dimenzija algoritma jednog najblizeg suseda?
I Beskonacna je!
I Svaki podatak iz trening skupa je svoj najblizi sused, pa ne postoji mogucnostgreske
106 / 303
![Page 139: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/139.jpg)
Kakav je kvalitet predvidanja?
I Neka je R stvarni rizik algoritma jednog najblizeg suseda
I Neka je R∗ najmanji rizik koji se moze postici u slucaju poznavanja tacnihraspodela M klasa
I Tada vazi:
R∗ ≤ R ≤ R∗(
2− M
M − 1R∗)
I Zvuci ohrabrujuce, ali...
I ...ako imamo velike kolicine podataka
107 / 303
![Page 140: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/140.jpg)
Kakav je kvalitet predvidanja?
I Neka je R stvarni rizik algoritma jednog najblizeg suseda
I Neka je R∗ najmanji rizik koji se moze postici u slucaju poznavanja tacnihraspodela M klasa
I Tada vazi:
R∗ ≤ R ≤ R∗(
2− M
M − 1R∗)
I Zvuci ohrabrujuce, ali...
I ...ako imamo velike kolicine podataka
107 / 303
![Page 141: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/141.jpg)
Neintuitivnost visokodimenzionalnih prostora
I Posmatrajmo n dimenzionalne kocke sa stranicom duzine 1 i stranicom duzine 0.99
limn→∞
V n0.99
V n1
= limn→∞
0.99n
1n= 0
I Slicno vazi i za druge oblike (npr. lopte)
I U visokodimenzionalnim prostorima prakticno sve tacke lopte su vrlo daleko odcentra
I U visokodimenzionalnim prostorima se distance ponasaju nesto drugacije nego stoocekujemo
I Nekoliko radova ukazuje na malu varijaciju distanci u visokodimenzionalnimprostorima, sto je nepovoljno za algoritam k najblizih suseda
108 / 303
![Page 142: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/142.jpg)
Potrebna velicina trening skupa
I Posmatrajmo tacke rasporedene u okviru jedinicne kocke
I Neka svaka tacka ima suseda na rastojanju, recimo 0.1
I Broj tacaka koji nam treba da bismo popunili n dimenzionalnu kocku je 11d
I Sa porastom dimenzionalnosti, broj potrebnih tacaka eksponencijalno raste
I k najblizih suseda pociva na pretpostavci da ce biti bliskih suseda
I Fenomen da je za adekvatno ucenje potrebno eksponencijalno mnogo podataka uodnosu na dimenziju prostora se naziva prokletstvom dimenzionalnosti
109 / 303
![Page 143: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/143.jpg)
Primena – algoritamski portfolio (1)
I Za resavanje instance nekog problema, cesto je moguce upotrebiti razlicitealgoritme
I U slucaju kombinatornih problema, cesto se desava da su za razlicite instanceproblema pogodni razliciti algoritmi
I Algoritamski portfolio se sastoji od skupa algoritama i mehanizma izbora jednogod algoritama za datu instancu problema (postoje i drugacije definicije)
I Jedan takav problem je problem zadovoljivosti iskaznih formula (SAT), koji imabrojne primene
I Implementacije algoritama koji ga resavaju se nazivaju SAT resavacima
I Kako izabrati SAT resavac za datu ulaznu instancu?
I Neki od najuspesnijih pristupa izgradnji algoritamskog portfolija za SAT zasnivajuse na algoritmu k najblizih suseda
110 / 303
![Page 144: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/144.jpg)
Primena – algoritamski portfolio (2)
I Na raspolaganju su vektori atributa i vremena resavanja velikog broja instanci kojecine trening skup
I Za ulaznu instancu se racuna vektor atributa i pronalazi se k najblizih suseda utrening skupu
I Pronalazi se SAT resavac koji najefikasnije resava tih k susednih instanci
I Taj resavac se primenjuje na ulaznu instancu
I Znacajno ubrzanje i pojednostavljenje u odnosu na dotadasnje pristupe
111 / 303
![Page 145: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/145.jpg)
Prednosti i mane
I Prednosti:I JednostavnostI Lokalnost – nije potrebno graditi model za ceo skup podataka u kojem mozda ne
vazi isti trendI Proizvoljni oblici granica izmedu klasa
I Mane:I Standardizacija je neophodnaI Neotporan na ponovljene atributeI Prokletstvo dimenzionalnostiI Nedostatak interpretabilnosti
112 / 303
![Page 146: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/146.jpg)
Naivni Bajesov klasifikator (1)
I Naivni Bajesov klasifikator se zasniva na primeni Bajesove formule:
p(y |x) =p(x |y)p(y)
p(x)
I Za dato x , od svih ishoda y bira se onaj sa maksimalnom verovatnocom p(y |x)
I Problem?
I Za ocenu verovatnoca p(x |y) i p(x), potrebno je eksponencijalno mnogopodataka u odnosu na broj atributa
113 / 303
![Page 147: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/147.jpg)
Naivni Bajesov klasifikator (1)
I Naivni Bajesov klasifikator se zasniva na primeni Bajesove formule:
p(y |x) =p(x |y)p(y)
p(x)
I Za dato x , od svih ishoda y bira se onaj sa maksimalnom verovatnocom p(y |x)
I Problem?
I Za ocenu verovatnoca p(x |y) i p(x), potrebno je eksponencijalno mnogopodataka u odnosu na broj atributa
113 / 303
![Page 148: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/148.jpg)
Naivni Bajesov klasifikator (2)
I ,,Naivna“ pretpostavka podrazumeva uslovnu nezavisnost atributa:
p(x |y) ≈n∏
i=1
p(xi |y)
I To je slabija pretpostavka od nezavisnosti atributa
I p(xi |y) i p(y) se mogu lako oceniti iz podataka posto su raspodele jednepromenljive
I p(x) ne zavisi od y , pa se ni ne modeluje
114 / 303
![Page 149: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/149.jpg)
Uslovna nezavisnost atributa – primer
115 / 303
![Page 150: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/150.jpg)
Prednosti i mane naivnog Bajesovog klasifikatora
I Prednosti:I Efikasan trening i predvidanjeI Nije osetljiv na prisustvo nebitnih atributa (imaju iste raspodele u svim klasama)I Ne zavisi od vrste atributa (kategoricki ili kontinualni)I Lako se azurira kako pristizu podaci
I Mane:I Pretpostavlja uslovnu nezavisnost atributaI Ako se neke vrednosti atributa ne pojavljuju u trening skupu, dodeljuje im
verovatnocu 0, sto nije realisticno
116 / 303
![Page 151: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/151.jpg)
Naivni Bajesov klasifikator – primer
Hladnoca Curenje iz nosa Glavobolja Groznica Grip
Da Ne Blaga Da NeDa Da Ne Ne DaDa Ne Jaka Da DaNe Da Blaga Da DaNe Ne Ne Ne NeNe Da Jaka Da DaNe Da Jaka Ne NeDa Da Blaga Da Da
p(Da|Da,Ne,Blaga,Ne) ∼ p(Hla = Da|Da)p(Cur = Ne|Da)p(Gla = Blaga|Da)p(Gro = Ne|Da)p(Grip = Da)
=3
5
1
5
2
5
1
5
5
8=
3
500
p(Ne|Da,Ne,Blaga,Ne) ∼ p(Hla = Da|Ne)p(Cur = Ne|Ne)p(Gla = Blaga|Ne)p(Gro = Ne|Ne)p(Grip = Ne)
=1
3
2
3
1
3
2
3
3
8=
1
54
117 / 303
![Page 152: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/152.jpg)
Primena – razresavanje viseznacnosti reci
I Neke reci se mogu sa jednog jezika prevesti na drugi na vise nacina (npr. like)
I Viseznacnost se cesto moze razresiti na osnovu konteksta
I Ako su u i v susedne reci, pravilo izbora prevoda je:
arg maxx
p(x |u, v)
I Takode, primenjivan u klasifikaciji teksta, detekciji nezeljene poste, prepoznavanjukaraktera, prepoznavanju govora, itd.
118 / 303
![Page 153: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/153.jpg)
Logisticka regresija
I Neka vazi y ∈ 0, 1I Zelimo da modelujemo verovatnocu p(y |x)
I Razmotrimo linearnu formu modela:
fw (x) = w0 +n∑
i=1
wixi
I Sto je tacka dalje od razdvajajuce hiperravni, to je verovatnoca pripadanjaodgovarajucoj klasi veca
I Medutim, fw (x) nije u intervalu [0, 1]
I Zbog toga se koristi sigmoidna funkcija:
σ(x) =1
1 + exp(−x)
119 / 303
![Page 154: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/154.jpg)
Sigmoidna funkcija
Slika: https://en.wikipedia.org/wiki/Sigmoid function
120 / 303
![Page 155: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/155.jpg)
Logisticka regresija
I Forma modela:fw (x) = σ(w · x)
I Zeljenu verovatnocu modelujemo kao pw (y |x) = fw (x)y (1− fw (x))1−y
I Kako izabrati parametre w?
121 / 303
![Page 156: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/156.jpg)
Logisticka regresija
I Uslovna verovatnoca opazanja iz skupa podataka je
N∏i=1
pw (yi |xi )
I Ova vrednost se naziva verodostojnoscu parametaraI Potrebno je naci vrednosti parametara w cija je verodostojnost najvecaI Kako su sume numericki i analiticki pogodnije od proizvoda, razmatra se
logaritam ovog proizvodaI Obicno se umesto maksimizacije koristi minimizacija, pa se razmatra negativna
vrednost logaritmaI Negativna vrednost logaritma verodostojnosti:
L(w) = −N∑i=1
log pw (yi |xi ) = −N∑i=1
[yi log fw (xi ) + (1− yi ) log(1− fw (xi ))]
122 / 303
![Page 157: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/157.jpg)
Logisticka regresija
I Optimizacioni problem
minw−
N∑i=1
[yi log fw (xi ) + (1− yi ) log(1− fw (xi ))]
I Ova funkcija je konveksna, pa ima jedinstven globalni minimum
I Za optimizaciju se obicno koristi Njutnova metoda
123 / 303
![Page 158: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/158.jpg)
Primena – ...svuda
I Predvidanje 30-dnevnog mortaliteta od infarkta na osnovu zdravstvenih podataka(pol, visina, tezina, pusenje, krvni pritisak, itd.)
I Posebna popularnost u medicniskim primenama
I Standardni model za poredenje prilikom klasifikacije
124 / 303
![Page 159: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/159.jpg)
Metoda potpornih vektora (SVM)
I Neka vazi y ∈ −1, 1I Model:
fw ,w0(x) = w · x + w0
I Margina razdvajajuce hiperravni je minimum rastojanja od te hiperravni do nekeod tacaka iz skupa podataka
I Medu svim razdvajajucim hiperavnima, potrebno je naci optimalnu – onu sanajvecom marginom
I Za svaku od tacaka x , rastojanje do hiperravni je
|w · x + w0|‖w‖
125 / 303
![Page 160: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/160.jpg)
Ilustracija razdvajajucih hiperravni
Slika: OpenCV, Introduction to Support Vector Machines.
126 / 303
![Page 161: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/161.jpg)
Ilustracija optimalne razdvajajuce hiperravni
Slika: https://en.wikipedia.org/wiki/Support vector machine
127 / 303
![Page 162: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/162.jpg)
Osnovna formulacija
I Optimizacioni problem:
minw ,w0
‖w‖2
yi (w · xi + w0) ≥ 1 i = 1, . . . ,N
128 / 303
![Page 163: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/163.jpg)
Linearno neseparabilan slucaj
I U slucaju da podaci nisu linearno separabilni, potrebno je dozvoliti greske, ali uzteznju da se njihov broj i intenzitet minimizuju:
minw ,w0
‖w‖2
2+ C
(N∑i=1
ξi
)
yi (w · xi + w0) ≥ 1− ξi , i = 1, . . . ,N
ξi ≥ 0, i = 1, . . . ,N
129 / 303
![Page 164: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/164.jpg)
Resenje optimizacionog problema
I Problem kvadratnog programrianja, a postoje specijalizovani metodi za njegovoresavanje
I Resenje je oblika:
w =N∑i=1
αiyixi
gde su αi Lagranzovi mnozioci za koje vazi 0 ≤ αi ≤ C
I Podaci xi za koje je αi > 0 su potporni vektori
I Model je onda oblika
fw ,w0(x) =N∑i=1
αiyi xi · x + w0
I Klasa se odreduje funkcijom sgn(fw ,w0(x))
130 / 303
![Page 165: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/165.jpg)
Sta ako granica izmedu klasa nije hiperravan?
I Hiperravan nije uvek pogodna granica izmedu klasa
I Resenje je se podaci preslikaju u neki visokodimenzionalni prostor
131 / 303
![Page 166: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/166.jpg)
Preslikavanje u visokodimenzionalni prostor
(x1, x2) 7→ (x1, x2, x21 + x2
2 )
Slika: http://www.eric-kim.net/eric-kim-net/posts/1/kernel trick.html
132 / 303
![Page 167: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/167.jpg)
Kernel
I Matrica K je pozitivno semidefinitna ukoliko za svako x vazi xTKx ≥ 0
I Neka je X neprazan skup
I Neka je k funkcija k : X × X → RI Ako je za svako n ∈ N i svako x1, . . . , xn ∈ X matrica dimenzija n × n sa
elementima k(xi , xj) pozitivno semidefinitna, funkcija k je (pozitivnosemidefinitan) kernel
I Za svaki kernel k postoji preslikavanje Φ iz X u neki prostor H sa skalarnimproizvodom tako da vazi k(u, v) = Φ(u) · Φ(v)
133 / 303
![Page 168: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/168.jpg)
Primeri kernela
I Polinomijalni kernel:k(u, v) = (u · v + 1)d
I Gausov kernel:k(u, v) = e−γ‖u−v‖
2
134 / 303
![Page 169: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/169.jpg)
Kernel trik
I Ako se skalarni proizvod u Rn zameni kernelom k , model ima oblik:
fw ,w0(x) =N∑i=1
αiyi k(xi , x) + w0
I Nista drugo se ne menja u metodu, posto kernel jeste skalarni proizvod u nekomprostoru!
I Reprezentacije podataka u tom prostoru se ne konstruisu eksplicitno
I Postoje kerneli koji odgovaraju skalarnim proizvodima ubeskonacnodimenzionalnim prostorima, a izracunavaju se efikasno
135 / 303
![Page 170: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/170.jpg)
Dejstvo Gausovog kernela
Slika: A. Sharma, Support Vector Machine Without Tears. Modifikovano.
136 / 303
![Page 171: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/171.jpg)
VC dimenzija
I Vazi:h ≤ min([R2‖w‖2],N) + 1
I Optimizacioni problem izrazava minimizaciju gornje granice VC dimenzije!
I Gornja granica ne zavisi od dimenzionalnosti prostora!
137 / 303
![Page 172: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/172.jpg)
VC dimenzija
I Kolika je VC dimenzija skupa svih modela SVM sa gausovim kernelom saproizvoljnim vrednostima paramera γ?
I Beskonacna je!
I Kakav god da je raspored podataka i kakvo god da je obelezavanje, postojidovoljno velika vrednost γ (sto cini Gausovo zvono dovoljno uskim), tako da uzdovoljno potpornih vektora greska bude 0
138 / 303
![Page 173: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/173.jpg)
VC dimenzija
I Kolika je VC dimenzija skupa svih modela SVM sa gausovim kernelom saproizvoljnim vrednostima paramera γ?
I Beskonacna je!
I Kakav god da je raspored podataka i kakvo god da je obelezavanje, postojidovoljno velika vrednost γ (sto cini Gausovo zvono dovoljno uskim), tako da uzdovoljno potpornih vektora greska bude 0
138 / 303
![Page 174: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/174.jpg)
Primene
I Kategorizacija teksta
I Prepoznavanje objekata na slikama
I Prepoznavanje rukom pisanih cifara
I Dijagnoza raka dojke
I Medu algoritmima sa najboljim kvalitetom predvidanja u najrazlicitijim domenima
139 / 303
![Page 175: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/175.jpg)
Linearna regresija
I Forma modela:
fw (x) = w0 +n∑
i=1
wixi
I Minimizacioni problem
minw
N∑i=1
(yi − fw (xi ))2
I Matricna formulacijaminw‖y − Xw‖
I Resenjew = (XTX )−1XTY
I Ako su matrice prevelike za cuvanje i inverziju, koriste se gradijentne metodeoptimizacije
140 / 303
![Page 176: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/176.jpg)
Linearna regresija – primer
5 10 15 20
05
1015
20
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
141 / 303
![Page 177: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/177.jpg)
Linearna regresija
I Linearnost oznacava linearnost po parametrima
I Sledeci model je linearan model:
fw (x) = w0 +n∑
i=1
wixi
I Iako grafik ovakvog modela deluje nelinearno u koordinatnom sistemu sa jednomkoordinatom x , on ipak predstavlja hiperravan u koordinatnom sistemu(x , x2, . . . , xn)
142 / 303
![Page 178: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/178.jpg)
Linearna regresija – primer
5 10 15 20
05
1015
20
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
143 / 303
![Page 179: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/179.jpg)
Grebena (eng. ridge) linearna regresija
I Ako su kolone matrice X linearno zavisne, matrica XTX nije invertibilna
I Zato se razmatra regularizovani problem:
minw
N∑i=1
(yi − fw (xi ))2 + λ‖w‖22
I Resenjew = (XTX + λI )−1XTY
I Regularizacija cini da matrica koja se invertuje ima pun rang
144 / 303
![Page 180: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/180.jpg)
Primene
I Ustanovljavanje veze izmedu pusenja i rizika od bolesti
I Prvi algoritam koji vredi isprobati u svakom regresionom problemu
145 / 303
![Page 181: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/181.jpg)
Neuronske mreze
I Trenutno najpopularnija familija modela masinskog ucenja
I Od pocetka inspirisan strukturom mozga
I Osnove postavljene pedesetih (perceptron)
I Osamdesetih je predlozen algoritam propagacije unazad (eng. backpropagation)
I Pocetkom ovog veka su postali dostupni adekvatni racunski resursi i otkrivenialgoritmi za efikasan trening dubokih neuronskih mreza
I Vrlo sirok spektar primena
I Univerzalni aproksimator neprekidnih funkcija
I Puno varijanti specijalizovanih za razlicite probleme (propagacija unapred,rekurentne, konvolutivne)
146 / 303
![Page 182: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/182.jpg)
Neuronska mreza sa propagacijom unapred
I Neuronska mreza se sastoji od slojeva koji se sastoje od jedinica (neurona)
I Svi slojevi osim poslednjeg se nazivaju skriveni
I Svaka jedinica kao ulaze uzima izlaze jedinica iz prethodnog sloja
I Svaka jedinica racuna linearnu kombinaciju svojih ulaza, a potom vrsi nelinearnutransformaciju nad rezultatom
I Koriste se razlicite nelinearne transformacije, odnosno aktivacione funkcije
147 / 303
![Page 183: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/183.jpg)
Matematicka formulacija modela
I hi je vektor izlaza i-tog sloja mreze
I ai je vektor vrednosti linearnih kombinacija koje racinaju jedinice i-tog sloja preprimene aktivacione funkcije
I Model je definisan sledecim jednakostima:
h0 = x
ai = Wihi−1 + wi0
hi = g(ai )
gde su Wi matrice koeficijenata, wi0 vektori koeficijenata, a g aktivaciona funkcija
I Vektor svih koeficijenata modela bice obelezavan sa w
I Vazi fw (x) = hk , gde je k indeks poslednjeg sloja
148 / 303
![Page 184: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/184.jpg)
Ilustracija
Slika: D. Tanikic, V. Despotovic, Artificial Intelligence Techniques for Modelling ofTemperature in the Metal Cutting Process. Modifikovano.
149 / 303
![Page 185: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/185.jpg)
Izbor aktivacione funkcije
I Sigmoidna funkcija
I Tangens hiperbolicki
I ReLU: max(0, x)
150 / 303
![Page 186: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/186.jpg)
Regresija
I Prilikom primene neuronskih mreza na problem regresije, za poslednji nivo seobicno ne koristi aktivaciona funkcija
I Greska se definise kao srednje kvadratna greska
151 / 303
![Page 187: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/187.jpg)
Klasifikacija
I U slucaju klasifikacije, obicno se za poslednji nivo ne koristi aktivaciona funkcijag , vec vektorska funkcija softmax
softmax(ak) =
(exp(ak1)∑i exp(aki )
, . . . ,exp(akl)∑i exp(aki )
)I Softmax funkcija transformise izlaze tako da su nenegativni i sumiraju se na 1 i
stoga se mogu interpretirati kao raspodela verovatnoce po mogucim klasama, pricemu za svaku klasu postoji tacno jedan izlaz u poslednjim sloju
I Greska se definise kao negativna vrednost logaritma verodostojnosti parametara
152 / 303
![Page 188: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/188.jpg)
Kako se vrsi trening?
I Parametri bi se mogli varirati na razne nacine kako bi se videlo u kom pravcu semoze izvrsiti pomak kako bise dobila manja vrednost greske
I Takav postupak je racunski skup
I Gradijent daje pravac pomeranja u kojem se greska lokalno najbrze povecava
I Kako izracunati gradijent za gresku neuronske mreze?
153 / 303
![Page 189: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/189.jpg)
Propagacija unazad
I Algoritam koji je omogucio efikasan trening neuronskih mreza koriscenjemgradijenta
I Zasnovan na pravilu za izvod kompozicije funkcija
I Neka su funkcije g : Rm → Rn i f : Rn → R
∂i (f g) =n∑
j=1
(∂j f g)∂igj
154 / 303
![Page 190: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/190.jpg)
Izvod slozene funkcije - primer
f (g(h(x)))′ = f ′(g(h(x)))︸ ︷︷ ︸d
g(h(x))′ = f ′(g(h(x)))g ′(h(x))︸ ︷︷ ︸d
h(x)′ = f ′(g(h(x))g ′(h(x))h′(x)︸ ︷︷ ︸d
155 / 303
![Page 191: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/191.jpg)
Propagacija unazad
I Greska za mrezu sa k slojeva na jednoj instanci (hk je funkcija parametara w):
E (w) = L(y , hk) + λΩ(w)
I Gradijent na celom skupu podataka se dobija sabiranjem gradijenata napojedinacnim instancama
I Pretpostavlja se da je uradeno izracunavanje unapred, tako da su hi poznati
d = ∇hkL(y , hk)repeat
d = d g ′(ak)∇wk0
E (w) = d + λ∇wk0Ω(w)
∇WkE (w) = dhk−1
T + λ∇WkΩ(w)
d = WkTd
k = k − 1until k = 0;
156 / 303
![Page 192: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/192.jpg)
Propagacija unazad - primer
E(w ,D) = (h2 − 1)2
fw (x) = h2 = σ(w20 + w21σ(w10 + w11x))
d = ∇hkL(y , hk)repeat
d = d g ′(ak)∇wk0E(w) = d + λ∇wk0 Ω(w)∇WkE(w) = dhk−1
T + λ∇Wk Ω(w)d = Wk
Tdk = k − 1
until k = 0;
∇w0 ∇W
2w21(h2 − 1)σ′(a2)σ′(a1) 2w21(h2 − 1)σ′(a2)σ′(a1)x2(h2 − 1)σ′(a2) 2(h2 − 1)σ′(a2)σ(a1)
157 / 303
![Page 193: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/193.jpg)
Propagacija unazad - primer
E(w ,D) = (h2 − 1)2
fw (x) = h2 = σ(w20 + w21σ(w10 + w11x))
d = ∇hkL(y , hk)repeat
d = d g ′(ak)∇wk0E(w) = d + λ∇wk0 Ω(w)∇WkE(w) = dhk−1
T + λ∇Wk Ω(w)d = Wk
Tdk = k − 1
until k = 0;
d = 2(h2 − 1)
∇w0 ∇W
2w21(h2 − 1)σ′(a2)σ′(a1) 2w21(h2 − 1)σ′(a2)σ′(a1)x2(h2 − 1)σ′(a2) 2(h2 − 1)σ′(a2)σ(a1)
158 / 303
![Page 194: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/194.jpg)
Propagacija unazad - primer
E(w ,D) = (h2 − 1)2
fw (x) = h2 = σ(w20 + w21σ(w10 + w11x)︸ ︷︷ ︸a2
)
d = ∇hkL(y , hk)repeat
d = d g ′(ak)∇wk0E(w) = d + λ∇wk0 Ω(w)∇WkE(w) = dhk−1
T + λ∇Wk Ω(w)d = Wk
Tdk = k − 1
until k = 0;
d = 2(h2 − 1)σ′(a2)
∇w0 ∇W
2w21(h2 − 1)σ′(a2)σ′(a1) 2w21(h2 − 1)σ′(a2)σ′(a1)x2(h2 − 1)σ′(a2) 2(h2 − 1)σ′(a2)σ(a1)
159 / 303
![Page 195: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/195.jpg)
Propagacija unazad - primer
E(w ,D) = (h2 − 1)2
fw (x) = h2 = σ(w20 + w21σ(w10 + w11x)︸ ︷︷ ︸a2
)
d = ∇hkL(y , hk)repeat
d = d g ′(ak)∇wk0E(w) = d + λ∇wk0 Ω(w)∇WkE(w) = dhk−1
T + λ∇Wk Ω(w)d = Wk
Tdk = k − 1
until k = 0;
d = 2(h2 − 1)σ′(a2)
∇w0 ∇W
2w21(h2 − 1)σ′(a2)σ′(a1) 2w21(h2 − 1)σ′(a2)σ′(a1)x2(h2 − 1)σ′(a2) 2(h2 − 1)σ′(a2)σ(a1)
160 / 303
![Page 196: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/196.jpg)
Propagacija unazad - primer
E(w ,D) = (h2 − 1)2
fw (x) = h2 = σ(w20 + w21σ(w10 + w11x︸ ︷︷ ︸a1
)
︸ ︷︷ ︸a2
)
d = ∇hkL(y , hk)repeat
d = d g ′(ak)∇wk0E(w) = d + λ∇wk0 Ω(w)∇WkE(w) = dhk−1
T + λ∇Wk Ω(w)d = Wk
Tdk = k − 1
until k = 0;
d = 2(h2 − 1)σ′(a2)
∇w0 ∇W
2w21(h2 − 1)σ′(a2)σ′(a1) 2w21(h2 − 1)σ′(a2)σ′(a1)x2(h2 − 1)σ′(a2) 2(h2 − 1)σ′(a2)σ(a1)
161 / 303
![Page 197: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/197.jpg)
Propagacija unazad - primer
E(w ,D) = (h2 − 1)2
fw (x) = h2 = σ(w20 + w21σ(w10 + w11x︸ ︷︷ ︸a1
)
︸ ︷︷ ︸a2
)
d = ∇hkL(y , hk)repeat
d = d g ′(ak)∇wk0E(w) = d + λ∇wk0 Ω(w)∇WkE(w) = dhk−1
T + λ∇Wk Ω(w)d = Wk
Tdk = k − 1
until k = 0;
d = 2w21(h2 − 1)σ′(a2)
∇w0 ∇W
2w21(h2 − 1)σ′(a2)σ′(a1) 2w21(h2 − 1)σ′(a2)σ′(a1)x2(h2 − 1)σ′(a2) 2(h2 − 1)σ′(a2)σ(a1)
162 / 303
![Page 198: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/198.jpg)
Propagacija unazad - primer
E(w ,D) = (h2 − 1)2
fw (x) = h2 = σ(w20 + w21σ(w10 + w11x︸ ︷︷ ︸a1
)
︸ ︷︷ ︸a2
)
d = ∇hkL(y , hk)repeat
d = d g ′(ak)∇wk0E(w) = d + λ∇wk0 Ω(w)∇WkE(w) = dhk−1
T + λ∇Wk Ω(w)d = Wk
Tdk = k − 1
until k = 0;
d = 2w21(h2 − 1)σ′(a2)σ′(a1)
∇w0 ∇W
2w21(h2 − 1)σ′(a2)σ′(a1) 2w21(h2 − 1)σ′(a2)σ′(a1)x2(h2 − 1)σ′(a2) 2(h2 − 1)σ′(a2)σ(a1)
163 / 303
![Page 199: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/199.jpg)
Propagacija unazad - primer
E(w ,D) = (h2 − 1)2
fw (x) = h2 = σ(w20 + w21σ(w10 + w11x︸ ︷︷ ︸a1
)
︸ ︷︷ ︸a2
)
d = ∇hkL(y , hk)repeat
d = d g ′(ak)∇wk0E(w) = d + λ∇wk0 Ω(w)∇WkE(w) = dhk−1
T + λ∇Wk Ω(w)d = Wk
Tdk = k − 1
until k = 0;
d = 2w21(h2 − 1)σ′(a2)σ′(a1)
∇w0 ∇W
2w21(h2 − 1)σ′(a2)σ′(a1) 2w21(h2 − 1)σ′(a2)σ′(a1)x2(h2 − 1)σ′(a2) 2(h2 − 1)σ′(a2)σ(a1)
164 / 303
![Page 200: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/200.jpg)
Propagacija unazad - primer
E(w ,D) = (h2 − 1)2
fw (x) = h2 = σ(w20 + w21σ(w10 + w11x︸ ︷︷ ︸a1
)
︸ ︷︷ ︸a2
)
d = ∇hkL(y , hk)repeat
d = d g ′(ak)∇wk0E(w) = d + λ∇wk0 Ω(w)∇WkE(w) = dhk−1
T + λ∇Wk Ω(w)d = Wk
Tdk = k − 1
until k = 0;
d = 2w21(h2 − 1)σ′(a2)σ′(a1)
∇w0 ∇W
2w21(h2 − 1)σ′(a2)σ′(a1) 2w21(h2 − 1)σ′(a2)σ′(a1)x2(h2 − 1)σ′(a2) 2(h2 − 1)σ′(a2)σ(a1)
165 / 303
![Page 201: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/201.jpg)
Propagacija unazad - primer
E(w ,D) = (h2 − 1)2
fw (x) = h2 = σ(w20 + w21σ(w10 + w11x︸ ︷︷ ︸a1
)
︸ ︷︷ ︸a2
)
d = ∇hkL(y , hk)repeat
d = d g ′(ak)∇wk0E(w) = d + λ∇wk0 Ω(w)∇WkE(w) = dhk−1
T + λ∇Wk Ω(w)d = Wk
Tdk = k − 1
until k = 0;
d = 2w11w21(h2 − 1)σ′(a2)σ′(a1)
∇w0 ∇W
2w21(h2 − 1)σ′(a2)σ′(a1) 2w21(h2 − 1)σ′(a2)σ′(a1)x2(h2 − 1)σ′(a2) 2(h2 − 1)σ′(a2)σ(a1)
166 / 303
![Page 202: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/202.jpg)
Ekstrakcija atributa
I Izlazi jedinica na nizim slojevima se mogu smatrati atributima dobijenim naosnovu vrednosti prethodnih slojeva
I Svaki sloj vrsi ekstrakciju atributa, pri cemu je smisao atributa na visim nivoimakompleksniji od smisla onih na nizim
I Omogucava primenu neuronskih mreza na sirove podatke, bez prethodnogdefinisanja atributa od strane eksperata
I Vrlo korisno za obradu slike, videa i zvuka
167 / 303
![Page 203: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/203.jpg)
Ekstrakcija atributa
Slika: I. Goodfellow, Y. Bengio, A. Courville, Deep Learning
168 / 303
![Page 204: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/204.jpg)
Konvolutivne neuronske mreze
I Posebno popularna klasa neuronskih mreza
I Koriste se za obradu signala (zvuk, slike...)
I Zasnivaju se upravo na prethodno pomenutoj ideji ekstrakcije atributa
169 / 303
![Page 205: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/205.jpg)
Arhitektura konvolutivnih mreza
I Konvolutivna mreza se sastoji od konvolutivnih slojeva, slojeva agregacije(eng. pooling) i standardne neuronske mreze
I Konvolutivni slojevi i slojevi agregacije se smenjuju jedan za drugim, pri cemu suim dimenzije sve manje
I Standardna neuronska mreza je povezana na izlaze poslednjeg sloja agregacije
170 / 303
![Page 206: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/206.jpg)
Konvolutivni sloj
I Jedan konvolutivni sloj se sastoji od neurona koji dele vrednosti parametara istoga ih aktivira ista vrsta ulaza
I Svaka jedinica konvolutivnog sloja je dodeljena jednom delu ulaza (npr. slike)
I Tako konvolutivni sloj detektuje gde se u ulazu nalazi neka zakonitost
I Deljenje parametara omogucava treniranje mreza sa ogromnim brojem jedinica
171 / 303
![Page 207: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/207.jpg)
Sloj agregacije
I Slojevi agregacije agregiraju informaciju iz konvolutivnih slojeva
I Svaka jedinica sloja agregacije je dodeljena jednom delu prethodnog konvolutivnogsloja
I Agregacija se najcesce vrsi primenom maksimuma
I Time se smanjuje dimenzionalnost podataka, a cuva se informacija da li je negdeu ulazu pronadena zakonitost koju konvolutivni sloj pronalazi
172 / 303
![Page 208: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/208.jpg)
Shema konvolutivne mreze
Slika: http://masters.donntu.org/2012/fknt/umiarov/diss/indexe.htm
173 / 303
![Page 209: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/209.jpg)
Mane neuronskih mreza
I Nije ih lako trenirati
I Visoka racunska zahtevnost
I Visoka konfigurabilnost, ali bez jasnih smernica kako izabrati konfiguraciju
I Visok potencijal za preprilagodavanje
I Traze velike kolicine podataka
174 / 303
![Page 210: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/210.jpg)
Primeri primena
I Prpoznavanje objekata na slikama
I Prepoznavanje lica
I Autonomna voznja
I Igranje igara (TD-Gammon, Alfa Go, igre na Atariju, Doom)
I Obrada prirodnog jezika
I Sinteza algoritama iz primera (neuronske Tjuringove masine)
175 / 303
![Page 211: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/211.jpg)
Primer primene - modelovanje semantike reci
I Recnik se sastoji od n reci
I i-ta rec se predstavlja vektorom koji ima jedinicu na i-tom mestu
I Mreza ima jedan skriveni sloj i jedan izlazni
I Ulaz neuronske mreze je vektor koji predstavlja rec
I Mreza predvida koje su okolne reci za datu ulaznu rec
I Za reprezentacije i-te reci se uzimaju koeficijenti skrivenog sloja koji odgovarajui-tom ulazu
176 / 303
![Page 212: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/212.jpg)
Primer primene - modelovanje semantike reci
Slika: T. Mikolov, I. Sutskever, K Chen, G. Corrado, J. Dean, Distributed Representations ofWords and Phrases and Their Compositionality 177 / 303
![Page 213: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/213.jpg)
Primer primene - modelovanje semantike reci
Slika: T. Mikolov, I. Sutskever, K Chen, G. Corrado, J. Dean, Distributed Representations ofWords and Phrases and Their Compositionality 178 / 303
![Page 214: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/214.jpg)
Primer primene - masinsko prevodenje
I Pristup prevodenju od kojeg se polazi je razumeti misao koju recenica izrazava, apotom tu misao izgovoriti na drugom jeziku
I Rekurentna neuronska mreza se trenira tako da uzima na ulazu recenice jednogjezika, kroz nekoliko skrivenih slojeva (koji cine enkoder) ih kodira u novureprezentaciju iz koje se kroz jos nekoliko skrivenih slojeva (koji cine dekoder)ponovo rekonstruise ista recenica, ali na drugom jeziku
I Vektor koji daje dekoder predstavlja ,,misao“ koju recenica izrazava
I Po slicnom principu moguce je ,,prevoditi“ iz slika na neki prirodni jezik
179 / 303
![Page 215: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/215.jpg)
Pregled
Uopsteno o masinskom ucenju
Neformalan podsetnik verovatnoce i statistike
Teorijske osnove nadgledanog ucenja
Popularni modeli i algoritmi nadgledanog ucenja
Dizajn algoritama nadgledanog ucenja
Procena kvaliteta i izbor modela
Finalni saveti
180 / 303
![Page 216: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/216.jpg)
Opsta shema dizajna
I Mnogi algoritmi nadlgedanog ucenja predstavljaju instance jedne opste shemedizajna
I Omogucava povezivanje svojstava algoritama, sa specificnim aspektima njihovogdizajna
I Olaksava dizajn novih algoritama
I Olaksava razumevanje postojecih algoritama
181 / 303
![Page 217: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/217.jpg)
Dimenzije algoritama nadgledanog ucenja
I Sveobuhvatnost modela (generativni, diskriminativni, neprobabilistickidiskriminativni)
I Reprezentacija modela (linearna, nelinearna, zasnovana na instancama, ...)
I Fukcija greske (kvadrat razlike, apsolutna vrednost razlike, ...)
I Regularizacija (grebena, laso, elasticna mreza, grupni laso, hijerarhijski laso, ... )
I Optimizacioni metod (prvog ili drugog reda, sa ili bez ogranicenja, konveksan ilinekonveksan, ...)
182 / 303
![Page 218: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/218.jpg)
Sveobuhvatnost modela
I Koliko informacija o podacima model treba da obuhvati?
I Puna informacija o podacima je sadrzana u raspodeli podataka p(x , y)
I Ne mora nam biti neophodnaI U poretku opadajuce kolicine informacija i zahteva, razlikujemo:
I generativne modele (probabilisticke)I diskriminativne modele (probabilisticke) iI neprobabilisticke diskriminativne modele
183 / 303
![Page 219: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/219.jpg)
Generativni modeli
I Generativni modeli modeluju zajednicku raspodelu p(x , y)
I Ili, alternativno, raspodelu p(x |y), posto vazi p(x , y) = p(x |y)p(y)
I U potpunosti opisuju podatke
I Stoga su u stanju da generisu podatke (sa istim svojstvima poput podataka nakojima je trenirano)
I Potrebno je napraviti pretposavke o raspodeli verovatnoce (a one mogu bitipogresne)
I Podlozne su prokletstvu dimenzionalnosti, tako da zahtevaju puno podataka
I Da li je potrebno poznavati zavisnosti izmedu atributa kako bi se predvidala ciljnapromenljiva?
184 / 303
![Page 220: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/220.jpg)
Generativni modeli
I Generativni modeli modeluju zajednicku raspodelu p(x , y)
I Ili, alternativno, raspodelu p(x |y), posto vazi p(x , y) = p(x |y)p(y)
I U potpunosti opisuju podatke
I Stoga su u stanju da generisu podatke (sa istim svojstvima poput podataka nakojima je trenirano)
I Potrebno je napraviti pretposavke o raspodeli verovatnoce (a one mogu bitipogresne)
I Podlozne su prokletstvu dimenzionalnosti, tako da zahtevaju puno podataka
I Da li je potrebno poznavati zavisnosti izmedu atributa kako bi se predvidala ciljnapromenljiva?
184 / 303
![Page 221: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/221.jpg)
Primer – naivni Bajesov klasifikator
I Naivni Bajesov klasifikator se zasniva na Bajesovoj formuli:
p(y |x) =p(x |y)p(y)
p(x)
I ,,Naivna“ pretpostavka:
p(x |y) ≈n∏
i=1
p(xi |y)
I p(xi |y) i p(y) se ocenjuju iz podataka
I Cinjenica da ocenjuje p(x |y) ga cini generativnim modelom
185 / 303
![Page 222: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/222.jpg)
Diskriminativni modeli
I Diskriminativni modeli modeluju uslovnu raspodelu p(y |x)
I Dovoljno da omoguce predvidanje i pruze informaciju o pouzdanosti
I Nisu podlozni prokletstvu dimenzionalnosti
I Potrebno je napraviti pretposavke o raspodeli verovatnoce
I Ne mogu generisati podatke
186 / 303
![Page 223: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/223.jpg)
Primer – linearna regresija
I Model:y |x ∼ N
(w · x , σ2
)I σ2 se moze oceniti iz podataka
187 / 303
![Page 224: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/224.jpg)
Primer – linearna regresija
Slika: D. Shafer, Z. Zhang, Introductory Statistics, 2012.
188 / 303
![Page 225: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/225.jpg)
Primer – logisticka regresija
I Bernulijeva raspodela: y ∼ Ber(µ) means
p(y) =
µ ako je y = 11− µ ako je y = 0
I Model:y |x ∼ Ber(σ(w · x))
189 / 303
![Page 226: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/226.jpg)
Neprobabilisticki diskriminativni modeli
I Neprobabilisticki diskriminativni modeli modeluju funkciju f : Rn → R kojapreslikava ulaze u vrednosti ciljne promenljive
I Omogucavaju predvidanje
I Ne prave pretpostavke o raspodeli podataka
I Ne podlezu prokletstvu dimenzionalnosti
I Ne pruzaju procenu pouzdanosti predvidanja
I Ne mogu generisati podatke
190 / 303
![Page 227: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/227.jpg)
Primer – SVM
I Model:w · x + w0
I Optimizacioni problem:
minw
‖w‖2
2+ C
(N∑i=1
ξi
)yi (w · xi + w0) ≥ 1− ξi , i = 1, . . . ,N
ξi ≥ 0, i = 1, . . . ,N
191 / 303
![Page 228: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/228.jpg)
Reprezentacija modela
I Opisuje odnose izmedu atributa i ciljne promenljive
I Moze biti izabrana ili dizajnirana u skladu sa specificnostima domenaI Primeri:
I Linearni i njima srodni modeli (linearna i logisticka regresija, uopsteni linearnimodeli, SVM, ...)
I Nelinearni (neuronske mreze, ...)I Zasnovani na pravilima (stabla odlucivanja, ...)I Zasnovani na instancama (k najblizih suseda, SVM, funkcije radijalne baze (RBF),
kriging)
192 / 303
![Page 229: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/229.jpg)
Linearni i njima srodni modeli
I Model:
fw (x) = g(w0 +n∑
i=1
wixi )
za neku funkciju gI Ako je g identitet, ovakav model izrazava:
I Nezavisne uticaje atributa na cilju promenljivuI Uticaj na ciljnu promenljivu je proporcionalan promeni vrednosti atributa
193 / 303
![Page 230: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/230.jpg)
Linearni modeli – prednosti i mane
I PrednostiI Manje podlozni preprilagodavanjuI Racunski cesto manje zahtevniI Interpretabilni
I Mane:I Forma moze biti neadekvadnaI Mogu biti nedovoljno prilagodljivi
194 / 303
![Page 231: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/231.jpg)
Interakcije atributa
I Moguce je linearnim modelom izraziti i interakcije atributa:
f (x ,w , β) = g(w0 +n∑
i=1
wixi +∑i≤j
βijxixj)
I Uticaj promene vrednosti atributa xi na ciljnu promenljivu zavisi od vrednostiatributa xj
195 / 303
![Page 232: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/232.jpg)
Interakcije atributaI Interakcije mogu posluziti za definisanje modela koji su nelinearni u odnosu na
atribute (ali i dalje linearni u odnosu na parametre)
5 10 15 20
05
1015
20
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
196 / 303
![Page 233: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/233.jpg)
Funkcija greske
I Meri odstupanje predvidanja od prave vrednosti ciljne promenljive
I Zavisi od problema
I Moze se definisati za specifican problem sa konkretnim svojstvima na umu
197 / 303
![Page 234: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/234.jpg)
Negativna vrednost logaritma verodostojnosti (1)
I Modeluje se verovatnoca pw (y |x) (ili pw (x , y) u generativnom slucaju)
I Negativna vrednost logaritma verodostojnosti (NLL)
minw
N∑i=1
− log pw (yi |xi )
I Stoga, − log pw (y |x) predstavlja funkciju greske
I Sto je verovatnoca vrendosti y za dato x manja, greska je veca, sto je prirodno
198 / 303
![Page 235: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/235.jpg)
NLL za logisticku regresiju
I NLL:
minw−
N∑i=1
[yi log fw (xi ) + (1− yi ) log(1− fw (xi ))]
I Stoga −u log v − (1− u) log(1− v) predstavlja funkciju greske
I Ako u i v saglasni, greska je mala, a u suprotnom je velika
199 / 303
![Page 236: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/236.jpg)
NLL za linearnu regresiju
I Model:y |x ∼ N
(w · x , σ2
)ili ekvivalentno:
pw (y |x) =1√
2πσ2exp
(−(y − w · x)2
2σ2
)I NLL:
L(w) =N
2log 2π + N log σ +
1
2σ2
N∑i=1
(yi − w · xi )2
200 / 303
![Page 237: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/237.jpg)
Kvadratna greska
I Funkcija greske:L(u, v) = (u − v)2
I Pruza regresionu funkciju kao resenje
I U slucaju linearnog regresionog modela, ima isti efekat kao ocena maksimalneverodostojnosti normalne raspodele
I Diferencijabilna
I Osetljiva na izuzetke u podacima (eng. outliers)
201 / 303
![Page 238: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/238.jpg)
Apsolutna greska
I Funkcija greske:L(u, v) = |u − v |
I U slucaju linearnog regresionog modela, ima isti efekat kao ocena maksimalneverodostojnosti Laplasove raspodele
I Nije osetljiva na izizetke u podacima
I Nije diferencijabilna
202 / 303
![Page 239: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/239.jpg)
SVM i greska u obliku sarke
I Minimizacioni problem:
minw
‖w‖2
2+ C
(N∑i=1
ξi
)yi (w · xi + w0) ≥ 1− ξi , i = 1, . . . ,N
ξi ≥ 0, i = 1, . . . ,N
I Reformulisani minimizacioni problem:[N∑i=1
max(0, 1− yi (w · x + w0))
]+ λ‖w‖2
2
I Greska u obliku sarke (eng. hinge loss) L(u, v) = max(0, 1− uv)
I Konveksna aproksimacija funkcije I (uv < 0)
203 / 303
![Page 240: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/240.jpg)
SVM i greska u obliku sarke
I Minimizacioni problem:
minw
‖w‖2
2+ C
(N∑i=1
ξi
)yi (w · xi + w0) ≥ 1− ξi , i = 1, . . . ,N
ξi ≥ 0, i = 1, . . . ,N
I Reformulisani minimizacioni problem:[N∑i=1
max(0, 1− yi (w · x + w0))
]+ λ‖w‖2
2
I Greska u obliku sarke (eng. hinge loss) L(u, v) = max(0, 1− uv)
I Konveksna aproksimacija funkcije I (uv < 0)
203 / 303
![Page 241: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/241.jpg)
Greska u obliku sarke
Slika: Vikipedijin clanak o gresci u obliku sarke
204 / 303
![Page 242: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/242.jpg)
Regularizacija
I Podesavanje prilagodljivosti modela
I Nametanje specificne strukture modela
I Ukljucivanje domenskog znanja u model
205 / 303
![Page 243: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/243.jpg)
`2 regularizacija (grebena)
I Koristi regularizacioni izraz
Ω(w) = ‖w‖22 =
n∑i=1
w2i
I U kontekstu linearne regresije, u slucaju linearne zavisnosti kolona, funkcija ciljanema jedinstven minimum, vec greben
I Stoga je resenje nestabilno
I Zove se grebena regresija zbog toga sto greben zamenjuje minimumom
206 / 303
![Page 244: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/244.jpg)
`2 regularizacija (grebena)
Slika: Korisnik Glen b na stats.stackexchange.com
207 / 303
![Page 245: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/245.jpg)
`1 regularizacija (laso)
I Koristi regularizacioni izraz
Ω(w) = ‖w‖1 =n∑
i=1
|wi |
I Pruza retke (eng. sparse) modele i na taj nacin vrsi izbor atributa!
I Ovo je vrlo vazno za interpretabilnost modela
I Problemi?
I Nije diferencijabilna!
I Preciznost predvidanja je nesto manja nego kod grebene regresije
I Nestabilna u pogledu skupa izabranih atributa
I Elasticna mreza (eng. elastic net) kao resenje
208 / 303
![Page 246: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/246.jpg)
`1 regularizacija (laso)
I Koristi regularizacioni izraz
Ω(w) = ‖w‖1 =n∑
i=1
|wi |
I Pruza retke (eng. sparse) modele i na taj nacin vrsi izbor atributa!
I Ovo je vrlo vazno za interpretabilnost modela
I Problemi?
I Nije diferencijabilna!
I Preciznost predvidanja je nesto manja nego kod grebene regresije
I Nestabilna u pogledu skupa izabranih atributa
I Elasticna mreza (eng. elastic net) kao resenje
208 / 303
![Page 247: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/247.jpg)
`1 regularizacija (laso)
I Koristi regularizacioni izraz
Ω(w) = ‖w‖1 =n∑
i=1
|wi |
I Pruza retke (eng. sparse) modele i na taj nacin vrsi izbor atributa!
I Ovo je vrlo vazno za interpretabilnost modela
I Problemi?
I Nije diferencijabilna!
I Preciznost predvidanja je nesto manja nego kod grebene regresije
I Nestabilna u pogledu skupa izabranih atributa
I Elasticna mreza (eng. elastic net) kao resenje
208 / 303
![Page 248: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/248.jpg)
`1 regularizacija (laso) – dve formulacije
I Formulacija bez ogranicenja:
minw
1
N
N∑i=1
L(yi , fw (xi )) + λ‖w‖1
I Formulacija zasnovana na ogranicenjima:
minw
1
N
N∑i=1
L(yi , fw (xi ))
s.t. ‖w‖1 ≤ t
209 / 303
![Page 249: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/249.jpg)
Laso regularizacija i retki modeli
I Kljucna je razlika u oblicima `1 i `2 lopti
Slika: C. Bishop, Pattern Recognition and Machine Learning, 2006.
210 / 303
![Page 250: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/250.jpg)
Grupna laso i retka grupna laso regularizacija
I Atributi su particionisani u disjunktne grupe G1, . . . ,Gk (npr. u biomedicinskimpodacima)
I wGisu koeficijenti koji odgovaraju atributima iz grupe Gi
I Groupna laso regularizacija:
Ω(w) =k∑
i=1
‖wGi‖2
I Retka grupna laso regularizacija:
Ω(w) = µ‖w‖1 + (1− µ)k∑
i=1
‖wGi‖2
211 / 303
![Page 251: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/251.jpg)
Grupna laso i retka grupna laso regularizacija
Slika: J. Ye, J. Liu, Sparse Methods for Biomedical Data, 2012.
212 / 303
![Page 252: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/252.jpg)
Hijerarhijska laso regularizacija
I Atributi su organizovani u hijerarhijuu vidu stabla (npr. bolesti ili genetskipodaci)
I G ij je skup atributa u podstablu ciji je
koren cvor j na nivou i
I Hijerarhijska laso regularizacija:
Ω(w) =∑i ,j
‖wG ij‖2
Slika: S. Kim, E. Xing, Tree-Guided GroupLasso for Multi-Task Regression withStructured Sparsity, 2010. Modifikovano.
213 / 303
![Page 253: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/253.jpg)
Optimizacioni metod
I Moguci izbori zavise od svojstava optimizacionog problema:I DiferencijabilnostI Dvostruka diferencijabilnostI KonveksnostI Prisustvo ogranicenja
I Cesto se vrse aproksimacije problema nekim drugim problemom sa pozeljnijimsvojstvima
214 / 303
![Page 254: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/254.jpg)
Diferencijabilan slucaj
I Diferencijabilna ciljna funkcija dopusta upotrebu gradijenata (pravac najstrmijeguspona)
Slika: math.wikia.com/wiki/Gradient
215 / 303
![Page 255: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/255.jpg)
Gradijentni spust
I Ponavljati dok postupak ne iskonvergira:
wk+1 = wk − µk∇E (wk)
I Kako izabrati velicinu koraka µk?
I Fiksirana velicina koraka
I Robins-Monroovi uslovi za velicinu koraka dovoljni za konvergenciju
∞∑k=1
µk =∞∞∑k=1
µ2k <∞
I Armiho-Goldstajnova linijska pretraga
216 / 303
![Page 256: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/256.jpg)
Konvergencija gradijentnog spusta (1)
I Funkcija koja slika X ⊆ Rn u Rm je Lipsic neprekidna ukoliko postoji konstanta C ,takva da za sve u, v ∈ X vazi:
‖f (u)− f (v)‖ ≤ C‖u − v‖
I Diferencijabilna funkcija je jako konveksna ukoliko postoji konstanta m > 0, takvada u svakoj tacki vazi:
f (u) ≥ f (v) +∇f (v)T (u − v) +m
2‖u − v‖2
I Dva puta diferencijabilna funkcija je jako konveksna ako je
∇2f (v)−mI
pozitivno semidefinitna matrica za svako v
217 / 303
![Page 257: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/257.jpg)
Konvergencija gradijentnog spusta (2)
I Za konveksne funkcije sa Lipsic neprekidnim gradijentom, greska je reda O(
1k
)I Za jako konveksne funkcije sa Lipsic neprekidnim gradijentom, greska je reda
O(ck)
za neko 0 < c < 1
I Da li je jaka konveksnost realistican uslov u praksi?
218 / 303
![Page 258: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/258.jpg)
Primer jako konveksne funkcije
I Greska E (w) grebene regresije je:
‖Xw − y‖22 + λ‖w‖2
2 = (Xw − y)T (Xw − y) + λwTw
= wTXTXw − wTXT y − yTXw + yT y + wTw
I Hesijan ove funkcije je:H = XTX + λI
I Posto je XTX pozitivno semidefinitna matrica, i H − λI je pozitivno semidefinitnamatrica
I Stoga je E (w) jako konveksna funkcija po w
I Ne samo sto regularizacija moze da ubalazi problem preprilagodavanja, vec moze ida ubrza konvergenciju optimizacionih metoda!
219 / 303
![Page 259: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/259.jpg)
Ilustracija gradijentnog spusta
Slika: Y. Li, Course materials.
220 / 303
![Page 260: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/260.jpg)
Primer – kvadratna greska za logisticku regresiju
I Pretpostavimo y ∈ 0, 1I Greska:
E (w) =1
N
N∑i=1
(yi − σ(w · xi ))2
I Gradijent:
∂
∂wjE (w) = − 2
N
N∑i=1
(yi − σ(w · xi ))σ(w · xi )(1− σ(w · xi ))xij
I Kolike su vrednosti parcijalnih izvoda ukoliko vazi |yi − σ(w · xi )| ≈ 1?
I Priblizne nuli, iako je greska velika!
I Zato se koristi NLL formulacija
221 / 303
![Page 261: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/261.jpg)
Primer – kvadratna greska za logisticku regresiju
I Pretpostavimo y ∈ 0, 1I Greska:
E (w) =1
N
N∑i=1
(yi − σ(w · xi ))2
I Gradijent:
∂
∂wjE (w) = − 2
N
N∑i=1
(yi − σ(w · xi ))σ(w · xi )(1− σ(w · xi ))xij
I Kolike su vrednosti parcijalnih izvoda ukoliko vazi |yi − σ(w · xi )| ≈ 1?
I Priblizne nuli, iako je greska velika!
I Zato se koristi NLL formulacija
221 / 303
![Page 262: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/262.jpg)
Primer – kvadratna greska za logisticku regresiju
I Pretpostavimo y ∈ 0, 1I Greska:
E (w) =1
N
N∑i=1
(yi − σ(w · xi ))2
I Gradijent:
∂
∂wjE (w) = − 2
N
N∑i=1
(yi − σ(w · xi ))σ(w · xi )(1− σ(w · xi ))xij
I Kolike su vrednosti parcijalnih izvoda ukoliko vazi |yi − σ(w · xi )| ≈ 1?
I Priblizne nuli, iako je greska velika!
I Zato se koristi NLL formulacija
221 / 303
![Page 263: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/263.jpg)
Gradijentni spust pri kruznim konturama funkcije cilja
Slika: K. Yuk, J. Xue, Optimization Techniques for Circuit Design, 2003.
222 / 303
![Page 264: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/264.jpg)
Gradijentni spust pri izduzenim konturama funkcije cilja
Slika: K. Yuk, J. Xue, Optimization Techniques for Circuit Design, 2003.
223 / 303
![Page 265: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/265.jpg)
Nedostaci gradijentnog spusta
I Spora konvergencija
I Pravac definisan gradijentom je samo lokalno optimalan
I Cik-cak putanje spusta (problem ublazen konjugovanim gradijentima)
I Za velike kolicine podatka, puno vremena se trosi da bi se izracunao pravac kojinije optimalan
224 / 303
![Page 266: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/266.jpg)
Stohasticki gradijentni spust
I Neka korak bude slucajni vektor takav da je njegovo ocekivanje kolinearno sagradijentom funkcije E (w)
I Jedna varijanta je ponavljati za sve (xi , yi ) ∈ D, dok postupak ne iskonvergira:
wk+1 = wk − µk∇E (wk , (xi , yi ))
I Jeftino aproksimira gradijent
I Greska aproksimacije cak moze sluziti kao vid regularizacije
I Potencijal za bekstvo iz lokalnih minimuma
I Manje podlozan problemima redundantnosti podataka
I Aproksimacija moze biti neprecizna
I Trening pomocu podskupova (eng. minibatch) je cest kompromis
I Najpopularniji algoritam za treniranje neuronskih mreza
225 / 303
![Page 267: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/267.jpg)
Gradijentni spust naspram stohastickog gradijentnog spusta
Slika: F. Bach, Stochastic optimization: Beyond stochastic gradients and convexity.
226 / 303
![Page 268: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/268.jpg)
Brzina konvergencije stohastickog gradijentnog spusta
I Za konveksne funkcije sa Lipsic neprekidnim gradijentom, greska je reda O(
1√k
)I Za jako konveksne funkcije sa Lipsic neprekidnim gradijentom, greska je reda
O(
1k
)I Asimptotski je sporiji od gradijentnog spusta, ali zbog mnogo manje cene jedne
iteracije, stohasticki gradijentni spust se cesto koristi u mnogim prakticnimkontekstima, poput treninga neuronskih mreza
227 / 303
![Page 269: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/269.jpg)
Metod inercije (eng. momentum)
I Ideja je zadrzati uticaj prethodnih gradijenata, kako bi promena pravca bila teza:
dk+1 = βkdk − µk∇E (wk)
wk+1 = wk + dk+1
I Njihov uticaj ipak eksponencijalno opada
I Ublazava problem cik-cak kretanja jer kretanje ne sledi ostre promene pravcagradijenta
I Vrlo popularan za treniranje neuronskih mreza, posebno u kombinaciji sastohastickim gradijentnim spustom
228 / 303
![Page 270: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/270.jpg)
Nesterovljev ubrzani gradijentni spust
I Modifikacija metoda inercije:
dk+1 = βkdk − µk∇E (wk + βkdk)
wk+1 = wk + dk+1
I Postoji specifican izbor vrednosti βk i µkI Geometrijska interpretacija nije sasvim jasna
I Za konveksne funkcije sa Lipsic neprekidnim gradijentom greska je reda O(
1k2
)I Asimptotski optimalan optimizacioni metod prvog reda za ovakve funkcije
I Pogodan za probleme visoke dimenzionalnosti
229 / 303
![Page 271: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/271.jpg)
ADAM
I Pristrasne ocene prvog i drugog momenta gradijenta:
mk+1 = β1mk + (1− β1)∇E (wk)
vk+1 = β2vk + (1− β2)∇E (wk)∇E (wk)
I Korekcija pristrasnosti:mk+1 = mk+1/(1− βk+1
1 )
vk+1 = vk+1/(1− βk+12 )
I Azuriranje parametara:
wk+1 = wk − µk+1mk+1√vk+1 + ε
230 / 303
![Page 272: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/272.jpg)
Stohasticko uprosecavanje
I Da li je moguce imati prednosti stohastickog gradijentnog spusta, ali sa brzinomkonvergencije standardnog gradijentnog spusta?
I Da, u slucaju funkcija koje su konacne sume/proseci drugih funkcaja iste forme,sto je najcesce slucaj u masinskom ucenju
I U slucaju gradijentnog spusta vazi:
∇E (w ,D) =1
N
N∑i=1
∇E (w , (xi , yi ))
I Osnovna ideja je upotrebiti proseke gradijenata na pojedinacnim instancama, ali usvakom koraku azurirati samo jedan pojedinacni gradijent
231 / 303
![Page 273: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/273.jpg)
Stohasticki gradijentni spust zasnovan na uprosecavanju (SAG)
I Neka je ik niz slucajnih promenljivih sa uniformnom raspodelom nad skupomvrednosti 1, . . . ,N
I Korak SAG algoritma:
gk+1i =
∇E (wk , (xi , yi )) i = ik+1
gk−1i inace
wk+1 = wk −µkN
N∑i=1
gk+1i
I Zahteva cuvanje N gradijenata
232 / 303
![Page 274: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/274.jpg)
Alternative
I SAGA, SVRG, SDCA,...
I SVRG ne zahteva dodatni prostor, ali zahteva dva izracunavanja gradijenta pokoraku
I Razlikuju se u odnsu na robusnost u odnosu na uslovljenost, koriscenje epoha,primenljivost na nediferencijabilne probleme, itd.
233 / 303
![Page 275: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/275.jpg)
Nediferencijabilan slucaj (1)
I Vektor g je podgradijent (eng. subgradient) funkcije f u tacki x , ako vazi
f (x) ≥ f (x0) + gT (x − x0)
Slika: Lieven Vandenberghe, materijali za kurs
234 / 303
![Page 276: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/276.jpg)
Nediferencijabilan slucaj (2)
I Skup svih podgradijenata funkcije f u tacki x se naziva poddiferencijal i oznacava∂f (x)
I Ako funkcija ima lokalni optimum u tacki x , vazi 0 ∈ ∂f (x)
235 / 303
![Page 277: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/277.jpg)
Primer – podgradijentni spust za `1 regularizaciju
I Regularizovana greska:L(w) = E (w) + λ‖w‖1
I U minimumu mora vaziti 0 ∈ ∂L(w), odnosno:
∇iE (w) + λsgn(w) = 0, wi 6= 0
|∇iE (w)| ≤ λ, wi = 0
236 / 303
![Page 278: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/278.jpg)
Primer – podgradijentni spust za `1 regularizaciju
I Postoji vise podgradijenata, a bira se onaj koji daje pravac nabrzeg spusta:
∇iL(w) ,
∇iE (w) + λsgn(wi ) wi 6= 0∇iE (w) + λ wi = 0, ∇iE (w) < −λ∇iE (w)− λ wi = 0, ∇iE (w) > λ0 wi = 0, |∇iE (w)| ≤ λ
237 / 303
![Page 279: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/279.jpg)
Primer – podgradijentni spust za `1 regularizaciju
I Slucaj∇iE (w) + λsgn(wi ) za wi 6= 0
sledi iz diferencijabilnosti za wi 6= 0
I Slucaj0 za wi = 0, |∇iE (w)| ≤ λ
sledi iz zadovoljenosti uslova optimalnosti:
|∇iE (w)| ≤ λ, wi = 0
238 / 303
![Page 280: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/280.jpg)
Primer – podgradijentni spust za `1 regularizacijuI Slucaj
∇iE (w) + λ za wi = 0, ∇iE (w) < −λproizilazi iz izbora smera optimizacije
239 / 303
![Page 281: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/281.jpg)
Diferencijabilnost drugog reda
I Hesijan ∇2E (w) je matrica parcijalnih izvoda drugog reda
I Pruza informaciju o lokalnoj zakrivljenosti
I Na osnovu njega je moguce izabrati kracu putanju nego na osnovu gradijenta
240 / 303
![Page 282: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/282.jpg)
Njutnov metod
I Njutnov metod za funkcije jedne promenljive:
wk+1 = wk −f ′(wk)
f ′′(wk)
I Njutnov metod za funkcije vise promenljivih:
wk+1 = wk −∇2E (wk)−1∇E (wk)
I Svaki korak minimizuje kvadratnu aproksimaciju funkcije
I Za jako konveksne fukcije sa Lipsic neprekidnim Hesijanom, greska je reda
O(c2k)
za neko 0 < c < 1
241 / 303
![Page 283: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/283.jpg)
Njutnov metod za kvadratne funkcije
I Kvadratna greska:
E (w) = c + bTw +1
2wTAw
I Gradijent je ∇E (w) = b + Aw , a hesijan je ∇2E (w) = A
I Korak Njutnovog metoda daje:
wk+1 = wk − A−1(b + Awk) = −A−1b
I Provera optimalnosti na osnovu gradijenta:
∇E (−A−1b) = b + A(−A−1b) = 0
242 / 303
![Page 284: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/284.jpg)
Njutnov metod i kvadratna aproksimacija
Slika: Nepoznat autor
243 / 303
![Page 285: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/285.jpg)
Problemi vezani za Njutnov metod
I Njutnov metod:
wk+1 = wk −f ′(wk)
f ′′(wk)
I Trazi nulu gradijenta, tako da maksimumi i sedlaste tacke predstavljaju problem
I Stoga zahteva strogu konveksnost (ne mesati sa jakom)
I Inverzija matrice
I Nije pogodan za probleme visoke dimenzionalnosti
244 / 303
![Page 286: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/286.jpg)
Kvazi-Njutnovi metodi
I Hesijan moze biti nedostupan ili previse veliki za cuvanje i inverziju
I Ideja je aproksimirati ∇2E (wk)−1 na osnovu gradijenata, tako da se inverzija nevrsi
I Aproksimacija se efikasno popravlja u svakom koraku
I Najpoznatiji predstavnik je metod BFGS
245 / 303
![Page 287: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/287.jpg)
BFGS (1)
I Kvazi-Njutnov metod:wk+1 = wk − H−1
k ∇E (wk)
I Moze se razumeti kao inkrementalno popravljanje kvadratnih modela funkcije kojase minimizuje
I Aproksimacija H−1k mora biti simetricna
246 / 303
![Page 288: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/288.jpg)
BFGS (2)
I Kvadratna aproksimacija greske u okolini wk
E (w) = E (wk) +∇E (wk)T (w − wk) +1
2(w − wk)THk(w − wk)
I Gradijent:∇E (w) = ∇E (wk) + Hk(w − wk)
I Gradijenti funkcija E (w) i E (w) se slazu u tacki wk
I Zahtevamo da se slazu i u tacki wk−1:
∇E (wk) + Hk(wk−1 − wk) = ∇E (wk−1)
Hk−1(∇E (wk)−∇E (wk−1)) = wk − wk−1
247 / 303
![Page 289: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/289.jpg)
BFGS (3)
I Zahtevajmo da je promena aproksimacije u odnosu na H−1k−1 minimalna
minH−1‖H−1 − H−1
k−1‖22
s.t. H−1(∇E (wk)−∇E (wk−1)) = wk − wk−1
H−1T = H−1
I Postoji analiticko resenje ovog minimizacionog problema
I Za jako konveksne funkcije sa Lipsic neprekidnim Hesijanom greska opada brze odO(ck), ali sporije od O(c2k ) za neko 0 < c < 1
248 / 303
![Page 290: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/290.jpg)
L-BFGS
I Skladistenje hesijana nije reseno metodom BFGS
I L-BFGS ne cuva aproksimaciju eksplicitno, vec cuva ogranicenu istoriju razlikagradijenata i razlika parametara u uzastopnim koracima
I Vrlo se cesto koristi u masinskom ucenju
249 / 303
![Page 291: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/291.jpg)
Konveksnost
I Konveksnost dopusta efikasnije optimizacione algoritme
I Garantuje jedinstven globalni minimum
I Vrlo pozeljna, ali u praksi nije uvek moguca, niti su uvek moguce ili poznate dobrekonveksne aproksimacije
250 / 303
![Page 292: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/292.jpg)
Nekonveksnost
I Nema garancija za jedinstven optimum
I Cak i ako postoji, optimizacija je komplikovanija (recimo, Njutnov algoritam nemora naci ni lokalni minimum)
I Sekvencijalno kvadratno programiranje (SQP) resava niz kvadratnih aproksimacija(dopusta ogranicenja)
I Konveksno-konkavna procedura za sumu konveksnih i konkavnih funkcija resavaniz aproksimacija u kojima linearizuje konkavni deo (dopusta ogranicenja)
I Racunski zahtevnija
251 / 303
![Page 293: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/293.jpg)
Problem lokalnih minimuma
I Neuronske mreze su vrlo nekonveksne, ali ipak daju sjajne rezultate u mnogimprimenama
I Zar ne bi lokalni minimumi trebalo da predstavljaju veliki problem za njihovuoptimizaciju?
I Manji problem u masinskom ucenju, nego sto se do skora pretpostavljalo
252 / 303
![Page 294: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/294.jpg)
Kakve su sanse da tacka bude lokalni minimum?
I Da bi stacionarna tacka bila lokalni minimum, sve sopstvene vrednosti Hesijana utoj tacki moraju biti pozitivne
I Neka su pozitivne i negativne vrednosti jednako verovatne
I Verovatnoca da tacka bude minimum se eksponencijalno smanjuje sa dimenzijomHesijana (brojem atributa)
I Danasnji prakticni problemi su obicno visokodimenzionalni
I Ne ocekuje se mnogo lokalnih minimuma u slucaju funkcija nadvisokodimenzionalnim prostorima!
I Naravno, ipak se javljaju
253 / 303
![Page 295: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/295.jpg)
Koliko su vrednosti lokalnih minimuma lose?
I Za neuronske mreze, pod blago pojednostavljenim uslovima, dokazano je da sto jeveca vrednost funkcije u stacionarnoj tacki, manja je verovatnoca da je ta tackaminimum funkcije
I Vecina lokalnih minimuma nisu mnogo losiji od globalnog minimuma!
254 / 303
![Page 296: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/296.jpg)
Sedlene tacke
I U svetlu prethodne diskusije, sedlene tacke mogu predstavljati veci problem zaoptimizaciju od lokalnih minimuma
I Metode prvog reda mogu biti sporije u njihovoj okolini
I Metode poput Njutnove traze nulu gradijenta, tako da ih privlace sedlene tacke
I Trenutno se radi na metodama nalik Njutnovoj koje ce biti otporne na prisustvosedlenih tacaka
255 / 303
![Page 297: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/297.jpg)
Ogranicenja
I Ogranicenja suzavaju skup dopustivihresenja
I U prisustvu ogranicenja, korakgradijentnog spusta moze voditi vanskupa dopustivih resenja
I Konveksnost i diferencijabilnost suvazne i u kontekstu ogranicenja
Slika: Vikipedijin clanak o Lagranzovimmnoziocima
256 / 303
![Page 298: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/298.jpg)
Projektovani gradijentni spust
I C je konveksan skup dopustivih resenja
I Ponavljati dok postupak ne iskonvergira:
wk+1 = PC(wk − µk∇E (wk))
I PC(v) oznacava operator euklidske projekcije na skup dopustivih resenja C:
PC(u) = argminv∈C‖u − v‖2
I Upotrebljiv kada se projekcija moze efikasno izracunati (npr. u linearnom vremenuu slucaju `1 regularizacije)
257 / 303
![Page 299: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/299.jpg)
Projektovani gradijentni spust
Slika: Lieven Vandenberghe, materijal za kurs
258 / 303
![Page 300: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/300.jpg)
Metod unutrasnje tacke
I Koristi kaznene funkcije (npr. logaritamsku barijeru) kako bi kaznio resenja kojaprilaze granici dopustivog skupa resenja
I U toku optimizacije, aproksimacija skupa dopustivih resenja postaje sve preciznija
I U slucaju nekonveksnih problema, kombinuje se sa sekvencijalnim kvadratnimprogramiranjem (LOQO)
I Postoje efikasni algoritmi (ali ne uporedivi sa algoritmima za konveksne problemebez ogranicenja)
I Moguce najbolji izbor u slucaju problema sa ogranicenjima u slucajunekonveksnosti ili kad se projekcija ne moze efikasno izracunati
259 / 303
![Page 301: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/301.jpg)
Logaritamska barijera
I Problem sa ogranicenjima:minw
E (w)
s.t. gi (w) ≥ 0, i = 1, ...,m
I Problem bez ogranicenja sa logaritamskom barijerom:
minw
E (w) +1
µ
m∑i=1
− log(gi (w)))
I Problem se resava iznova i iznova za sve vece vrednosti parametra µ dok postupakne iskonvergira
260 / 303
![Page 302: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/302.jpg)
Aproksimacije
I Konveksne aproksimacije nekonveksnih problema:I Funkcija greske u obliku sarke umesto greske klasifikacijeI `1 umesto broja nenula koeficijenataI ...
I Diferencijabilne aproksimacije nediferencijabilnih problema (npr. glatki maksimum,glatka `1 norma)
I Relaksacije problema zarad efikasnosti (npr. linearno programiranje umestocelobrojnog linearnog programiranja)
261 / 303
![Page 303: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/303.jpg)
Primer – glatka `1 norma
maxµ(x1, . . . , xm) = logµ(µx1 + . . .+ µxm)
|x | ≈ |x |µ = maxµ(x ,−x) = logµ(µx + µ−x)
‖w‖µ =n∑
i=1
|wi |µ
262 / 303
![Page 304: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/304.jpg)
Pregled
Uopsteno o masinskom ucenju
Neformalan podsetnik verovatnoce i statistike
Teorijske osnove nadgledanog ucenja
Popularni modeli i algoritmi nadgledanog ucenja
Dizajn algoritama nadgledanog ucenja
Procena kvaliteta i izbor modela
Finalni saveti
263 / 303
![Page 305: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/305.jpg)
Procena kvaliteta i izbor modela
I Procena kvaliteta modela se bavi ocenom greske predvidanja modela
I Izbor modela se bavi izborom jednog od vise mogucih modela
I Izbor modela se zasniva na proceni kvaliteta modela
I Ipak, veza ne mora biti trivijalna
264 / 303
![Page 306: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/306.jpg)
Na cemu se zasnivaju procena kvaliteta i izbor modela?
I Mere kvaliteta (npr. preciznost)
I Tehnike evaluacije i izbora (npr. unakrsna validacija)
265 / 303
![Page 307: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/307.jpg)
Mere kvaliteta
I Zavise od problema
I Za klasifikaciju: preciznost, F1 skor, AUC
I Za regresiju: srednjekvadratna greska i koeficijent determinacije (R2)
266 / 303
![Page 308: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/308.jpg)
Tacna i netacna predvidanja
Pred. pozitivni Pred. negativni
Pozitivni Stvarno pozitivni Lazno negativni
Negativni Lazno pozitivni Stvarno negativni
267 / 303
![Page 309: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/309.jpg)
Preciznost klasifikacije
I ACC = SP+SNSP+SN+LP+LN
I Varljiva u slucaju neizbalansiranih klasa
268 / 303
![Page 310: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/310.jpg)
F1 skor
I Preciznost P = SPSP+LP (nije isto sto i prethodno definisana preciznost)
I Odziv R = SPSP+LN
I F1 = 2PRP+R
I Kombinuje preciznost i odziv, ali je blize manjoj od te dve mere
I Nije osetljiva na neizbalansiranost klasa
269 / 303
![Page 311: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/311.jpg)
Koren srednjekvadratne greske
RMSE =
√√√√ 1
N
N∑i=1
(fw (xi )− yi )2
I Poput standardne devijacije, ali ne u odnosu na prosek, vec u odnosu na model
I Izrazava se u istim jedinicama kao i ciljna promenljiva
I Koristi se da kvantifikuje velicinu greske
I Posebno korisna ukoliko znamo prihvatljivu velicinu greske u razmatranoj primeni
270 / 303
![Page 312: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/312.jpg)
Koren srednjekvadratne greske
Slika: P. Janicic, M. Nikolic, Vestacka inteligencija, u pripremi.
271 / 303
![Page 313: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/313.jpg)
Koeficijent determinacije R2
R2 = 1− MSE
Var= 1−
∑Ni=1(fw (xi )− yi )
2∑Ni=1(y − yi )2
I Meri udeo varijanse ciljne promenljive koji je objasnjen modelom
I U rasponu (−∞, 1]
I Koristi se kao mera kvaliteta ucenja
I Pogodnija za poredenja nego kao apsolutna mera
272 / 303
![Page 314: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/314.jpg)
Tehnike evaluacije
I Variraju po slozenosti zavisno od:I Konfigurabilnosti algoritmaI Zeljenog kvaliteta ocene
273 / 303
![Page 315: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/315.jpg)
Glavno nacelo procene kvaliteta modela
I Podaci korisceni za procenu kvaliteta modela ni na koji nacin ne smeju bitiupotrebljeni prilikom treninga
I Deluje jednostavno, ali se u praksi ispostavlja kao vrlo pipavo
274 / 303
![Page 316: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/316.jpg)
Nekonfigurabilan slucaj
I Pretpostavlja se da algoritam nije konfigurabilan ili da je konfiguracija fiksirana
I To nije realistican scenario
I Ako se nauceni model pokaze lose, u iskusenju smo da vrsimo neke izmene i utom slucaju naredni metodi procene kvaliteta nisu validni!!
275 / 303
![Page 317: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/317.jpg)
Izbor modela za nekonfigurabilan slucaj
I Posto nema razlicitih konfiguracija, nema ni veceg broja modela iz kojeg se mozebirati, pa je izbor prakticno trivijalan
I Ipak, postavlja se pitanje na kojim podacima treba trenirati?
I Model M, za buducu upotrebu, se trenira na celom skupu podataka
276 / 303
![Page 318: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/318.jpg)
Izbor modela za nekonfigurabilan slucaj
I Posto nema razlicitih konfiguracija, nema ni veceg broja modela iz kojeg se mozebirati, pa je izbor prakticno trivijalan
I Ipak, postavlja se pitanje na kojim podacima treba trenirati?
I Model M, za buducu upotrebu, se trenira na celom skupu podataka
276 / 303
![Page 319: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/319.jpg)
Procena kvaliteta pomocu trening i test skupa
I Podaci se dele na dva skupa
I Jedan skup se koristi za treniranjemodela M ′ koji sluzi kaoaproksimacija modela M
I Drugi se koristi za procenu greskekoju model M ′ pravi prilikompredvidanja, a smatra se da je tagreska dobra aproksimacija greskemodela M
x1 x2 x3 y
1 9 0 80 6 2 11 3 1 54 9 7 61 1 6 77 2 3 42 9 9 93 3 4 67 2 1 76 5 1 5
277 / 303
![Page 320: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/320.jpg)
Problemi vezani za procenu pomocu trening i test skupa
I Sve je u redu ukoliko je skup podataka vrlo veliki i reprezentativan, ali usuprotnom...
I Kako izvrsiti podelu?
I Sta ako su raspodele trening i test skupa razlicite?
I Velika varijansa ocene greske
278 / 303
![Page 321: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/321.jpg)
Procena kvaliteta K -strukom unakrsnom validacijom
I Podaci se dele na K slojeva (tj.delova)
I Za svaki slojI Trenira se model na preostalih
K − 1 slojevaI Vrse se predvidanja dobijenim
modelom na izabranom sloju
I Racuna se ocena greske
x1 x2 x3 y
1 9 0 80 6 2 11 3 1 54 9 7 61 1 6 77 2 3 42 9 9 93 3 4 67 2 1 76 5 1 5
279 / 303
![Page 322: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/322.jpg)
Problemi vezani za procenu unakrsnom validacijom
I Racunska zahtevnostI Kako izabrati broj slojeva?
I Koristiti 5 ili 10 slojevaI Ne koristiti jednoclane slojeve (eng. leave one out), posto je takva ocena greske
optimisticna
I Ne racunati ocene greske za svaki sloj, pa ih uprosecavati (ne radi za nelinearnemere poput R2)
I Sve instance se koriste u proceni kvaliteta, pa je pouzdanija, ali i dalje jedan slojne mora imati istu raspodelu kao preostali
280 / 303
![Page 323: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/323.jpg)
Jos jedno nacelo procene kvaliteta modela
I Trening i test skup treba da imaju istu raspodelu kao i buduca opazanja
I Deluje pipavo i jeste pipavoI Kako ublaziti ovaj problem?
I Koristiti velike kolicine podatkaI Koristiti napredne tehnike uzorkovanjaI Stratifikacija
281 / 303
![Page 324: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/324.jpg)
Jos jedno nacelo procene kvaliteta modela
I Trening i test skup treba da imaju istu raspodelu kao i buduca opazanja
I Deluje pipavo i jeste pipavoI Kako ublaziti ovaj problem?
I Koristiti velike kolicine podatkaI Koristiti napredne tehnike uzorkovanjaI Stratifikacija
281 / 303
![Page 325: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/325.jpg)
Stratifikacija
I Prilikom deljenja podataka, obezbediti da delovi imaju istu raspodelu kao i ceoskup podataka
I Tesko za male skupove podataka
I Pojednostavljena varijanta: ocuvati raspodelu ciljne promenljive
282 / 303
![Page 326: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/326.jpg)
Stratifikacija u odnosu na ciljnu promenljivu
I Sortirati podatke u odnosu na ciljnupromenljivu
I Ako je K broj delova, neka instancesa indeksima i + j ∗ K cine deo Pi zai = 1, . . . ,K i j = 0, 1, . . .
x1 x2 x3 y
0 6 2 17 2 3 41 3 1 56 5 1 54 9 7 63 3 4 61 1 6 77 2 1 71 9 0 82 9 9 9
283 / 303
![Page 327: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/327.jpg)
Da li je algoritam konfigurabilan?
I Algoritmi masinskog ucenja se obicno navode vrednostima metaparametaraI Linearna i logisticka regresija: regularizacioni parametarI SVM: cena gresaka, parametri kernela, ...I Neuronske mreze: regularizacioni parametar, parametar vezan za metodu inercije ...I . . .
I Pre ucenja, moguce je izabrati podskup atributa
I Neuronske mreze mogu imati razlicite arhitekture
I Metodi zasnovani na kernelima mogu koristiti razlicite kernele
I . . .
I Uzimamo u obzir algoritamske konfiguracije (vrednosti metaparametara, atributi,arhitekture, kerneli, ...)
284 / 303
![Page 328: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/328.jpg)
Sta ako je konfigurabilan?
I Razlicite konfiguracije daju razlicite modele
I Kako izabrati adekvatnu konfiguraciju, a time i model?
I Jednostavno: izvrsiti evaluaciju modela dobijenih za razlicite konfiguracije iizabrati najbolji
I Koja je ocena greske predvidanja tog modela?
I Nije jednostavno!
285 / 303
![Page 329: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/329.jpg)
Sta ako je konfigurabilan?
I Razlicite konfiguracije daju razlicite modele
I Kako izabrati adekvatnu konfiguraciju, a time i model?
I Jednostavno: izvrsiti evaluaciju modela dobijenih za razlicite konfiguracije iizabrati najbolji
I Koja je ocena greske predvidanja tog modela?
I Nije jednostavno!
285 / 303
![Page 330: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/330.jpg)
Sta ako je konfigurabilan?
I Razlicite konfiguracije daju razlicite modele
I Kako izabrati adekvatnu konfiguraciju, a time i model?
I Jednostavno: izvrsiti evaluaciju modela dobijenih za razlicite konfiguracije iizabrati najbolji
I Koja je ocena greske predvidanja tog modela?
I Nije jednostavno!
285 / 303
![Page 331: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/331.jpg)
Procena kvaliteta i izbor modela na pogresan nacin
I Evaluira se svaka konfiguracija unakrsnom validacijom
I Bira se najbolja konfiguracija i prijavljuje se upravo dobijena procena kvalitetamodela
I Trenira se finalni model pomocu najbolje konfiguracije na celom skupu podataka
286 / 303
![Page 332: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/332.jpg)
U cemu je greska?
I Uobicajeno opravdanje datog postupka bi bilo: posto se koristi unakrsnavalidacija, nikad se ne vrsi trening na instancama koji se koriste za testiranje
I Ali da li je tako?
I Prilikom izbora najbolje konfiguracije, oslonili smo se na informaciju dobijenukoriscenjem celog skupa podataka, a izbor najbolje konfiguracije je deo treninga,posto se direktno odrazava na rezultujuci model!
287 / 303
![Page 333: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/333.jpg)
U cemu je greska?
I Uobicajeno opravdanje datog postupka bi bilo: posto se koristi unakrsnavalidacija, nikad se ne vrsi trening na instancama koji se koriste za testiranje
I Ali da li je tako?
I Prilikom izbora najbolje konfiguracije, oslonili smo se na informaciju dobijenukoriscenjem celog skupa podataka, a izbor najbolje konfiguracije je deo treninga,posto se direktno odrazava na rezultujuci model!
287 / 303
![Page 334: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/334.jpg)
U cemu je greska?
I Uobicajeno opravdanje datog postupka bi bilo: posto se koristi unakrsnavalidacija, nikad se ne vrsi trening na instancama koji se koriste za testiranje
I Ali da li je tako?
I Prilikom izbora najbolje konfiguracije, oslonili smo se na informaciju dobijenukoriscenjem celog skupa podataka, a izbor najbolje konfiguracije je deo treninga,posto se direktno odrazava na rezultujuci model!
287 / 303
![Page 335: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/335.jpg)
Izbor modela pomocu validacionog skupa
I Podaci se dele na trening i validacioni skupI Za svaku konfiguraciju
I Trenira se model za tu konfiguraciju na trening skupuI Vrsi se ocena greske predvidanja modela na validacionom skupu
I Bira se konfiguracija koja daje najmanju gresku na validacionom skupu
I Trenira se finalni model pomocu najbolje konfiguracije na celom skupu podataka
288 / 303
![Page 336: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/336.jpg)
Ocena greske pomocu validacionog i test skupa
I Podaci se dele na trening i test skup
I Na trening skupu se izvrsi izbor modela i pridruzenekonfiguracije pomocu validacionog skupa
I Za tu konfiguraciju se trenira model na celom treningskupu
I Vrsi se ocena greske tog modela na test skupu i ona seprijavljuje kao ocena kvaliteta modela
x1 x2 x3 y
1 9 0 80 6 2 11 3 1 54 9 7 61 1 6 77 2 3 42 9 9 93 3 4 67 2 1 76 5 1 5
289 / 303
![Page 337: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/337.jpg)
Izbora modela pomocu unakrsne validacije
I Za svaku konfiguracijuI Vrsi se ocena greske predvidanja modela unakrsnom validacijom
I Bira se konfiguracija koja daje najmanju gresku pri unakrsnoj validaciji
I Trenira se finalni model pomocu najbolje konfiguracije na celom skupu podataka
290 / 303
![Page 338: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/338.jpg)
Procenu kvaliteta modela ugnezdenom K -strukom unakrsnom validacijom
I Dele se podaci na K slojevaI Za svaki sloj
I Vrsi se ocena greske svih konfiguracija na preostalih K − 1 slojeva K -strukomunakrsnom validacijom
I Bira se konfiguracija sa najmanjom greskomI Trenira se model pomocu te konfiguracije na preostalih K − 1 slojevaI Vrsi se predvidanje dobijenim modelom na izabranom sloju
I Racuna se ocena greske
291 / 303
![Page 339: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/339.jpg)
Sta ako kvalitet modela nije dobar?
I Nedovoljna prilagodenost modela (visoko sistematsko odstupanje)?
I Preprilagodenost modela (visoka varijansa)?
292 / 303
![Page 340: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/340.jpg)
Nagodba izmedu sistematskog odstupanja i varijanse
Slika: T. Hastie, R. Tibshirani, J. Friedman, Elements of Statistical Learning, 2001.293 / 303
![Page 341: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/341.jpg)
Sta ako model ima visoko sistematsko odstupanje
I Koristiti prilagodljivije modele
I Koristiti nize vrednosti regularizacionog parametra
I Konstruisati nove atribute
294 / 303
![Page 342: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/342.jpg)
Sta ako je varijansa modela visoka?
I Koristiti manje prilagodljive modele
I Koristiti tehnike za izbor atributa
I Koristiti vise vrednosti regularizacionog parametra
I Koristiti vise podataka
295 / 303
![Page 343: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/343.jpg)
Nedostatak informativnih atributa
I Ukoliko atributi nisu dovoljno informativni, nijedan algoritam ucenja ne moze datirezultate
I Proveriti koje klase se medusobno mesaju i proveriti da li se moze ocekivati dapostojeci atributi diskriminisu izmedu njih
I Proveriti da li su atributi korelirani sa ciljnom promenljivom pomocu koeficijentakorelacije i grafika vrednosti ciljne promenljive naspram vrednosti atributa
296 / 303
![Page 344: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/344.jpg)
Pregled
Uopsteno o masinskom ucenju
Neformalan podsetnik verovatnoce i statistike
Teorijske osnove nadgledanog ucenja
Popularni modeli i algoritmi nadgledanog ucenja
Dizajn algoritama nadgledanog ucenja
Procena kvaliteta i izbor modela
Finalni saveti
297 / 303
![Page 345: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/345.jpg)
Finalni saveti
I Prouciti postojece algoritme
I Ustanoviti zasto ne daju dobre rezultate
I Proveriti da li je forma modela adekvatna
I Proveriti da li je funkcija greske adekvatna
I Proveriti da li se regularizacija moze izmeniti kako bi nametnula adekvatnustrukturu modela
I Proveriti da li se optimizacioni metod moze zameniti brzim
I Proveriti da li se optimizacioni problem moze aproksimirati
I Koristiti ugnezdenu unakrsnu validaciju za procenu kvaliteta modela ukoliko jekolicina podataka mala ili trening, validaciju i testiranje ukoliko je na raspolaganjupuno podataka
I Analizirati dobijeni model
298 / 303
![Page 346: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/346.jpg)
Knjige
I C. Bishop, Pattern Recognition and Machine Learning
I T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning
I K. Murphy, Machine Learning, A Probabilistic Perspective
I M. Magdon-Ismail, Y. Abu-Mostafa, Learning from Data: A Short course
I S. Shalev-Schwartz, S. Ben-David, Understanding Machine Learning, FromTheory to Algorithms
I V. Vapnik, Statistical Learning Theory
299 / 303
![Page 347: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/347.jpg)
Knjige
I I. Goodfellow, Y. Bengio, A. Courville, Deep Learning
I B. Scholkopf, A. Smola, Learning With Kernels, Support Vector Machines,Regularization, Optimization, and Beyond
I R. Sutton, A. Barto, Reinforcement Learning: An Introduction
I S. Boyd, L. Vandenberghe, Convex Optimization
I S. Sra, S. Nowozin, S. Wright, Optimization for Machine Learning
I A. Nemirovski, Efficient Methods in Convex Programming
300 / 303
![Page 348: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/348.jpg)
Radovi
I A. Turing, Computing Machinery and Intelligence, 1950
I P. Domingos, A Few Useful Things to Know about Machine Learning, 2012
I K. Beyer, J. Goldstein, R. Ramakrishnan, U. Shaft, When is ”Nearest Neighbor“Meaningful, 1998
I C. Aggarwal, A. Hinnenburg, D. Keim, On the Surprising Behavior of DistanceMetrics in High Dimensional Space, 2001
I T. Mikolov, I. Sutskever, K Chen, G. Corrado, J. Dean, DistributedRepresentations of Words and Phrases and Their Compositionality, 2013
I A. Graves, G. Wayne, I. Danihelka, Neural Turing Machines, 2014
I R. Tibshirani, Regression Shrinkage and Selection via the Lasso, 1996
301 / 303
![Page 349: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/349.jpg)
Radovi
I M. Schmidt, G. Fung, R. Rosales, Fast Optimization Methods for L1
Regularization: A Comparative Study and Two New Approaches, 2007
I J. Ye, J. Liu, Sparse Methods for Biomedical Data, 2012
I Y. Dauphin, R. Pascanu, C. Gulcehre, K. Cho, S. Gangauli, Y. Bengio, Identifyingand attacking the saddle point problem in high-dimensional non-convexoptimization
I M. Nikolic, F. Maric, P. Janicic, Simple Algorithm Portfolio for SAT
I V. Alabau, J. Andres, F. Casacuberta, J. Civera, J. Garcıa-Hernandez, A.Gimenez, A. Juan, A. Sanchis, E. Vidal, The naive Bayes model, generalisationsand applications
302 / 303
![Page 350: Uvod u nadgledano mašinsko ucenje](https://reader031.vdocuments.net/reader031/viewer/2022012307/588c5bb51a28ab78218b5dde/html5/thumbnails/350.jpg)
Linkovi
I http://archive.ics.uci.edu/ml/
I https://github.com/fchollet/keras
I http://www.yelab.net/software/SLEP/
I http://statweb.stanford.edu/~tibs/ElemStatLearn/
I http://statweb.stanford.edu/~tibs/lasso.html
I http://www.seas.ucla.edu/~vandenbe/ee236c.html
I http://www.stat.cmu.edu/~ryantibs/convexopt/
I http://stanford.edu/~boyd/cvxbook/
303 / 303