poslovna analitika i optimizacijapa.fon.bg.ac.rs/wp-content/uploads/2019/02/... · poslovna...
TRANSCRIPT
Poslovna analitika i optimizacija
Gordana Savid
E-mail: [email protected]
Kabinet: C203
19.11.2018. 1Fakultet organizacionih nauka
Plan časa
• Uvod
• Klaster analiza
• Hijerarhijski klasteri
• K-means klasteri
• Primer
• Case study – samostalan rad
19.11.2018. Fakultet organizacionih nauka 2
Klaster analiza Klaster analizaPronadi sličnosti između podataka i izvršiti grupisanje u
klastere
Klaster: Skup objekata koji su jedan sa drugim Slični (povezani) u okviru grupeRazličiti (nepovezani) sa drugom grupom
• Unsupervised learning: no predefined classes• Typical applications
– As a stand-alone tool to get insight into data distribution – As a preprocessing step for other algorithms
19.11.2018. Fakultet organizacionih nauka 6
Klasterovanje vs KlasifikacijaKlasterovanje
nema predefinisanih klasa (pripada grupi nenadgledanog učenja)
koristi u deskriprivnoj analitici
Klasifikacija: ispituje se pripadnost određenoj klasi
predefinisane klase
koristi u prediktivnoj analitici
19.11.2018. Fakultet organizacionih nauka 7
Klasterovanje
19.11.2018. Fakultet organizacionih nauka 8
xx
xx
xx
xx
x
U koje grupe podeliti objekte?
Primeri Biologija: određivanje klasa, familija, gena, vrsta kojima
pripadaju živa bida Otkrivanje informacija: klasterovanje dokumenata Zemljište: Slične oblastiMarketing: segmentacija tržišta ... Planiranje gradova Klimatologija: otkrivanje šablona u atmosferi i
okeanima Operacioni menadžment – lokacijsko alokacijski
problemi.... Socijalne mreže – klastervanje korisnika...
19.11.2018. Fakultet organizacionih nauka 9
Problemi Priprema podataka (rad sa originalnim ili sastandardizovanim vrednostima)
Kriterijum podele
Jedan nivo vs. hijerarhijsko klasterovanje (Separation of clusters)
Ekskluzivno (jedan objekat – jedan klaster) vs. neeksluživno (jedan objekat – jedan ili više klastera)
Mere sličnosti unutar klastera
Mera distance (razdajina) vs. mera zasnovana na povezanosti (gustina)
Mere sličnosti (različitosti) između klastera
Opseg klasterovanja
Ceo skup(problem manjih dimenzija) ili podskupovi (često kod problema sa velikim podacima)
...
19.11.2018. Fakultet organizacionih nauka 10
Rastojanje između klasteraAverage
* *
Minimalno rastojanje
Single Linkage (min dij iS1, j S2)
Maksimalno rastojanje
Complete Linkage (max dij iS1, j S2)
Average Linkage
Prosečno rastojanje između grupa
Average Group Linkage
Prosečno rastojanje
Average Linkage (avg dij iS1, j S2)
Algoritami podele
• Metod podele (partitioning): Podela baze D od n ogjekata u skup od k
klastera, tako da suma distanci od centorida (medoida) ci bude minimalna
(where ci is the centroid or medoid of cluster Ci)
• Globalna optimizacija: Ekstenzivna i zahtevna
• Heurističke metode : k-means i k-medoids algoritmi
• Centorid – središnja tačka klastera (srednja vrednost)
15
K-Means klasterovnaje
• Algoritam:
1. Inicijalizacija (izabrati k centorida - Podeliti skup na k
podskupova)
2. Izračunati udaljenost od centroida
3. Dodeliti svaki objekat nekom klasteru na osnovu
minimalne udaljenosti od njegovog cenroida
4. Vratiti se na korak 3 sve dok postoji promena u
stukturi klastera
16
Problemi
• K-means algoritam je osetljiv na outlier-e (standardizacija podataka)!
• K-means algoritam je osetljiv na šum u podacima
18
Hijerarhijsko klasterovanje• Koristi meru rastojanja. Ne zahteva podelu na klastere
unapred.
Korak 0 Korak 1 Korak 2 Korak 3 Korak 4
b
d
c
e
aa b
d e
c d e
a b c d e
Odozdo na gore )
Odozgo na dole
(komplekovanije)
19
Određivanje broja klastera
• Empirijski
– # klastera: k ≈√n/2, npr. n = 200, k = 10
• Druge metode:
– Elbow metod
– Metod unakrsne validacije (npr. minimalna ukupna distanca)
20