poslovna analitika i optimizacijapa.fon.bg.ac.rs/wp-content/uploads/2019/02/... · poslovna...

21
Poslovna analitika i optimizacija Gordana Savid E-mail: [email protected] Kabinet: C203 19.11.2018. 1 Fakultet organizacionih nauka

Upload: others

Post on 09-Feb-2020

55 views

Category:

Documents


0 download

TRANSCRIPT

Poslovna analitika i optimizacija

Gordana Savid

E-mail: [email protected]

Kabinet: C203

19.11.2018. 1Fakultet organizacionih nauka

Plan časa

• Uvod

• Klaster analiza

• Hijerarhijski klasteri

• K-means klasteri

• Primer

• Case study – samostalan rad

19.11.2018. Fakultet organizacionih nauka 2

KLASTER ANALIZAPoslovna analitika

19.11.2018. Fakultet organizacionih nauka 3

Klaster analiza

Zašto?

19.11.2018. Fakultet organizacionih nauka 4

Poslovna analitika

• Rad sa podacima!!!

19.11.2018. Fakultet organizacionih nauka 5

Klaster analiza Klaster analizaPronadi sličnosti između podataka i izvršiti grupisanje u

klastere

Klaster: Skup objekata koji su jedan sa drugim Slični (povezani) u okviru grupeRazličiti (nepovezani) sa drugom grupom

• Unsupervised learning: no predefined classes• Typical applications

– As a stand-alone tool to get insight into data distribution – As a preprocessing step for other algorithms

19.11.2018. Fakultet organizacionih nauka 6

Klasterovanje vs KlasifikacijaKlasterovanje

nema predefinisanih klasa (pripada grupi nenadgledanog učenja)

koristi u deskriprivnoj analitici

Klasifikacija: ispituje se pripadnost određenoj klasi

predefinisane klase

koristi u prediktivnoj analitici

19.11.2018. Fakultet organizacionih nauka 7

Klasterovanje

19.11.2018. Fakultet organizacionih nauka 8

xx

xx

xx

xx

x

U koje grupe podeliti objekte?

Primeri Biologija: određivanje klasa, familija, gena, vrsta kojima

pripadaju živa bida Otkrivanje informacija: klasterovanje dokumenata Zemljište: Slične oblastiMarketing: segmentacija tržišta ... Planiranje gradova Klimatologija: otkrivanje šablona u atmosferi i

okeanima Operacioni menadžment – lokacijsko alokacijski

problemi.... Socijalne mreže – klastervanje korisnika...

19.11.2018. Fakultet organizacionih nauka 9

Problemi Priprema podataka (rad sa originalnim ili sastandardizovanim vrednostima)

Kriterijum podele

Jedan nivo vs. hijerarhijsko klasterovanje (Separation of clusters)

Ekskluzivno (jedan objekat – jedan klaster) vs. neeksluživno (jedan objekat – jedan ili više klastera)

Mere sličnosti unutar klastera

Mera distance (razdajina) vs. mera zasnovana na povezanosti (gustina)

Mere sličnosti (različitosti) između klastera

Opseg klasterovanja

Ceo skup(problem manjih dimenzija) ili podskupovi (često kod problema sa velikim podacima)

...

19.11.2018. Fakultet organizacionih nauka 10

Mere sličnosti unutar klastera

19.11.2018. Fakultet organizacionih nauka 11

Pravolinisko rastojenje (Euklidska distanca)

1 2 3 4 5

1

2

3

4.47

n

i

iieuc yxd1

2)(),( yx

Rastojanje između klastera

19.11.2018. Fakultet organizacionih nauka 13

Rastojanje između klasteraAverage

* *

Minimalno rastojanje

Single Linkage (min dij iS1, j S2)

Maksimalno rastojanje

Complete Linkage (max dij iS1, j S2)

Average Linkage

Prosečno rastojanje između grupa

Average Group Linkage

Prosečno rastojanje

Average Linkage (avg dij iS1, j S2)

Algoritami podele

• Metod podele (partitioning): Podela baze D od n ogjekata u skup od k

klastera, tako da suma distanci od centorida (medoida) ci bude minimalna

(where ci is the centroid or medoid of cluster Ci)

• Globalna optimizacija: Ekstenzivna i zahtevna

• Heurističke metode : k-means i k-medoids algoritmi

• Centorid – središnja tačka klastera (srednja vrednost)

15

K-Means klasterovnaje

• Algoritam:

1. Inicijalizacija (izabrati k centorida - Podeliti skup na k

podskupova)

2. Izračunati udaljenost od centroida

3. Dodeliti svaki objekat nekom klasteru na osnovu

minimalne udaljenosti od njegovog cenroida

4. Vratiti se na korak 3 sve dok postoji promena u

stukturi klastera

16

Primer

K=2

17

Problemi

• K-means algoritam je osetljiv na outlier-e (standardizacija podataka)!

• K-means algoritam je osetljiv na šum u podacima

18

Hijerarhijsko klasterovanje• Koristi meru rastojanja. Ne zahteva podelu na klastere

unapred.

Korak 0 Korak 1 Korak 2 Korak 3 Korak 4

b

d

c

e

aa b

d e

c d e

a b c d e

Odozdo na gore )

Odozgo na dole

(komplekovanije)

19

Određivanje broja klastera

• Empirijski

– # klastera: k ≈√n/2, npr. n = 200, k = 10

• Druge metode:

– Elbow metod

– Metod unakrsne validacije (npr. minimalna ukupna distanca)

20

Studija slučaja• Otvorite fajl Caldesco podaci klasterovnaje

primer.xls

• Pronadi najmanje rastojanje između svaka dva objekta

• Izvršiti hijerarhijsko klasterovanje

• Izvršiti k-means klasterovnaje

• SQRT

• SUMXMY2()

19.11.2018. Fakultet organizacionih nauka 21