duomenų vizualizavimas duomenys · rezoliucija bus keletas metrų, ir žymiai glotnesnis...

Post on 03-Feb-2020

6 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Duomenų vizualizavimas

Duomenys

Aušra Mackutė-Varoneckienė Tomas Krilavičius

1

Apie duomenis

• Duomenų tipai – Duomenų aibės gali skirtis įvairiais aspektais

• pvz., objektus aprašantys požymiai gali būti kokybiniai arba kiekybiniai.

– ir pasižymėti tam tikromis charakteristikomis • pvz., duomenų aibės susietos su laiko eilutėmis arba duomenų aibės objektai

tam tikrais ryšiais susiję vieni su kitais.

– Duomenų tipai apibrėžia kokie analizės įrankiai ir metodai gali būti naudojami duomenų analizei

– Duomenų tyrybos (angl. Data mining) mokslas plečiasi ir juda į priekį dažniausiai dėl atsirandančių naujų/netyrinėtų taikomųjų sričių ir iš jų gaunamų naujų duomenų rinkinių

2 pagal: P. N. Tan, M. Steinbach, V. Kumar, “Introduction to Data Mining”, Addison-Wesley (2006)

Apie duomenis

• Duomenų kokybė – Duomenys retai būna nepriekaištingi ir puikiai paruošti.

Daugelis duomenų tyrybos metodų toleruoja tam tikro laipsnio duomenų neišbaigtumą, tačiau mėginimas suvokti duomenis ir pagerinti duomenų kokybę dažniausiai pagerina ir duomenų analizės kokybę. Duomenų kokybę galima apibūdinti keletu aspektų:

– triukšmai ir ekstremalios, gerokai nutolę nuo vidurkio, reikšmės (angl. outliers)

– trūkstami, nenuoseklūs ar dubliuoti duomenys – neobjektyvūs ir neprezentatyvūs (atipiniai) duomenys

3

Apie duomenis

• Duomenų, tinkamų duomenų tyrybos procesui, paruošimas • Dažniausiai, prieš pradedant analizuoti duomenis juos reikia

apdoroti/sutvarkyti. Pirminio duomenų apdorojimo tikslai: • Pagerinti duomenų kokybę • Paruošti duomenis tokia forma, kuri tinkamiausia konkrečiam

duomenų tyrybos metodui arba įrankiui. • Pvz., tam, kad taikyti tam tikrą analizės metodą, objektus aprašančius tolydžius

požymius, pvz., ilgį, gali prisireikti transformuoti į diskrečių požymių kategorijas, pvz., trumpas, vidutinis ar ilgas.

• Duomenų analizės metodai efektyvesni, kai duomenis aprašo sąlyginai mažesnis požymių skaičius.

4

Apie duomenis

• Duomenų analizė jų sąryšių aspektu • Vienas iš duomenų analizės metodų yra surasti ryšius tarp

duomenų objektų ir tada vykdyti tolesnę analizę naudojant ir surastus/nustatytus ryšius ir tuos duomenų objektus.

• Pavyzdžiui, galima apskaičiuoti panašumus ar atstumus tarp objektų porų ir tada analizuoti – klasterizuoti, klasifikuoti ar remiantis apskaičiuotais panašumais ar atstumais surasti anomalijas duomenyse.

• Yra įvairiausių panašumų ar atstumų matų ir jų parinkimas priklauso nuo duomenų tipo ir konkretaus taikymo.

5

Duomenys – kas tai? • Duomenų aibė – tai duomenų

objektų rinkinys • Duomenų objektus aprašo atributai • Atributais aprašomos objekto

ypatybės ar charakteristikos • Pvz. , žmogaus akių spalva, kūno

temperatūra ir t.t. • Atributas taip pat gali būti

vadinamas kintamuoju, sritimi, charakteristika, dimensija ar požymiu

• Atributų rinkinys apibūdina objektą • Duomenų objektas taip pat gali būti

vadinamas įrašu, tašku, faktu, imtimi ar pavyzdžiu

6

Stu

d i

d

Kur

sas

Stud

ijų

prog

ram

a

1 se

mes

tro

vidu

rkis

2 se

mes

tro

vidu

rkis

Ben

dras

vi

durk

is

mif0111 1 MAT 8.6 8.2 8.4

mif0014 2 INF 7.3 8.1 7.7

mif0003 2 MAT 10.0 10.0 10.0

mif0104 1 INF 9.8 10.0 9.9

mif0008 2 INF 8.8 8.6 8.7

mif0106 1 INF 7.9 8.5 8.2

mif0109 1 MAT 8.5 7.7 8.1

mif0122 1 INF 8.5 8.1 8.3

mif0019 2 MAT 9.1 9.5 9.3

mif0010 2 MAT 7.8 8.0 7.9 10

Attributai

Objektai

Atributų reikšmės • Atributų reikšmės yra skaičiai ar simboliai priskirti konkrečiam

atributui • Atributais aprašomos objekto savybės ar charakteristikos gali kisti

keičiantis objektams, taip pat gali kisti laike • Pvz., atributas “akių spalva” gali keistis peržiūrint vieną objektą po kito, o

objekto temperatūra kinta bėgant laikui. Čia akių spalvą apibrėžia nedidelė galimų reikšmių aibė {ruda, mėlyna, žalia, pilka, t.t.}, o temperatūra yra skaitinis atributas su (beveik) nelimituota reikšmių aibe.

• Atributų skirtumai ir atributų reikšmės • Kai kurie atributai gali būti išreikšti skirtingomis atributų reikšmėmis

• Pvz., aukštis gali būti matuojamas ir metrais, ir pėdomis

• Skirtingi atributai gali būti išreikšti tomis pačiomis reikšmių aibėmis • Pvz., atributų reikšmės aprašančios ID ir amžių yra sveikieji skaičiai • Tačiau atributų reikšmių savybės gali skirtis

• Pvz., ID reikšmės neribotos, o pvz. amžius dažniausiai turi minimalią ir maksimalią reikšmes. 7

Ilgio matavimas • Taip kaip nustatinėjate/įvertinate/pamatuojate atributą

nebūtinai atitinka jo savybes

8

1

2

3

5

5

7

8

15

10 4

A

B

C

D

E

Atributų rūšys

• Yra keletas atributų rūšių • Nominalūs

• Pvz., ID numeriai, akių spalva, pašto kodai

• Ordinalūs • Pvz., rangavimas (pvz., bulvių traškučių skonio vertinimo skalė nuo 1 iki 10),

pažymiai, aukščio matavimai (pvz., aukštas, vidutinio aukščio, mažas)

• Intervaliniai • Pvz., kalendorinės datos, temperatūros matavimai Celsijaus laipsniais ar

Farenheitais

• Santykiniai • Pvz., temperatūra Kelvinais, ilgis, laikas, skaičiavimai

9

Atributų reikšmių savybės

• Atributo rūšis priklauso nuo to kokiomis savybėmis (operacijomis) jis pasižymi

• Aiškumas/suvokiamumas = ≠ • Eiliškumas/išsidėstymo tvarka < > • Papildymas + - • Dauginimas * /

• Nominalūs atributai: aiškumas/suvokiamumas • Ordinalūs atributai: aiškumas/suvokiamumas ir eiliškumas • Intervaliniai atributai: aiškumas/suvokiamumas, eiliškumas ir

papildymas • Santykiniai atributai: visos keturios savybės

10

Atributo rūšis

Apibūdinimas

Pavyzdžiai

Galimi veiksmai

Nominalūs

Nominalių atributų reikšmės yra tiesiog skirtingi vardai, pvz., nominalūs atributai turi pakankamai informacijos, kad galėtumėm atskirti vieną objektą nuo kito (=, ≠)

Pašto kodai, darbuotojų ID numeriai, akių spalva, lytis {vyriška, moteriška}

Moda, entropija, požymių dažnumų koreliacija (angl. contingency correlation), χ2 testas Ordinalūs

Pagal ordinalių atributų reišmes galima nustatyti objektų eiliškumą (<, >)

Mineralų kietumas, rangavimas {geras, geresnis, geriausias}, pažymiai, namų numeriai

Mediana, percentiliai, rango koreliacija, ...

Intervaliniai

Intervalinių atributų skirtumai tarp reikšmių yra labai svarbūs, t.y., egzistuoja matavimo vienetai (+, - )

Kalendorinės datos, temperatūros matavimai Celsijaus laipsniais ar Farenheitais

Vidurkis, standartinis nuokrypis, Pearson koreliacija, t ir F testai

Santykiniai

Santykiniai kintamieji pasižymi tuo, kad labai svarbūs ir skitumai tarp reikšmių ir santykis (*, /)

Temperatūra Kelvinais, piniginiai kiekiai, skaičiavimai, amžius, svoris, ilgis, elektros srovė

Geometrinis vidurkis, harmoninis vidurkis, procentiniai nuokrypiai

Atributai

• Bendrai nominalius ir ordinalius atributus galima vadinti kategoriniais arba kokybiniais atributais

• Kokybinių atributų skaitinės reikšmės dažnai neturi visų savybių kokiomis pasižymi skaičiai

• Bendrai intervalinius ir santykinius atributus galima vadinti kiekybiniais arba skaitiniais atributais.

• Kiekybiniai atributai išreikšti skaičiais turi visas skaičiams būdingas savybes

• Kiekybinių atributų reikšmės gali būti tiek sveikieji, tiek realūs skaičiai

12

Atributo rūšis

Galimos atributų reikšmių transformacijos

Komentarai

Nominalūs

Bet kokie pakeitimai

Jei visų darbuotojų ID numeriai būtų priskirti iš naujo, ar kas nors nuo to pasikeistų?

Ordinalūs

Eiliškumą išlaikantys reikšmių pakeitimai, t.y., nauja_reikšmė = f(sena_reikšmė) čia f - monotoninė funkcija

Atributas apibrėžiantis kokybės sąvoką tiek pat gerai bus perteikiamas reikšmėmis {1, 2, 3}, tiek reikšmėmis { 0.5, 1, 10}.

Intervaliniai

nauja_reikšmė = a * sena_reikšmė + b, čia a ir b – konstantos

Farenheito ir Celsijaus temperatūrų skalės skiriasi nulinės reikšmės pozicija ir matavimo vieneto dydžiu (laipsniu)

Santykiniai

nauja_reikšmė = a * sena_reikšmė

Ilgis gali būti matuojamas tiek metrais, tiek pėdomis

Diskretūs ir tolydūs atributai

• Diskretūs atributai • Turi baigtinę reikšmių aibę • Tokie atributai gali būti kategoriniai, pvz., pašto kodai, įvairūs suskaičiavimai,

konkrečiuose dokumentuose naudojamų žodžių aibė • Atributų reikšmės dažniausiai sveikieji skaičiai • Pastaba: binariniai atributai yra diskrečių atributų atskiras atvejis ir turi tik dvi

reikšmes, pvz.: true/false, taip/ne, vyras/moteris, arba 0/1 • Tolydūs atributai

• Atributų reikšmės yra realūs skaičiai • Pvz., temperatūra, aukštis ar svoris • Praktikoje, realios reikšmės matuojamos ir pateikiamos naudojant baigtinį kiekį

skaičių • Tolydūs atributai dažniausiai pateikiami naudojant slankaus kablelio

kintamuosius

14

Diskretūs ir tolydūs atributai

• Nominalių, ordinalių, intervalinių ir santykinių atributų reikšmės gali būti tiek diskrečios, tiek tolydžios, tiek binarinės.

• Tačiau kai kurie atributų ir jų reikšmių deriniai būna arba labai reti arba neturi ypatingos reikšmės

• Nominalių ir ordinalių atributų reikšmės dažniausiai būna binarinės ar diskrečios, o intervalinių ir santykinių atributų reikšmės – tolydžios

• Tačiau, skaičiuojamieji atributai, kurių reikšmės diskrečios, yra santykiniai atributai

15

Duomenų aibių rūšys

• Įrašai • Duomenų matricos • Dokumentų duomenys • Transakcijų duomenys

• Grafai • World Wide Web • Molekulinės struktūros

• Sutvarkyti (ordered) • Erdviniai duomenys • Laikini duomenys • Išplaukiantys duomenys • Genetinių sekų duomenys

16

Struktūrizuotų duomenų svarbiausios charakteristikos

• Dimensionalumas: Duomenų aibės dimensioanalumas – tai atributų aprašančių duomenų objektus skaičius. Duomenys turintys mažiau dimensijų dažnai būna kokybiškesni. Dėl to pirminiame apdorojime labai svarbus duomenų dimensijų sumažinimo procesas

• Išmėtymas (angl., sparsity): Kai kuriose duomenų aibėse, ypatingai kuriose daugelis atributų įgyja reikšmes lygias nuliui, lieka tik apie 1% nenulinių įrašų. Todėl būtent išmėtymas yra privalumas, nes lieka tik nenulinės reikšmės. Taip taupomi ir laiko , ir kompiuteriniai resursai apdorojant duomenis

• Rezoliucija: Duomenų struktūros priklauso nuo skalių. Dažnai galima gauti duomenis su skirtingomis rezoliucijomis. Pvz., žemės paviršius bus labai gruoblėtas jei rezoliucija bus keletas metrų, ir žymiai glotnesnis paviršius bus jei rezoliucija bus dešimtys kilometrų. Jei rezoliucija per maža, struktūros nesimatys ar “paskęs” triukšme, jei rezoliucija per didelė, struktūra gali iš vis pranykti 17

Duomenų įrašai

• Duomenis sudaro įrašų rinkinys. Kiekvieną įrašą aprašo fiksuota atributų aibė

• Nėra ypatingų ryšių tarp įrašų

• Dažniausiai saugomi failuose ar DB

• Duomenų įrašų tipai • Duomenų matricos

• Dokumentų duomenys (retos

duomenų matricos)

• Transakcijų duomenys 18

Stu

d i

d

Kur

sas

Stud

ijų

prog

ram

a

1 se

mes

tro

vidu

rkis

2 se

mes

tro

vidu

rkis

Ben

dras

vi

durk

is

mif0111 1 MAT 8.6 8.2 8.4

mif0014 2 INF 7.3 8.1 7.7

mif0003 2 MAT 10.0 10.0 10.0

mif0104 1 INF 9.8 10.0 9.9

mif0008 2 INF 8.8 8.6 8.7

mif0106 1 INF 7.9 8.5 8.2

mif0109 1 MAT 8.5 7.7 8.1

mif0122 1 INF 8.5 8.1 8.3

mif0019 2 MAT 9.1 9.5 9.3

mif0010 2 MAT 7.8 8.0 7.9 10

Duomenų matricos • Jei duomenų objektai turi fiksuotą aibę skaitinių atributų, tada duomenų objektai

gali būti traktuojami kaip taškai daugiamatėje erdvėje, kur kiekviena dimensija atitinka konkretų atributą.

• Tokios duomenų aibės gali būti atvaizduojamos m x n matricose, kai yra m eilučių – po vieną kiekvienam objektui, ir n stulpelių – po vieną kiekvienam atributui

• Duomenų matricos yra naudojamos kaip duomenų formato standartas statistiniams duomenims

19

Fisher's Iris Data

Sepal Length Sepal Width Petal Length Petal Width Species

5.1 3.5 1.4 0.2 setosa

4.7 3.2 1.3 0.2 Setosa

6.6 3.0 4.4 1.4 versicolor

6.8 2.8 4.8 1.4 versicolor

7.2 3.6 6.1 2.5 virginica

6.5 3.2 5.1 2.0 Virginica

...

Dokumentų duomenys

• Tai specialus duomenų matricų atvejis, kai atributų reikšmės yra tokio pačio tipo ir svarbios tik nenulinės atributų reikšmės.

• Kiekvienas dokumentas tampa “terminų” vektoriumi • Kiekvienas terminas yra vektoriaus komponentas (atributas)

• Kiekvieno atributo reikšmė yra termino pasikartojimų skaičius dokumente

20

Document 1

season

timeout

lost

win

game

score

ball

play

coach

teamDocument 2

Document 3

3 0 5 0 2 6 0 2 0 2

0

0

7 0 2 1 0 0 3 0 0

1 0 0 1 2 2 0 3 0

Transakcijų duomenys

• Atskiras įrašų duomenų atvejis, kai: • Kiekvienas įrašas (transakcija) apima aibę elementų

• Pvz., įsivaizduokite maisto prekių parduotuvę. Vieno pirkėjo pirkti produktai vieno apsipirkimo metu sudaro transakciją. Kiekvienas nupirktas produktas yra elementas.

21

ID Produktai

1 Duona, Pienas, Sūris

2 Alus, Duona

3 Pienas Kiaušiniai, Varškė, Sultys

4 Sultys, Duona, Sūris, Pienas

5 Pienas, Šokoladas, Sausainiai

Grafų duomenys

• Pvz., Grafai ir HTML linkai

22

5

2

1 2

5

<a href="papers/papers.html#bbbb">Data Mining </a><li><a href="papers/papers.html#aaaa">Graph Partitioning </a><li><a href="papers/papers.html#aaaa">Parallel Solution of Sparse Linear System of Equations </a><li><a href="papers/papers.html#ffff">N-Body Computation and Dense Linear System Solvers

Cheminiai duomenys

• Pvz., benzolo molekulė: C6H6

23

Sutvarkyti (ordered) duomenys: nuoseklūs duomenys • Atributai susiję ryšiais, kurie sudaro tam tikrą tvarką laiko

ar edvės atžvilgiu

• Transakcijų sekos

24

Sekos elementai

Elementai/įvykiai

Laiko momentas Pardavėjas Nupirkti produktai

t1 C1 A, B

t2 C3 A, C

t2 C1 C, D

t3 C2 A, D

t4 C2 E

t5 C1 A, E

Pardavėjas Laikas ir nupirkti produktai

C1 (t1: A, B) (t2: C, D) (t3: A,E)

C2 (t3: A, D) (t4: E)

C3 (t2: A, C)

Sutvarkyti (ordered) duomenys: sekos duomenys • Sekos duomenis sudaro duomenų aibė sudaryta iš individualių

elementų, pvz., žodžių ar raidžių seka. Panašu į nuoseklias sekas, bet čia nėra susiejimo su laiku. Vietoj to labai svarbi elemento pozicija sutvarkytoje sekoje.

• Pvz., genomo sekos duomenys – Sudaryta iš keturių nukleotidų

A, T, G ir C

25

GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG

• Laiko eilučių duomenys, tai atskiras nuoseklių duomenų atvejis, kai kiekvienas įrašas yra laiko eilutė, t.y., eilė matavimų atliktų tam tikrame laiko intervale

• Pvz., finansiniai duomenys dali būti sudaryti iš objektų –laiko eilučių aprašančių kiekvienos dienos akcijų biržų kainas

• Pvz., laiko eilutės aprašančios vidutinę mėnesio temperatūrą

• Metinė oro tempera-

tūra Vilniuje

1778-2010 m.

Sutvarkyti (ordered) duomenys: laiko eilutės

26

Sutvarkyti (ordered) duomenys: Erdviniai–laikini duomenys • Kai kurie objektai turi erdvinius atributus nurodančius pozicijas ar

sritis

• Pvz., meteorologiniai duomenys( krituliai, temperatūra, slėgis), kurie fiksuojami daugybėje vietų

2011 09 22 Maksimali oro temperatūra Europoje

27

• Kokios problemos kyla dėl duomenų kokybės? • Kaip galime aptikti problemas susijusias su duomenimis? • Kaip iškilusias problemas galime spręsti?

• Problemų dėl duomenų kokybės pavyzdžiai

• Triukšmai ir taškai atsiskyrėliai • Prarastos/negautos reikšmės • Nenuoseklios reikšmės • Dubliuoti duomenys

Duomenų kokybė

28

• Triukšmas – modifikuotos originalios reikšmės • Pvz., trukdžiai kalbant telefonu, ar “snieguotas“ vaizdas TV ekrane

Dvi sinusinės kreivės Dvi sinusinės kreivės + triukšmas

Triukšmai

29

• Taškai atsiskyrėliai tai tokie duomenų objektai, kurių charakteristikos kardinaliai skiriasi nuo kitų duomenų aibės duomenų objektų

Taškai atsiskyrėliai

30

• Priežastys dėl kurių kartais trūksta duomenų • Nebuvo surinkta informacija

• Pvz., respondentai nesutiko pasakyti savo amžių ir svorį

• Ne visi atributai gali būti taikomi visais atvejais • Pvz., metinis uždarbis negali būti taikomas vaikams

• Ką daryti kai trūksta duomenų? • Eliminuoti duomenų objektus • Apytikriai apskaičiuoti/įvertinti trūkstamas reikšmes • Ignoruoti tokias reikšmes vykdant analizę • Pakeisti galimomis reikšmėmis

Trūkstamos reikšmės

31

• Duomenų aibėse gali būti esminių neatitikimų

• Pvz., tarkim turime adresą nusakančius atributus – du iš jų miestas ir miesto kodas, tačiau įvesta miestą nusakančio atributo reikšmė neatitinka pagal įvesto kodo atributo reikšmę

• Kartais nenuoseklumą nesudėtinga nustatyti

• Pvz., žmogaus ūgis negali būti neigiamas, arba įvestas žmogaus ūgis 2 m, svoris 4 kg ir pan.

Nenuoseklios reikšmės

32

• Duomenų aibėje gali pasitaikyti dubliuotų duomenų, ar beveik vienas kito objektų dublikatų

• Tai dažniausiai nutinka sujungiant duomenis iš įvairių šaltinių

• Pvz.: • Tas pats asmuo su įvairiais epašto adresais

• Duomenų valymas • Procesas, kurio metu tvarkomi dubliuoti duomenų objektai

Dubliuoti duomenys

33

• Agregavimas

• Pavyzdžių surinkimas / Imties sudarymas

• Matavimų erdvės skaičiaus (dimensionalumo) sumažinimas

• Požymių poaibio atrinkimas

• Požymių kūrimas

• Diskretizavimas ir binarizavimas

• Atributų trasformavimas

Duomenų pirminis apdorojimas

34

• Dviejų ar daugiau atributų (arba objektų) sujungimas

• Tikslas • Duomenų kiekio mažinimas

• Sumažinamas atributų arba objektų skaičius

• Skalės keitimas • Miestai agreguojami į regionus, šalis ir pan.

• Gaunami “stabilesni” duomenys • Agreguoti duomenys turi mažesnius nukrypimus

Agregavimas

35

• Kritulių kiekio kitimas Australijoje

Vidutinio mėnesinio kritulių Vidutinio metinio kritulių kiekio standartinis nuokrypis kiekio standartinis nuokrypis

Agregavimas

36

• Imties sudarymas tai metodika, kuria atrenkami duomenys • Tai dažnai naudojama ir premilinariam duomenų aibės

tyrinėjimui, ir galutinei duomenų aibės analizei

• Imties sudarymas duomenų gavyboje naudojamas dar ir todėl, kad visos duomenų aibės apdorojimas dažniausiai yra brangus ar užtrunka labai daug laiko

Pavyzdžių surinkimas/Imties sudarymas

37

• Pagrindiniai dalykai, dėl kurių sudaryta imtis bus gera

• Jei imtis bus representatyvi, dirbant su imtimi bus gaunami

beveik tokie patys rezultatai, kaip ir su visa duomenų aibe

• Imtis yra representatyvi jei ji pasižymi apytikriai tokiomis pačiomis savybėmis, kaip ir originali duomenų aibė

Pavyzdžių surinkimas/Imties sudarymas

38

• Atsitiktinis duomenų išrinkimas į imtį • Kiekvienas duomenų aibės objektas turi tokią pačią tikimybę būti atrinktas į

imtį • Imties sudarymas be pasikartojimų

• Kiekvienas atrinktas duomenų aibės objektas į imtį pašalinamas iš populiacijos (duomenų aibės)

• Imties sudarymas su pasikartojimais • Objektas nepašalinamas iš populiacijos, kai patenka į imtį

• Imties sudaryme su pasikartojimais, tas pats duomenų objektas gali būti atrinktas daugiau nei vieną kartą

• Sluoksniuotas imties sudarymas • Duomenų aibė dalinama į kelias lygias dalis, tada iš kiekvienos dalies

pavyzdžiai į imtį atrenkami atsitiktinai

Imties sudarymo būdai

39

8000 taškų 2000 taškų 500 taškų

Imties dydis

40

• Koks turėtų būti imties dydis norint surinkti bent po vieną objektą iš kiekvienos iš 10 grupių

Imties dydis

41

• Kai matavimų skaičiaus erdvė didėja, duomenys nagrinėjamoje erdvėje labiau išsisklaido

• Taškų tankumas, bei atstumai tarp taškų labai svarbūs norint duomenis klasterizuoti ir aptikti taškus atsiskyrėlius

• Atsitiktinai sugeneruoti 500 taškų • Apskaičiuoti skirtumai tarp taškų porų max ir min atstumų

Dimensionalumas

42

• Tikslas – Išvengti problemų kylančių dėl didelio dimensijų skaičiaus – Sumažinti laiko ir atminties resursų poreikį reikalingą apdorojant

duomenis duomenų tyrybos metodais – Kad būtų lengviau vizualizuoti – Taip gali būti pašalinami nereikšmingi požymiai ar sumažinamas

triukšmas

• Metodai – Principle Component Analysis – Singular Value Decomposition – Kiti: supervised and non-linear techniques

Matavimų skaičiaus erdvės (dimensionalumo) mažinimas

43

• Kitas būdas kaip sumažinti duomenų dimensionalumą yra požymių poaibio išskyrimas

• Pertekliniuose požymiuose – daug pasikartojimų/dubliavimo arba visa pagrindinė informacija

būna kituose požymiuose – Pvz., produkto pardavimo kaina ir pridėtinės vertės mokestis

• Nereikšminguose požymiuose – nėra informacijos, kuri būtų naudinga vykdant duomenų gavybos

užduotį – Pvz., pacientų ID dažniausiai būna nereikšmingi duomenys, kai

norima nustatyti /prognozuoti ligą

Požymių poaibio išrinkimas

44

• Metodai – “Jėgos” (Brute-force) metodas

• Duomenų gavybos metodais analizuojami visi galimi poaibiai

– Embedded metodas • Vykdant duomenų analizę požymių atrinkimas vykdomas natūraliai –

kaip dalis duomenų gavybos proceso

– Filtro metodas • Požymiai išrenkami prieš pradedant vykdyti duomenų analizę

– Aplanko (Wrapper) metodas • Naudojami duomenų gavybos metodai kaip juodos dėžės, kurios

išrenka geriausius atributų poaibius

Požymių poaibio išrinkimas

45

• Sukurti naujus atributus, kuriais būtų perteikiama žymiai svarbesnė informacija nei ta, kurią perteikia esami atributai.

• Trys pagrindinės metodologijos: – Požymių ištraukimas (feature extraction)

• Požymių, charakteringų nagrinėjamai sričiai ištraukimas

– Duomenų atvaizdavimas į naują erdvę

– Požymių konstravimas • Apjungiant požymius

Požymių kūrimas

46

• Furjė transformacija (Fourier transform)

• Vilnelių transformacija (Wavelet transform)

Dvi laiko eilutės Laiko eilutės su triukšmu Spektro galia

Duomenų atvaizdavimas į naują erdvę

47

Hz

Duomenys Vienodi intervalai

Vienodi dažniai K-vidurkių metodas

Diskretizavimas nenaudojant klasių

48

Trys klasės pagal x ir y Penkios klasės pagal x ir y

Diskretizavimas naudojant klases

49

• Funkcija, kuri atvaizduoja visos aibės konkretaus atributo reikšmes į naują keičiamųjų reikšmių aibę taip, kad kiekviena ankstesnė reikšmė gali būti identifikuojama pagal vieną iš naujų reikšmių

– Funkcijos: xk, log(x), ex, |x| – Standartizavimas ar normalizavimas. Tikslas – duomenų aibės reikšmėms

suteikti konkrečią savybę • Jei mx yra atributo reikšmių vidurkis, o sx – standartinis nuokrypis, tada

transformacija x’ = (x – mx) / sx padaro naują kintamąjį su vidurkiu 0 ir standartiniu nuokrypiu 1.

• Kai duomenų aibėje egzistuoja taškai atsiskyrėliai, tada standartizavimas vykdomas vidurkį keičiant mediana, o standartinį nuokrypį absoliutiniu standartiniu nuokrypiu

- arba vidurkis, arba mediana, xi – i-tasis kintamasis, m – objektų sk.

Atributų transformacija

50

µ

µσ ∑ =−=

m

i iA x1

• Panašumai – Skaitinis matas nurodantis kiek panašūs du duomenų objektai – Matas yra didesnis, kai objektai labiau panašūs – Panašumo mato reikšmės dažniausia būna iš intervalo [0, 1]

• Nepanašumai – Skaitinis matas nurodantis kiek skirtingi du duomenų objektai – Matas yra mažesnis, kai objektai yra labiau panašūs – Nepanašumo mato minimumas dažniausiai =0 – Viršutinė nepanašumo mato riba kintanti

• Objektų artimumą nurodo arba panašumo matas, arba nepanašumo matas

Panašumai ir nepanašumai

51

p ir q yra atributų reikšmės dviems duomenų objektams (objektai turi po vieną atributą)

Panašumo ir nepanašumo matų apskaičiavimas paprastiems atributams

52

Atributo rūšis Nepanašumai Panašumai

Nominalūs

Ordinalūs Reikšmės atvaizduojamos į sveikųjų skaičių seką nuo 0 iki n-1, čia n reikšmių kiekis

Intervaliniai ir santykiniai

≠=

=qpjeiqpjei

d,1,0

≠=

=qpjeiqpjei

s,0,1

1−−

=n

qpd

11

−−

−=n

qps

qpd −=

dd

dds

arbad

sds

minmaxmin1

11,

−−

−=

+=−=

• Euklido atstumas:

• Čia n dimensijų skaičius (atributų kiekis), pk ir qk yra atitinkamai duomenų objektų p ir q, k-tasis atributas

• Jei atributų skalės skiriasi - būtinas standartizavimas

Euklido atstumas

53

( )∑=

−=n

kkk qpdist

1

2

Atstumų matrica

Euklido atstumas

54

0

1

2

3

0 1 2 3 4 5 6

p1

p2

p3 p4

point x yp1 0 2p2 2 0p3 3 1p4 5 1

p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0

• Minkovskio atstumas yra Euklido atstumo apibendrinimas:

• Čia r yra parametras, n – dimensijų (atributų) skaičius, pk ir qk yra atitinkamai duomenų objektų p ir q, k-tasis atributas

Minkovskio atstumas

55

rn

k

rkk qpdist

1

1

−= ∑

=

• r=1: Miesto kvartalų (City block, Manhattan, taxicab, L1 norm) atstumas

– Pvz., Hamingo atstumas, kuris nurodo dvejuose binariniuose vektoriuose esančių skirtingų bitų kiekį

• r=2: Euklido atstumas

• r=∞: “supremum” (Lmaxnorm, L∞norm) atstumas – Tai yra maksimalus atstumas tarp bet kurių vektorių komponentų

• Nepainiokite r ir n, t.y. visi šie atstumai skaičiuojami su visu dimensijų kiekiu

Minkovskio atstumas: pavyzdžiai

56

Atstumų matrica

Minkovskio atstumas

57

point x yp1 0 2p2 2 0p3 3 1p4 5 1

L1 p1 p2 p3 p4p1 0 4 4 6p2 4 0 2 4p3 4 2 0 2p4 6 4 2 0

L2 p1 p2 p3 p4p1 0 2.828 3.162 5.099p2 2.828 0 1.414 3.162p3 3.162 1.414 0 2p4 5.099 3.162 2 0

L∞ p1 p2 p3 p4p1 0 2 3 5p2 2 0 1 3p3 3 1 0 2p4 5 3 2 0

• Mahalanobis atstumas: • Σ – duomenų X kovariacinė matrica:

Euklido atstumas tarp raudonų taškų yra 14.7, Mahalanobis atstumas – 6.

Mahalanobis atstumas

58

( ) ( ) ( )TMahal qpqpqpdist −∑−= −1,

∑=

−−−

=Σn

ikikjijkj XXXX

n 1, ))((

11

Mahalanobis atstumas

59

( )( )( )

( )( ) 4,

5,

5.1,5.11,0

5.0,5.0

3.02.02.03.0

==

===

=∑

CAdistBAdist

CBA

Mahal

Mahal

• Atstumai, pvz., Euklido atstumas, pasižymi tokiomis savybėmis – d(p, q) ≥ 0 visiems p ir q, o d(p, q) = 0, tik tada, kai p = q

– d(p, q) = d(q, p) visiems p ir q – d(p, r) ≤ d(p, q) + d(q, r) visiems p, q ir r

Čia d(p, q) yra atstumas (nepanašumas) tarp p ir q taškų (duomenų objektų)

• Atstumas, kuris tenkina šias savybes – vadinamas metrika

Bendros atstumų savybės

60

• Panašumai, pasižymi tokiomis savybėmis – s(p, q) = 1 tik tada, kai p = q

– s(p, q) = s(q, p) visiems p ir q (simetriškumas)

Čia s(p, q) yra panašumas tarp p ir q taškų (duomenų objektų)

Bendros panašumų savybės

61

• Panaši situacija yra kai objektai p ir q sudaryti iš binarinių atributų • Panašumai apskaičiuojami naudojant tokius dydžius:

– M01 = atributų, kai p yra 0 ir q yra 1, skaičius – M10 = atributų, kai p yra 1 ir q yra 0, skaičius – M00= atributų, kai p yra 0 ir q yra 0, skaičius

– M1 1 = atributų, kai p yra 1 ir q yra 1, skaičius

• Atitikimo (simple matching) ir Jaccard koeficientai – SMC = atitikimų skaičius / atributų skaičius = (M1 1 + M00) / (M0 1 + M10 + M1 1 + M00) – J = 1-1 atitikimų skaičius / ne 0-0 atitikimų skaičius = (M1 1 ) / (M0 1 + M10 + M1 1 )

Binarinių vektorių panašumas

62

• p = 1 0 0 0 0 0 0 0 0 0 • q = 0 0 0 0 0 0 1 0 0 1

• M01 = 2 (atributų, kai p yra 0 ir q yra 1, skaičius) • M10 = 1 (atributų, kai p yra 1 ir q yra 0, skaičius) • M00= 7 (atributų, kai p yra 0 ir q yra 0, skaičius) • M1 1 = 0 (atributų, kai p yra 1 ir q yra 1, skaičius)

• SMC = (M1 1 + M00) / (M0 1 + M10 + M1 1 + M00) = (0+7) / (2+1+0+7) = 0.7 • J = (M1 1 ) / (M0 1 + M10 + M1 1 ) = 0 / (2 + 1 + 0) = 0

Atitikimo ir Jaccard koeficientai: pavyzdys

63

• Jei d1 ir d2 yra dokumentų vektoriai tai cos( d1, d2 ) = (d1 •d2) / ||d1|| ||d2|| , čia • žymi vektorių daugybą panariui (dot product), ||d|| yra

vektoriaus d ilgis (norma) • Pvz.,

d1 = 3 2 0 5 0 0 0 2 0 0 d2 = 1 0 0 0 0 0 0 1 0 2 d1 • d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = .3150

Kosinusinis panašumas

64

• Jaccard koeficiento pakeitimas tolydiems ir suskaičiuojamiems atributams

Išplėstas Jaccard koeficientas (Tanimoto)

65

( )qpqp

qpqpT•−+

•= 22,

• Koreliacija nustato tiesinę priklausomybę tarp objektų

• Koreliacija skaičiuojama pirmiausia standartizuojant duomenų objektus p ir q , sudauginant panariui (dot product)

p’k = (pk – mean(p)) / std(p) q’k = (qk – mean(q)) / std(q) corr(p, q) = p’ • q’

Koreliacija

66

• Paveikslai parodo panašumą nuo -1 iki 1

Vizualus koreliacijos įvertinimas

67

• Kartais atributai būna labai skirtingų rūšių, tačiau bendras panašumo matas vistiek reikalingas

– k-tąjam atributui apskaičiuojame panašumą sk (gaunama reikšmė iš intervalo [0, 1]

– Nustatomas indikatorinis kintamasis δk kiekvienam k-tąjam atributui:

jei k-tasis atributas binariškai nesimetrinis ir abu objektai turi reikšmes =0, arba jei vienas iš objektų turi trūkstamas reikšmes k-tąjame atribute

kitais atvejais

– Apskaičiuojame bendrą panašumą tarp dviejų objektų:

Panašumų apjungimo metodas

68

=

,1

,0

( )∑∑

=

== n

k k

n

k kk sqpsimilarity

1

1,δ

δ

• Kai dalis atributų būna svarbesi už kitus. Tada naudojami svoriai wk iš intervalo [0, 1] ir svorių suma = 1

Svorių naudojimas apjungiant panašumus

69

( )∑

∑=

== n

k k

n

k kkk swqpsimilarity

1

1,δ

δ

( )rn

k

rkkk qpwqpdistance

1

1,

−= ∑

=

• Kartais klasterizavimui reikia nustatyti duomenų tankumą

• Pvz., – Euklido tankumas

• Euklido tankumas = taškų patenkančių į vienetinį tūrį skaičius

– Tikimybinis tankumas

– Grafiškai nustatomas tankumas

Tankumas

70

• Paprasčiausias būdas yra sudalinti sritį į vienodo dydžio stačiakampius

Euklido tankumas

71

• Kitas būdas yra suskaičiuoti taškus patenkančius į tam tikrą apskritimu apibrėžtą sritį

Euklido tankumas

72 P. N. Tan, M. Steinbach, V. Kumar, “Introduction to Data Mining”, Addison-Wesley (2006)

• Naudojantis trečiosios paskaitos medžiaga detaliai aprašykite savo pasirinktus duomenis:

– Kokio tipo duomenų aibė

– Kokios rūšies atributai aprašo duomenų aibės objektus

Trečias laboratorinis darbas

73

74

RowID

Distillery

Body

Sweetness

Smoky

Medicinal

Tobacco

Honey

Spicy

Winey

Nutty

Malty

Fruity

Floral

Postcode

Latitude

Longitude

01 Aberfeldy 2 2 2 0 0 2 1 2 2 2 2 2 PH15 2EB 286580 749680

02 Aberlour 3 3 1 0 0 4 3 2 2 3 3 2 AB38 9PJ 326340 842570

03 AnCnoc 1 3 2 0 0 2 0 0 2 2 3 2 AB5 5LI 352960 839320

top related