Download - Vizuális adatanalízis
![Page 1: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/1.jpg)
Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék
Vizuális adatanalízis
Autonóm és hibatűrő információs rendszerek
Kocsis [email protected]
2013.11.18.
![Page 2: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/2.jpg)
Felderítő adatanalízis Exploratory Data Analysis: statisztikai tradíció,
o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását.
Komplementere: Confirmatory Data Analysiso Hipotézistesztelés, modellválasztás, paraméterillesztés, …
Legismertebb vizionáriusa: John W. Tukey[2] és [3] alapján
![Page 3: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/3.jpg)
EDA Cél: adatok „megértése”
o „detektívmunka”o erősen ad-hoc
Fő eszköz: adatok „bejárása” grafikus reprezentációkkal
Hipotézisek: iteratív folyamat
Flexibilitás és pragmatizmus
![Page 4: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/4.jpg)
Anscombe négyese
Hibás feltételezések elkerülése… és intuíció:
![Page 5: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/5.jpg)
Dr. John Snow és az 1854-es kolerajárvány A járvány nem
„miazmikus”
A kútnyél-mítosz kérdéses
Forrás: [5] és [6]
„About half of our sensory neurons are dedicated to vision, endowing us with a remarkable pattern-recognition ability.”
Prof. Alfred Inselberg
![Page 6: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/6.jpg)
Oszlopdiagram (bar chart)• Megjelenített dimenziók száma: 1
• Ábrázolt összefügg.:• Diszkrét változó egyes
értékeinek abszolút gyakorisága
• Adategység:• Oszlop – az oszlop magassága
az adott érték absz. gyakoriságáttükrözi
•Tervezői döntés:• Csoportok kialakítása?• Értékkészlet darabolása?
![Page 7: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/7.jpg)
Hisztogram•Megjelenített dim.k: 1
•Ábrázolt összefügg.:• folytonos változó eloszlása
•Adategység:• Oszlop – az oszlop magassága az
adott érték absz. gyakoriságát tükrözi
•Tervezői döntés:• Oszlopok szélessége?
Nők és férfiak magasságának eloszlása is szép haranggörbe
Fontos percentilisek?
![Page 8: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/8.jpg)
Doboz diagram (boxplot)•Megjelenített dim.k: 1
• 5 értékkel jellemzésként•Ábrázolt összefügg.:• folytonos változó fontos percentilisei
•Adategység:• Doboz – szélei jelzik az alsó és
felső kvartiliseket, • Középen a medián. • A minimum és a maximum
általában még pontosan jelezve, • Outlierek már csak pöttyökkel.
![Page 9: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/9.jpg)
BoxplotInterquartile range
![Page 10: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/10.jpg)
KÉT VÁLTOZÓ
Cél: tartományok, összefüggések keresése
![Page 11: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/11.jpg)
Pont – pont diagram (scatterplot)•Megjelenített dim.k: 2
•Ábrázolt összefügg.:• folytonos változók együttes eloszlása
•Adategység:• pont –
előfordulás
•Korlát:• ha az egyik változó értéke
hiányzik nem tudjuk felrajzolni
•Tervezői döntés:• Overplotting?
![Page 12: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/12.jpg)
Hol volt, hol nem volt...
![Page 13: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/13.jpg)
Szétszórjuk
![Page 14: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/14.jpg)
A pontok....
![Page 15: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/15.jpg)
És megpróbáljuk közelíteni...
![Page 16: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/16.jpg)
Simító görbe (smoothing spline) [11,12]
„Penalized sum of squares” Feladat: minimalizáló függvény megtalálása Első tag: maradvány-hibanégyzetösszeg Második tag: „roughness penalty”
oMinél gyorsabban nő a meredekség, annál nagyobb Megoldása köbös (cubic) spline
![Page 17: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/17.jpg)
Simító görbe (smoothing spline) [11,12]
simító paramétero Adat követése o Simaság o =0 esetén interpolációs görbeo esetében lineáris regresszió (ill. linear least squares
estimate)
![Page 18: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/18.jpg)
![Page 19: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/19.jpg)
Regresszió [12]
• Cél:megtalálni egy olyan f függvényt, amelynek inputja az attribútumok értéke, az outputja pedig a lehető legjobban közelíti (négyzetes hibaérték) a valóságot
• Példa:• testtömeg/magasság együttes
eloszlás valójában egyenesreilleszthető,
• web forgalom jóslása
![Page 20: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/20.jpg)
Lokális p-rendű LS polinomiális regresszió
![Page 21: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/21.jpg)
Lokális p-rendű LS polinomiális regresszió
![Page 22: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/22.jpg)
Lokális p-rendű LS polinomiális regresszió
![Page 23: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/23.jpg)
Scatterplot mátrix•Megjelenített dim.k: n
•Ábrázolt összefügg.:• A változópárok együttes eloszlása
•Adategység:• Scatterplot – minden diagram a neki
megfelelő változók együttes eloszlását mutatja be
![Page 24: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/24.jpg)
Mozaik diagram (mosaic plot)•Megjelenített dim.k: 2
•Ábrázolt összefügg.:• két diszkrét változó együttes eloszlása
•Adategység:• Téglalap – a téglalap területe arányos
az (X = xi, Y = yi) értékpárok gyakoriságával
•Korlát:• Sorfolytonos olvasása nehézkes
A túlsúlyosak nagy része férfi!
![Page 25: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/25.jpg)
Hőtérkép (heat map)•Megjelenített dim.k: 3
•Ábrázolt összefügg.:• sűrű 3D struktúrák összefüggései
•Adategység:• tile – azonos „magasságú” összefüggő
területrész
•Tervezői döntés:• tile-ok mérete?
Színekkel kommunikál:Pl. nincs senki, aki kétméteres lenne és 25 kiló, de sok 1.60-as van 60 kiló
környékén
![Page 26: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/26.jpg)
Párhuzamos koordináták•Megjelenített dim.k: n
•Ábrázolt összefügg.:• Rekordok/attribútumok
hasonlósága
•Adategység:• Törött vonal – az egyes
attribútumtengelyeken felvett értékek rendezett sorozata
•Korlátok:• Tengelyek (attribútumok) más
mértékegysége/nagyságrendje stb. torzíthat Az új autókban a tömeg
kisebb…… de a fogyasztás
nagyobb
![Page 27: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/27.jpg)
Buborék diagram (bubble chart)•Megjelenített dim.k: 3
•Ábrázolt összefügg.:• ritka 3D struktúrák összefüggései
•Adategység:• körlap – 3 attribútummal leírható:
X és Y koordináta a középpontra + sugár
•Korlátok• overplotting torzíthat (ha a ritka
struktúrában vannak sűrű részek)
Az X, Y pozíciót a fogyasztás és a teljesítmény adja, a kör sugara a
tömeget mutatja
A Lotushoz tartozik a legkönnyebb
![Page 28: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/28.jpg)
Interaktív statisztikai grafika
Ábrák képzése – „plotolás”
Lekérdezések
[7] alapján
Kijelölés és csatolt
kiemelés
Csatolt analízisek
Interakció az ábrákkal
Vezetett adatbejárás – „data tour”
![Page 29: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/29.jpg)
iPlots Interaktív statisztikai grafika R-ben
http://stats.math.uni-augsburg.de/iplots/oMondrian, Rserve, rJava
Interaktív…Bar chart, Box plot, Hammock plot, Histogram, Map, Mosaic Plot, Parallel Coordinates Plot, Scatterplot
![Page 30: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/30.jpg)
Lekérdezések „Query”
iPlots: CTRL
Többszintű lekérdezés
![Page 31: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/31.jpg)
Kijelölés SHIFT-CTRL: OR SHIFT: XOR
Pointer, Drag-box, Brush, Slicer, Lasso
Kijelölés-sorozatok
![Page 32: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/32.jpg)
Csatolt kiemelés
![Page 33: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/33.jpg)
„Color brush”
![Page 34: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/34.jpg)
Interakció az ábrákkal Billentyűkombinációk és
menük
Paraméterek (pl. hisztogram) Tengelyek megcserélése Skálázás Nagyítás (középső
egérgomb) Áttetszőség ()
![Page 35: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/35.jpg)
iPlots alternatívák: Acynonix „iPlots eXtreme”
OpenGL gyorsítás
Kiforrottság?
![Page 36: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/36.jpg)
rggobi GGobi kötés
Kiváló eszköz…
… de nehézkes, GTK és C++, nincs aktív fejlesztés
![Page 37: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/37.jpg)
cranvas
Forrás: [10], p 16Qt; forever github…?
![Page 38: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/38.jpg)
További alternatívák RStudio ggvis? RNavGraph?
Ha nem kell komoly R kötés:oMondrian, XmdvTool, Spotfire, Tableau, SAS JMP, Minitab,
DataDesk, …
Az R-be ágyazás előnyei:o Helyben az adato Helyben a statisztikao Helyben iteratív adatfinomítás
![Page 39: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/39.jpg)
Példa elemzési feladat Pataricza et al.: Empirical Assessment of Resilience
o Az EDA-t a szolgáltatásbiztonság (dependability) elemzésében is kellene használnunk
o [9]
Itt:o Interaktív technikák szemléltetéseo [9] munkafolyamatának néhány lépésén keresztül
![Page 40: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/40.jpg)
Példa adatkészlet Számítási felhő teljesítménymérések
o Gorbenko et al. [8]
Response Time = Request Processing Time + Round Trip Time
![Page 41: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/41.jpg)
Példa adatkészlet
Forrás: [8], p 186
![Page 42: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/42.jpg)
DEMO
![Page 43: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/43.jpg)
DEMOlibrary('iplots') dat <- read.table(myfilepath, sep=',', header=TRUE, colClasses=c('factor', 'double', 'double', 'double', 'factor',
'factor', 'factor', 'double', 'factor'))
dat$pm.pa <- NULL dat$Time <- NULL dat$start.time <- dat$start.time - min(dat$start.time, na.rm=TRUE) dat <- dat[rowSums(is.na(dat)) == 0,]
Adatkészlet
![Page 44: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/44.jpg)
DEMO Adatkészlet
![Page 45: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/45.jpg)
DEMO RT, RPT, RTT vizsgálata
Kapcsolatok?
![Page 46: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/46.jpg)
DEMO RT, RPT, RTT vizsgálata
![Page 47: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/47.jpg)
DEMO RT, RPT, RTT vizsgálata
Selection (egérrel)
Közös skála? View Common Scale
![Page 48: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/48.jpg)
DEMO „Common scale” után
![Page 49: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/49.jpg)
DEMO RT ~ RTT?
Vágás két részre: „normál” és (RT-ben) „hibás” tartományok
![Page 50: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/50.jpg)
DEMO Vágás
Lineáris kapcsolat?
![Page 51: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/51.jpg)
DEMO Visszatérve a példára…
Nagyobb pontméretView Larger points
(vagy )
Módosított átlátszóságView More transparent
(vagy )
Lineáris kapcsolat!
![Page 52: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/52.jpg)
DEMO RT vs. RTT – „kilógó” esetek
![Page 53: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/53.jpg)
DEMO RT vs. RTT – „normál” esetek
Két diszjunkt tartomány?
![Page 54: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/54.jpg)
DEMO Gyanús kliens felderítése
Selection
Linked Highlighting
![Page 55: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/55.jpg)
DEMO Gyanús kliens: csak Lansing
Color Brush:View Set Colors
![Page 56: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/56.jpg)
DEMO Gyanús kliens: csak Lansing 4!
Selection
![Page 57: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/57.jpg)
DEMO Időfüggő hálózati viselkedés
Zoom
![Page 58: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/58.jpg)
DEMO Időfüggő hálózati viselkedés
Azonos csempeméret:View Same bin size
Flukt.-diagram:View Fluctuation
![Page 59: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/59.jpg)
DEMO Időfüggő hálózati viselkedés
Különbségek a kliens-DC párok között azonos IP-n?
![Page 60: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/60.jpg)
DEMO Időfüggő hálózati viselkedés
Munkaidőben és este magasabb a hálózati terhelés?
![Page 61: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/61.jpg)
DEMO Időfüggő hálózati viselkedés
Munkaidőben és este magasabb a hálózati terhelés?
![Page 62: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/62.jpg)
DEMO Időfüggő hálózati viselkedés
Csak Dublin DC, Redmond nem
![Page 63: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/63.jpg)
DEMO Időfüggő hálózati viselkedés
Csak Dublin DC, Redmond nem
![Page 64: Vizuális adatanalízis](https://reader036.vdocuments.net/reader036/viewer/2022081507/56815eed550346895dcda76d/html5/thumbnails/64.jpg)
Fájó pontok Legalább Biggish Data?!?
o OpenGL/DirectXo Statisztikai előfeldolgozás az adatokhoz közel?
„Recordable EDA” =/= „reproducible research”
rapporter.net, knitr, sweave, …:o A végeredményo Folyamat kézi visszakövetése és átemelése