![Page 1: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/1.jpg)
Budapest University of Technology and EconomicsDepartment of Measurement and Information Systems
Budapest University of Technology and EconomicsFault Tolerant Systems Research Group
Mintavételezés, szűrés, kilógó esetek detektálása
Salánki Ágnes
![Page 2: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/2.jpg)
Alapfogalmak
Az alapfeladat ugyanaz
Az aspektus más
![Page 3: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/3.jpg)
Alapfogalmak
Az alapfeladat ugyanaz
Az aspektus más
![Page 4: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/4.jpg)
OUTLIER DETEKTÁLÁS
![Page 5: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/5.jpg)
Alapfeladat
Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539
![Page 6: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/6.jpg)
Alapfeladat
Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539
Vannak-e egyáltalán?
![Page 7: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/7.jpg)
Alapfeladat
Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539
Vannak-e egyáltalán?
Hogy néznek ki?
![Page 8: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/8.jpg)
Alapfeladat
Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539
Vannak-e egyáltalán?
Hogyan szeparálhatóak?
Hogy néznek ki?
Miért?
![Page 9: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/9.jpg)
Alapfeladat
Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539
Vannak-e egyáltalán?
Hogyan szeparálhatóak?
Hogy néznek ki?
Miért?
Vannak-e egyáltalán?
Nagy adat: aggregálás?
Szakterület specifikus?
Hatások?
![Page 10: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/10.jpg)
Alapfeladat
![Page 11: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/11.jpg)
Alapfeladat
![Page 12: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/12.jpg)
Megközelítések
Távolság alapúak Sűrűség alapúak
![Page 13: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/13.jpg)
Megközelítések
Távolság alapúak Sűrűség alapúak
![Page 14: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/14.jpg)
Megközelítések
Távolság alapúak Sűrűség alapúak
![Page 15: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/15.jpg)
Megközelítések
Távolság alapúak Sűrűség alapúak
![Page 16: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/16.jpg)
TÁVOLSÁG ALAPÚ TECHNIKÁK
![Page 17: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/17.jpg)
Befoglaló burok
0
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
![Page 18: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/18.jpg)
Befoglaló burok
0
2 31 54 6 7 8
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
![Page 19: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/19.jpg)
Befoglaló burok
0
2 31 54 6 7 8
7 68 45 3 2 1
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
![Page 20: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/20.jpg)
Befoglaló burok
0
2 31 54 6 7 8
7 68 45 3 2 1
Min.: 2 31 44 3 2 1
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
![Page 21: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/21.jpg)
Befoglaló burok
0
2 31 54 6 7 8
7 68 45 3 2 1
Min.: 2 31 44 3 2 1
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
Extrém pontok
![Page 22: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/22.jpg)
Befoglaló burok
0
2 31 54 6 7 8
7 68 45 3 2 1
Min.: 2 31 44 3 2 1
ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧
Féltér-mélység: Tukey, 1974
Extrém pontok
Medián: majd a végén…
![Page 23: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/23.jpg)
Befoglaló burok
Féltér-mélység: Tukey, 1974
![Page 24: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/24.jpg)
Befoglaló burok
Féltér-mélység: Tukey, 1974
![Page 25: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/25.jpg)
Befoglaló burok
Féltér-mélység: Tukey, 1974
![Page 26: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/26.jpg)
Befoglaló burok
Féltér-mélység: Tukey, 1974
![Page 27: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/27.jpg)
Befoglaló burok
Féltér-mélység: Tukey, 1974
![Page 28: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/28.jpg)
Befoglaló burok
Féltér-mélység: Tukey, 1974
![Page 29: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/29.jpg)
Befoglaló burok
Féltér-mélység: Tukey, 1974
![Page 30: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/30.jpg)
Befoglaló burok
Féltér-mélység: Tukey, 1974
![Page 31: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/31.jpg)
Befoglaló burok
Féltér-mélység: Tukey, 1974
![Page 32: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/32.jpg)
Befoglaló burok
Féltér-mélység: Tukey, 1974
![Page 33: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/33.jpg)
DEMO
Csomag: depth
Hasznos függvények: depth, isodepth
Paraméterek: 𝑢 pont, 𝑑𝑝𝑡ℎ mélység
Befoglaló burok
![Page 34: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/34.jpg)
DB
Distance Based
Outlier: szomszédok száma alacsony
Paraméterek
o 𝑟 sugarú hipergömb
o Szomszédok elvárt 𝜋 aránya
![Page 35: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/35.jpg)
DB
Distance Based
Outlier: szomszédok száma alacsony
Paraméterek
o 𝑟 sugarú hipergömb
o Szomszédok elvárt 𝜋 aránya
![Page 36: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/36.jpg)
DEMO
Csomag: fields
Függvény: fields.rdist.near
Paraméterek: 𝑑𝑒𝑙𝑡𝑎 sugár
DB
![Page 37: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/37.jpg)
MCD
Minimum Covariance Determinant
Alapötlet
o Keressük meg a legkompaktabb részhalmazt!
![Page 38: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/38.jpg)
MCD
Minimum Covariance Determinant
Alapötlet
o Keressük meg a legkompaktabb részhalmazt!
![Page 39: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/39.jpg)
MCD
Minimum Covariance Determinant
Alapötlet
o Keressük meg a legkompaktabb részhalmazt!
0.0014 0.00041
0.00011
![Page 40: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/40.jpg)
MCD
Minimum Covariance Determinant
Alapötlet
o Keressük meg a legkompaktabb részhalmazt!
0.0014 0.00041
0.00011
Kimerítő keresés?
choose(n = 1000, k = 900)
[1] 6.385051e+139
![Page 41: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/41.jpg)
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
![Page 42: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/42.jpg)
Mahalanobis távolság
𝐷 𝑥,𝑀 = (𝑥 − 𝜗)𝑇𝑆−1 𝑥 − 𝜗
o 𝑆 – kovarianciamátrix
o 𝜗 – súlypont
Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance
![Page 43: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/43.jpg)
Mahalanobis távolság
𝐷 𝑥,𝑀 = (𝑥 − 𝜗)𝑇𝑆−1 𝑥 − 𝜗
o 𝑆 – kovarianciamátrix
o 𝜗 – súlypont
Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance
![Page 44: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/44.jpg)
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
![Page 45: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/45.jpg)
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
![Page 46: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/46.jpg)
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
X
![Page 47: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/47.jpg)
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
X
![Page 48: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/48.jpg)
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
X
![Page 49: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/49.jpg)
FAST-MCD
Közelítő algoritmus
Véletlenszerűen választott kezdőhalmaz
Iteratív
Legközelebbi pontok kiválasztása
oMahalanobis távolság alapján
o Legközelebbi 𝑥%
![Page 50: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/50.jpg)
BACON
Blocked Adaptive Computationally EfficientOutlier Nominators
Kiinduló halmaz félig felügyelt módban is!
Új halmaz: küszöbérték alapján
![Page 51: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/51.jpg)
DEMO
Csomag: robustX
Függvény: mvBACON
Paraméterek
o 𝑖𝑛𝑖𝑡. 𝑠𝑒𝑙 kezdőhalmaz
• „manual” – 𝑚𝑎𝑛. 𝑠𝑒𝑙 kezdőhalmaz
• „Mahalanobis”, „dUniMedian” – 𝑚 kezdőhalmaz mérete
BACON
![Page 52: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/52.jpg)
DEMO
Csomag: robustX
Függvény: mvBACON
Paraméterek
o 𝑖𝑛𝑖𝑡. 𝑠𝑒𝑙 kezdőhalmaz
• „manual” – 𝑚𝑎𝑛. 𝑠𝑒𝑙 kezdőhalmaz
• „Mahalanobis”, „dUniMedian” – 𝑚 kezdőhalmaz mérete
BACON
![Page 53: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/53.jpg)
SŰRŰSÉG ALAPÚ TECHNIKÁK
![Page 54: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/54.jpg)
DB alapötlete
Hiába vagyunk a középpontban, ha
nincsenek szomszédaink
Distance-basedapproach
![Page 55: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/55.jpg)
LOF motiváció: mikor jó a DB?
𝑝2 sem, vagy 𝐶1 is?
![Page 56: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/56.jpg)
LOF
Local Outlier Factor
Alapötlet: csak a szomszédaival hasonlítsuk össze
o lokális sűrűség
Outlier kritérium
o a lokális sűrűség jóval kisebb, mint a szomszédaimnakátlagosan
𝑟𝑑: reachability distance
![Page 57: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/57.jpg)
LOF
Local Outlier Factor
Alapötlet: csak a szomszédaival hasonlítsuk össze
o lokális sűrűség
Outlier kritérium
o a lokális sűrűség jóval kisebb, mint a szomszédaimnakátlagosan
𝑟𝑑: reachability distance
![Page 58: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/58.jpg)
LOF
Local Outlier Factor
Alapötlet: csak a szomszédaival hasonlítsuk össze
o lokális sűrűség
Outlier kritérium
o a lokális sűrűség jóval kisebb, mint a szomszédaimnakátlagosan
𝑟𝑑: reachability distance
![Page 59: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/59.jpg)
LOF
Ha a szomszédaim
is magányosak,
nincs nagy gond
LOF: DMwR::lofactor
Local outlier factor
![Page 60: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/60.jpg)
DEMO
Csomag: DMwR (Data Mining with R)
Függvény: lofactor
Paraméterek: 𝑘 szomszédság mérete
LOF
![Page 61: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/61.jpg)
OUTLIEREK ADATFOLYAMOKBAN
![Page 62: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/62.jpg)
Adatfolyamok
1. több forrásból,2. ismeretlen
sebességgel
Buffer, megengedett számítási memória
igény korlátos
Egyszer streamenként: „Lokális maximum?”
Globális kérdések: „Minden új maximumot
jelezzünk”
Ábra és a számértékes példák forrása: [1]
![Page 63: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/63.jpg)
Outlierek idősorokban
IT Monitorozás
Tőzsdei elemzések
Banki csalásfelderítés
Mindkét adattípus számít
o Szenzorok: nagyrészt numerikus
• 𝐶𝑃𝑈_𝑛𝑖𝑐𝑒: 0.12, 0.13, 0.12, 0.13, …
o Naplózás: nagyrészt kategorikus
• 𝑉𝑀_𝑜𝑝𝑒𝑟𝑎𝑡𝑖𝑜𝑛𝑠: Start, Stop, Start, Snapshot, Snapshot, …
![Page 64: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/64.jpg)
Hatások szerinti osztályozás
Additive outlier
o A rákövetkező elemekre teljesen hatástalan
Level Shift Outlier
o Permanens hatás
Innovational Outlier
o Kezdeti hatás + lecsengés, az ismétlések számával ez erősödhet
Transient Change Outlier
o ~Innovational outlier, de exponenciálisan lecseng a hatás, később visszatér normálra
![Page 65: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/65.jpg)
Basic typesAdditive
Transient change
Level Shift
Innovational
![Page 66: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/66.jpg)
Outlierek szekvenciák között
„Az aggregált adatokon látjuk, hogy baj van. Pontosan a rendszer melyik komponense hibás?”
Feltételezések
o Az idősorok hossza azonos
o Keressük a legkiugróbbat
![Page 67: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/67.jpg)
Outlierek szekvenciák között
Ötletek
o Képezzük le egy értékre az idősort
• variancia
• az első pillanat, amikor az érték elért egy küszöböt
o Elemek egy hasonlósági mátrixba
Innentől már akármelyik klasszikus klaszterezési módszer működik
Távolságfüggvény a szomszédossághoz?
![Page 68: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/68.jpg)
Idősorok távolságfüggvényei
Euklideszi távolság
o X tengely menti eltolás (offset)?
Dynamic time warping
o eleve kiugró értékek alapján hasonlítunk
Length of common subsequence
![Page 69: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/69.jpg)
Dinamikus idővetemítés
Az idősorok pontjait nem indexenként hasonlítjuk össze
oMotiváció pl. hangfelismerésnél
![Page 70: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/70.jpg)
Dinamikus idővetemítés
Az idősorok pontjait nem indexenként hasonlítjuk össze
oMotiváció pl. hangfelismerésnél
![Page 71: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/71.jpg)
Dinamikus idővetemítés számítása
1. 𝑛 × 𝑚-es 𝐷 mátrixban rögzítjük a sorok egymástól való távolságát
2. Kell: 𝑝 = 𝑝1, 𝑝2, … 𝑝𝑘 útvonal a 𝐷 1,1 és 𝐷 𝑛,𝑚között
3. Cél: minimális költség4. Szabályok:
1. Minden lépésben előre haladunk (nem távolodhatunk, tehát 𝑖, 𝑗 → 𝑖, 𝑗 esetén 𝑖 ≥𝑖, 𝑗 ≥ 𝑗)
2. Az út folytonos, mindig csak szomszédos cellákra léphetünk
![Page 72: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/72.jpg)
Dinamikus idővetemítés
Sakoe-Chibasáv
![Page 73: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/73.jpg)
Dinamikus idővetemítés
Sakoe-Chibasáv
![Page 74: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/74.jpg)
Longest common subsequence
Nem a pontos időpont számít
Csak a sorrend
𝑥1: 𝑎𝑏𝑐𝑑𝑒𝑓𝑔
𝑥2: 𝑓𝑎𝑏𝑑𝑐𝑒𝑔
𝑛𝑙𝑐𝑠(𝑥1, 𝑥2) = 5𝑙𝑐𝑠 𝑥1, 𝑥2 : 𝑎𝑏𝑐𝑒𝑔
![Page 75: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/75.jpg)
Longest common subsequence
Nem a pontos időpont számít
Csak a sorrend
Általánosítás folytonos értékekre
![Page 76: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/76.jpg)
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
![Page 77: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/77.jpg)
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
![Page 78: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/78.jpg)
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
![Page 79: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/79.jpg)
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
o Square Error regresszióból: min
![Page 80: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/80.jpg)
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
o Square Error regresszióból: min
![Page 81: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/81.jpg)
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
o Square Error regresszióból: min
o A pont törlésével a „minimum description length” a lehető legjobban lecsökken.
Eredeti: 5 különböző érték
![Page 82: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/82.jpg)
Outlierek szekvenciákban
A legkiugróbb pont megtalálása
o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max
o Square Error regresszióból: min
o A pont törlésével a „minimum description length” a lehető legjobban lecsökken.
Eredeti: 5 különböző érték
-2 törlése után: 4 különböző érték is elég
![Page 83: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/83.jpg)
Autokorrelációs módszerek
Autokorrelációs módszerek
o Hol térünk el nagyon a prediktált értéktől?
o Hol változik legjobban az autokorrelációs modell?
![Page 84: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/84.jpg)
Egy kis kitérő: NNDB
Felügyelt: feltételezzük, hogy létezik orákulum
Milyen sorrendben kérdezzük meg tőle a pontokat, hogy a lehető leggyorsabban megtaláljuk a ritkákat?
Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni
Variációk egy témára
o Mennyi információnk van?
o Milyen adatunk van? (csak attribútumok? Kapcsolatok is?)
![Page 85: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/85.jpg)
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
![Page 86: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/86.jpg)
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
![Page 87: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/87.jpg)
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
oMatematikája kell?
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
![Page 88: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/88.jpg)
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
oMatematikája kell?
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
![Page 89: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/89.jpg)
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
oMatematikája kell?
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
![Page 90: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/90.jpg)
Kiindulási feltételek
Simaság
o A többségi osztály eloszlásfüggvénye megfelelően sima
oMatematikája kell?
Kompaktság
o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság
Ami nem kell feltételül: szeparáltság
Ha nincs: véletlen mintavételezés
![Page 91: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/91.jpg)
NNDB
1. ∀ 𝑖-re 𝑁𝑁 = 𝑥 ∈ 𝑆, 𝑑 𝑖, 𝑥 ≤ 𝑟𝑖 , 𝑟𝑖 az adott ciklusban megengedhető maximális sugár
2. ∀𝑖 -re 𝑠𝑖 = max𝑥 ∈𝑁𝑁(𝑖)
|𝑁𝑁 𝑖 | − |𝑁𝑁 𝑥 |
3. Sejtett ritka elem: 𝑖, amire 𝑠𝑖 maximális.
4. Ha 𝑖 ritka, vége.
5. Ha nem,𝑟𝑖+1 = 𝑖 + 1 × 𝑟1,ugrás 1-re.
𝑁𝑁 = 7𝑁𝑁 = 14
![Page 92: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/92.jpg)
Apriori információval – NNDB
𝑟𝑖+1 = (𝑖 + 1) × 𝑟1, na de mekkora legyen 𝑟1?
Ötlet: ha a ritkák aránya ≈ 𝑝2, akkor legyen 𝐾 =𝑝2 × 𝑆 , számítsuk ki ∀ 𝑖-re a 𝐾. legközelebbi elem távolságát: 𝑛𝑖.
Legyen 𝑟1 = min𝑖 ∈𝑆
𝑛𝑖.
![Page 93: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/93.jpg)
Apriori információval – NNDB
𝑟𝑖+1 = (𝑖 + 1) × 𝑟1, na de mekkora legyen 𝑟1?
Ötlet: ha a ritkák aránya ≈ 𝑝2, akkor legyen 𝐾 =𝑝2 × 𝑆 , számítsuk ki ∀ 𝑖-re a 𝐾. legközelebbi elem távolságát: 𝑛𝑖.
Legyen 𝑟1 = min𝑖 ∈𝑆
𝑛𝑖.
Ha a ritkák tényleg nagyon közel vannak egymáshoz,
akkor beleférnek egy körbe
![Page 94: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/94.jpg)
Implementációs kérdések
𝑘𝑁𝑁(𝑥𝑖), majd 𝑁𝑁(𝑥𝑖 , 𝑟’) – milyen adatszerkezettel?
o 𝑜𝑟𝑡 𝑥 𝑘 ,𝑤ℎ𝑖𝑐ℎ 𝑥 ≤ 𝑟′
Partíciós módszerek?
o Pl. fák: k-d tree, VP-tree
![Page 95: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/95.jpg)
Implementációs kérdések
𝑥 ≤ 𝑟′
𝑟𝑟′ ≤ 𝑥 ≤ 𝑟′𝑥𝑥ℎ𝑐𝑐𝑖𝑖𝑤𝑤ℎ 𝑘𝑁𝑁(𝑥𝑖), majd 𝑁𝑁(𝑥𝑖 , 𝑟’)– milyen adatszerkezettel?
Naiv
o Távolságmátrixot tárolunk
o 𝑠𝑜𝑟𝑡 𝑥 𝑘 , 𝑘 , 𝑤ℎ𝑖𝑐ℎ 𝑥 ≤ 𝑟′
Partíciós módszerek?
o Pl. fák: k-d tree, VP-tree
![Page 96: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/96.jpg)
Implementációs kérdések
𝑥 ≤ 𝑟′
𝑟𝑟′ ≤ 𝑥 ≤ 𝑟′𝑥𝑥ℎ𝑐𝑐𝑖𝑖𝑤𝑤ℎ 𝑘𝑁𝑁(𝑥𝑖), majd 𝑁𝑁(𝑥𝑖 , 𝑟’)– milyen adatszerkezettel?
Naiv
o Távolságmátrixot tárolunk
o 𝑠𝑜𝑟𝑡 𝑥 𝑘 , 𝑘 , 𝑤ℎ𝑖𝑐ℎ 𝑥 ≤ 𝑟′
Partíciós módszerek?
o Pl. fák: k-d tree, VP-tree
o Pl. fák: k-d tree, VP-tree
![Page 97: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/97.jpg)
Implementációs kérdések
1. ÉPÍTHierarchikus
adatszerkezetben a közeli ponthalmazok
![Page 98: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/98.jpg)
Implementációs kérdések
1. ÉPÍTHierarchikus
adatszerkezetben a közeli ponthalmazok
≤9 (7. zóna)= 10
2.1 𝑟’ ≤ 9 (7. zóna)2.1 𝑟’ ≤ 9 (7. zóna)2.2 r’ = 7 (5-8. zóna)
![Page 99: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/99.jpg)
Implementációs kérdések
1. ÉPÍTHierarchikus
adatszerkezetben a közeli ponthalmazok
≤9 (7. zóna)= 10
2.2 r’ = 7 (5-8. zóna) 2.1 𝑟’ ≤ 9 (7. zóna)2.2 r’ = 7 (5-8. zóna)
![Page 100: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/100.jpg)
Implementációs kérdések
1. ÉPÍTHierarchikus
adatszerkezetben a közeli ponthalmazok
≤9 (7. zóna)= 10
2.2 r’ = 7 (5-8. zóna) 2.1 𝑟’ ≤ 9 (7. zóna)2.2 r’ = 7 (5-8. zóna)
Nem kell mindent kiszámolni Többször kell kiszámolnunk ugyanazt
![Page 101: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/101.jpg)
Map-Reduce?
𝑛 elég nagy muszáj bontani
![Page 102: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/102.jpg)
Map-Reduce?
𝑛 elég nagy muszáj bontani
REDUCE
MAPCsomópont milyen más csp-
ok kNN-jeit frissítheti?
Ha megvan minden jelölt: tényleges távolságszámítás
![Page 103: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/103.jpg)
Map-Reduce?
𝑛 elég nagy muszáj bontani
REDUCE
MAPCsomópont milyen más csp-
ok kNN-jeit frissítheti?
Ha megvan minden jelölt: tényleges távolságszámítás
Mi van, ha már a felosztást is elosztottan akarom végezni?
![Page 104: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/104.jpg)
Egy kis csalás.. Voronoi cellák
𝑼𝟏
![Page 105: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/105.jpg)
Amiért jó: MapReduce
𝑛 elég nagy muszáj bontani
REDUCE2
MAP2Csomópont milyen más csp-
ok kNN-jeit frissítheti?
Ha megvan minden jelölt: tényleges távolságszámítás
![Page 106: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/106.jpg)
Amiért jó: MapReduce
𝑛 elég nagy muszáj bontani
MAP1
REDUCE2
MAP2
Csomópont->tartomány hozzárendelések
Csomópont milyen más csp-ok kNN-jeit frissítheti?
Ha megvan minden jelölt: tényleges távolságszámítás
REDUCE1 Tartományok értékei
![Page 107: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle](https://reader034.vdocuments.net/reader034/viewer/2022042222/5ec81b2620c2e94c905e9423/html5/thumbnails/107.jpg)
Hivatkozásjegyzék
[1] Stream Processing, filtering: Mining of MassiveData Sets
o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf
o Coursera tárgy: https://www.coursera.org/course/mmds
[2] Outlier Detection
o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys(CSUR), 41(3):15, 2009