Модификация алгоритма кластеризации fris cluster для...

26
ЗЫРЯНОВ А.О. ПАВЛОВСКИЙ Е.Н. ДЮБАНОВ В.В. ЛЕВАНОВ Д.А. Модификация алгоритма кластеризации FRiS Cluster для работы с большими данными

Upload: chargered

Post on 07-Jul-2015

219 views

Category:

Self Improvement


0 download

TRANSCRIPT

Page 1: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

З Ы Р Я Н О В А . О . П А В Л О В С К И Й Е . Н .

Д Ю Б А Н О В В . В . Л Е В А Н О В Д . А .

Модификация алгоритма кластеризации FRiS Cluster для работы с большими данными

Page 2: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Требования к алгоритмам

Cложность не более O(n logn)

Высокий потенциал для параллелилизма

Page 3: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Используемые алгоритмы

K-means

BFR

CURE

Page 4: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Параметр r*

Page 5: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Параметр r*

Page 6: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Параметр r*

При использовании алгоритма в Big Data:

необходимо автоматизировать подбор r*

без увеличения трудоемкости алгоритма

Page 7: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Тепловые карты

Page 8: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Тепловые карты

Page 9: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Тепловые карты

Page 10: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Предположение

Качество кластеризации зависит от процента точек с высокой температурой (>0.9)

Page 11: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Предположение

Качество кластеризации зависит от процента точек с высокой температурой (>0.9)

0

20

40

60

80

100

120

140

160

0,0000001 0,00001 0,001 0,1 10 1000

N. Points > 0.9

FRiS Quality

Page 12: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Предположение

Качество кластеризации зависит от процента точек с высокой температурой (>0.9)

0

20

40

60

80

100

120

140

160

0,0000001 0,00001 0,001 0,1 10 1000

N. Points > 0.9

FRiS Quality

0

10

20

30

40

50

60

70

80

90

100

0,0000001 0,00001 0,001 0,1 10 1000

N. Points > 0.9

FRiS Quality

Page 13: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Ограничения на r*

Не имеет смысла искать решение при r* больше среднего расстояния между объектами.

48,2

48,4

48,6

48,8

49

49,2

49,4

49,6

49,8

50

50,2

50,4

0 50 100 150 200 250 300 350

FRiS quality

Page 14: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Ограничения на r*

Не имеет смысла искать решение при r* больше среднего расстояния между объектами.

48,2

48,4

48,6

48,8

49

49,2

49,4

49,6

49,8

50

50,2

50,4

0 50 100 150 200 250 300 350

FRiS quality

214

215

216

217

218

219

220

221

222

223

0 0,1 0,2 0,3 0,4 0,5

FRiS quality

Page 15: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Коллектив решающих правил

Время работы алгоритма увеличивается в константное число раз, равное числу решающих правил

Позволяет решить проблему с подбором параметра r*. Производится перебор всех значений c шагом );0(* Dr mD

Page 16: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Линеаризация алгоритма

Находим центр масс

Aa

Aa

a

cSaF

RSaF

R),(^

),(^

Page 17: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Линеаризация алгоритма

Находим центр масс

Алгоритм:

1. Ищем наименее защищенный объект

2. Новый столп – центр локального сгустка

3. Переходим к шагу 1

Aa

Aa

a

cSaF

RSaF

R),(^

),(^

Page 18: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Примеры работы

Стандартный FRiS Cluster

Page 19: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Примеры работы

Стандартный FRiS Cluster

Page 20: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Примеры работы

Линеаризованный алгоритм

Page 21: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Примеры работы

Линеаризованный алгоритм

Page 22: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Примеры работы

Линеаризованный алгоритм

Page 23: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Выводы

Результаты имеют промежуточный характер

Результаты выглядят оптимистично. Имеет смысл продолжать исследования

Page 24: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Заключение

Пулученные результаты:

Разработана эвристика, позволяющая быстро определить плохое решение

Разработана эвристика постановки нового столпа за линейное время

Планируется:

Реализовать построение коллектива решающих правил

Использовать нахождение центра масс, как эвристику предсказания столпа

Использовать k-d деревья

Page 25: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Контакты

expasoft.ru [email protected]

Спасибо за внимание!

Page 26: Модификация алгоритма кластеризации Fris Cluster для работы с большими данными

Примеры работы