Модификация алгоритма кластеризации fris cluster для...
TRANSCRIPT
З Ы Р Я Н О В А . О . П А В Л О В С К И Й Е . Н .
Д Ю Б А Н О В В . В . Л Е В А Н О В Д . А .
Модификация алгоритма кластеризации FRiS Cluster для работы с большими данными
Требования к алгоритмам
Cложность не более O(n logn)
Высокий потенциал для параллелилизма
Используемые алгоритмы
K-means
BFR
CURE
Параметр r*
Параметр r*
Параметр r*
При использовании алгоритма в Big Data:
необходимо автоматизировать подбор r*
без увеличения трудоемкости алгоритма
Тепловые карты
Тепловые карты
Тепловые карты
Предположение
Качество кластеризации зависит от процента точек с высокой температурой (>0.9)
Предположение
Качество кластеризации зависит от процента точек с высокой температурой (>0.9)
0
20
40
60
80
100
120
140
160
0,0000001 0,00001 0,001 0,1 10 1000
N. Points > 0.9
FRiS Quality
Предположение
Качество кластеризации зависит от процента точек с высокой температурой (>0.9)
0
20
40
60
80
100
120
140
160
0,0000001 0,00001 0,001 0,1 10 1000
N. Points > 0.9
FRiS Quality
0
10
20
30
40
50
60
70
80
90
100
0,0000001 0,00001 0,001 0,1 10 1000
N. Points > 0.9
FRiS Quality
Ограничения на r*
Не имеет смысла искать решение при r* больше среднего расстояния между объектами.
48,2
48,4
48,6
48,8
49
49,2
49,4
49,6
49,8
50
50,2
50,4
0 50 100 150 200 250 300 350
FRiS quality
Ограничения на r*
Не имеет смысла искать решение при r* больше среднего расстояния между объектами.
48,2
48,4
48,6
48,8
49
49,2
49,4
49,6
49,8
50
50,2
50,4
0 50 100 150 200 250 300 350
FRiS quality
214
215
216
217
218
219
220
221
222
223
0 0,1 0,2 0,3 0,4 0,5
FRiS quality
Коллектив решающих правил
Время работы алгоритма увеличивается в константное число раз, равное числу решающих правил
Позволяет решить проблему с подбором параметра r*. Производится перебор всех значений c шагом );0(* Dr mD
Линеаризация алгоритма
Находим центр масс
Aa
Aa
a
cSaF
RSaF
R),(^
),(^
Линеаризация алгоритма
Находим центр масс
Алгоритм:
1. Ищем наименее защищенный объект
2. Новый столп – центр локального сгустка
3. Переходим к шагу 1
Aa
Aa
a
cSaF
RSaF
R),(^
),(^
Примеры работы
Стандартный FRiS Cluster
Примеры работы
Стандартный FRiS Cluster
Примеры работы
Линеаризованный алгоритм
Примеры работы
Линеаризованный алгоритм
Примеры работы
Линеаризованный алгоритм
Выводы
Результаты имеют промежуточный характер
Результаты выглядят оптимистично. Имеет смысл продолжать исследования
Заключение
Пулученные результаты:
Разработана эвристика, позволяющая быстро определить плохое решение
Разработана эвристика постановки нового столпа за линейное время
Планируется:
Реализовать построение коллектива решающих правил
Использовать нахождение центра масс, как эвристику предсказания столпа
Использовать k-d деревья
Примеры работы