Системный анализ данных в задаче нейросетевой...
DESCRIPTION
Системный анализ данных в задаче нейросетевой классификации. Дорогов А.Ю. Каф. Автоматики и процессов управления Санкт-Петербургского государственного электротехнического университета «ЛЭТИ». ПРОБЛЕМЫ КОЛЛЕКТИВНОЙ КЛАССИФИКАЦИИ. 1. Противоречия в данных. - PowerPoint PPT PresentationTRANSCRIPT
Семинар "Нейроинформатика" Санкт-Петербург 2008
1
Системный анализ данных в задаче нейросетевой
классификации
Дорогов А.Ю. Каф. Автоматики и процессов
управления Санкт-Петербургского государственного
электротехнического университета «ЛЭТИ»
Семинар "Нейроинформатика" Санкт-Петербург 2008
2
ПРОБЛЕМЫ КОЛЛЕКТИВНОЙ КЛАССИФИКАЦИИ
• 1. Противоречия в данных.• 2. Области компетенции
частных классификаторов.• 3. Малые обучающие выборки. • 4. Интеграция частных
решений.
Семинар "Нейроинформатика" Санкт-Петербург 2008
3
Область компетенции классификатора
• Под областью компетенции понимается подмножество объектов признакового подпространства, в пределах которого определена сфера действия частного классификатора с заданным подмножеством распознаваемых образов.
• Главная проблема заключается в отсутствии достоверного критерия однородности для признакового поля области компетенции.
Семинар "Нейроинформатика" Санкт-Петербург 2008
4
Предлагаемые решения
• 1. Локализация однородных артефактов признакового пространства.
• 2. Индуктивная схема объединения однородных локальностей.
• 3. Выделение стереотипов поведения.• 4. Статистическая верификация
эталонных моделей.• 5. Слабообученные частные
нейросетевые классификаторы.• 6. Голосующий алгоритм интеграции
частных классификаций.
Семинар "Нейроинформатика" Санкт-Петербург 2008
5
Содержание
• Алгебраическая модель знакового графа.
• Принципы локальной балансировки.• Структурный портрет системы
данных.• Верификация эталонных моделей.• Коллективная классификация
образов.• Результаты экспериментов.
Семинар "Нейроинформатика" Санкт-Петербург 2008
6
Триангуляция знаковых графов
• Декомпозиция согласованного контура
• Треугольник противоречий
x1
x2
x3
x1
x2
x3
x4
Семинар "Нейроинформатика" Санкт-Петербург 2008
7
Варианты согласования треугольника противоречий
x1
x2
x3 x1
x2
x3
x1
x2
x3 x1
x2
x3
а) б)
с) д)
Семинар "Нейроинформатика" Санкт-Петербург 2008
8
Полная модель знакового треугольника
• Внутренние связи - двусторонние, симметричные
• Внешние связи - односторонние
x1
x2
x3 y1
a ba
ca
011
101
110
3
2
1
321
x
x
x
xxx
C
Семинар "Нейроинформатика" Санкт-Петербург 2008
9
Матричная интерпретация
• Алгебраическая система знакового графа
Системная матрица
.0
0
321
321
1321
xxx
xxx
yxxx
111
111
111
A
3
2
1
x
x
x
XYAX CIA
Семинар "Нейроинформатика" Санкт-Петербург 2008
10
Баланс полносвязанных графов
• Теорема. Если в полносвязанном знаковом графе отрицательные связи образуют связанный подграф, в котором существуют, по крайней мере, две вершины, связанные отрицательными связями со всеми другими вершинами подграфа, то исходный граф несбалансирован и определитель его системной матрицы равен нулю.
Семинар "Нейроинформатика" Санкт-Петербург 2008
11
Оценка степени обусловленности системной
матрицы• Топологические формула расчета
определителя
• Разложение графа по вершине
skjkjkjjj LLLLLL ,
iia
ssiitii La
Семинар "Нейроинформатика" Санкт-Петербург 2008
12
Элементарные графы
• Диполь и ленточный граф
x1 x3
a
1)
x1 x3 x2
a b
2)
01 2 a
;101 2 a
Семинар "Нейроинформатика" Санкт-Петербург 2008
13
Концепция ближайшего окружения
• Тетраэдр окружения
x2
x3 x1
f
Семинар "Нейроинформатика" Санкт-Петербург 2008
14
Теорема «О разделении граней»
x1
f
x2
x3
α
β γ
l r
b
c d
a
1lrb blradrcalcdb
1cdb 1cdbЕсли в основании тетраэдра размещен несбалансированный треугольник, то только две из четырех граней тетраэдра могут быть согласованы.
1
Семинар "Нейроинформатика" Санкт-Петербург 2008
15
Морфология многовершинной структуры
x2
x3
f2 f4
f5 f1
f3
x1
Особая вершина
База
Вершины окружения
Вершины окружения
Семинар "Нейроинформатика" Санкт-Петербург 2008
16
Разделяющая структураОсевая симметрия треугольника выделяется
однозначно, если построенная многовершинная структура из тетраэдров окружения удовлетворяет следующим условиям:1) Количество согласованных треугольников в структуре равно N, тогда как число не согласованных треугольников в ней, включая основание равно 2N.2) Только одно ребро основания (база) определяет с вершинами окружения N согласованных треугольников.3) Сумма согласованных треугольников, образованных вершинами окружения и двумя другими ребрами основания структуры равна N.
Семинар "Нейроинформатика" Санкт-Петербург 2008
17
Варианты согласования многовершинной структуры
Фактор 1 Фактор 2 Фактор 2 Фактор 1
Семинар "Нейроинформатика" Санкт-Петербург 2008
18
Ориентированная разделяющая структура
1 2
Фактор 1 Фактор 2
Вершина базы Left
Вершина базы Right
Особая вершина
Семинар "Нейроинформатика" Санкт-Петербург 2008
19
Разделяющая структура в реальных данных
1+
5-
6-
10+
18+
21+
23+
33+
35+
39+
40+
41+
43-
53+
45+
46+
47+
51+
52+
11
Factor1 Factor2
Семинар "Нейроинформатика" Санкт-Петербург 2008
20
Эталонная модель
1-
5+
6+
10-
18-
21-
23-
33-
35-
39-
40-
41-
43+
53+
45+
46+
47+
51+
52+
11
Factor1 Factor2
Семинар "Нейроинформатика" Санкт-Петербург 2008
21
Концепция открытой локальности
1+
5-
6-
10+
18+
21+
23+
33+
35+39+
40+41+
43-
53+
45+
46+
47+
51+
52+
11
Factor1 Factor2
Семинар "Нейроинформатика" Санкт-Петербург 2008
22
Интегрированная SHARE
• Анализ
x1
1lF
F
α β
1rF
F
2lF
F
2rF
F
b1 b2
l1
l2 r1
r2
d
x2 x5
x4 x3
с
221
21drl
222223
12crl
5
13
Семинар "Нейроинформатика" Санкт-Петербург 2008
23
Поляризация факторов ISHARE
2LF
F
x1
x2 x3
x4 x5
1LF
F
1RF
F
2RF
F
LF
F
RF
F
b1
b2
2121 , RRRLLL FFFFFF
Семинар "Нейроинформатика" Санкт-Петербург 2008
24
ISHARE в реальных данных13+
11+
18-
21-
35-
1-
6+
14-
33-
39-
40-
41-
47
Factor1 Factor2
Семинар "Нейроинформатика" Санкт-Петербург 2008
25
Многофакторные модели
• Дуплет «Подобие (SIM)» и модели iBase
α
l2
b
r1
r2
d
x3
β
2LF
F
1RF
F
2RF
F
l1
x2
x1
x4
1LF
F
Семинар "Нейроинформатика" Санкт-Петербург 2008
26
Двухфакторные модели взаимодействий
• Дуплеты SWI
α
b1
b2
l
r1
r2
d
x1 x2
x3
x4
β
1LF
F
1RF
F
2RF
F
2LF
F
α
b1
b2
l
l1
r2
d
x1 x2
x3
x4
β
1RF
F
1LF
F
2RF
F
2LF
F
SWI1 SWI2
2121 , RRRLLL FFFFFF 2121 , RLRLRL FFFFFF
Семинар "Нейроинформатика" Санкт-Петербург 2008
27
Дуплет SWI в реальных данных
5
8
1
6
10
18
19
20
21
22
23
33
34
35
39
40
41
10
15
4
16
Factor1 Factor2
Семинар "Нейроинформатика" Санкт-Петербург 2008
28
Оценка степени обсловленности для
дуплетов• Модель без дополнительного ребра
• Модель с дополнительным ребром
2222 8
.222222)1(2
16
Семинар "Нейроинформатика" Санкт-Петербург 2008
29
Модель iBase в реальных данныхGraph model=iSIM name=iBase9
13
8
35
1
6
21
22
23
33
34
1114
1819 20
3940
41
16 24 47
Factor1 Factor2
Семинар "Нейроинформатика" Санкт-Петербург 2008
30
Структурный портрет системы реальных данных
• Система данных представляет собой таблицу, состоящую из 56 количественных показателей и 214 объектов наблюдений.
• Мерой связи является коэффициент корреляции. Связи считались значимыми, если вероятность гипотезы ошибочного значения коэффициента корреляции не превышала уровня 0.05.
• Знаковый граф покрывает 55 вершин, имеет плотность 0.406 и состоит из 648 ребер, из которых 401 являются положительными и 247 отрицательными.
• В графе обнаружено 3281 треугольников, из которых 393 являются треугольниками противоречий. Максимальная степень вершины 38, минимальная 2.
Семинар "Нейроинформатика" Санкт-Петербург 2008
31
Системный портрет
Тип структурной модели
Число моделей
Число локальностей
Вершинное покрытие
Объем локальностей
Число особых вершин
Число баз
Число базовых вершин
SHARE 108 52 40 4-21 13 98 39 Балансируемые SHARE
103 47 40 4-20 13 94 38
ISHARE 13 13 40 4-26 13 88 39 Балансируемые ISHARE
9 9 36 4-20 9 19 24
DOUBLET 53 17 37 6-24 12 47 30 Балансируемые DOUBLET
32 12 35 8-24 11 29 26
iBase 7 6 32 9-24 7 7 10 Балансируемые iBase
7 6 32 9-24 7 7 10
i2Edge 38 8 33 6-21 9 41 38 Балансируемые i2Edge
19 3 28 8-19 6 20 22
Семинар "Нейроинформатика" Санкт-Петербург 2008
32
Наполнение локальностей SHARE
0 5 10 15 20 25 30 35 40 45 500
2
4
6
8
10
12
Семинар "Нейроинформатика" Санкт-Петербург 2008
33
Вершинное покрытие для множества дуплетов
0 10 20 30 40 50
0
5
10
15
20
25
30
nz = 553
Locality Covering
Семинар "Нейроинформатика" Санкт-Петербург 2008
34
Совпадение локальностей для дуплетов
0 5 10 15 20 25 30
0
5
10
15
20
25
30
nz = 204
Locality Vertex coincidence
Семинар "Нейроинформатика" Санкт-Петербург 2008
35
Верификация эталонных моделей
i
yixi mymxyxK ,
ISHARE(Номер и
имя особой вершины)
Объемы кластеров
Детерминистская верификация по особой вершине
Детерминистская верификация по всем вершинам
Стохастическая верификация
Left Right Left Right Left Right
2=Y_DC 1 1 104 27 206 180
4=Cr_DC 11 11 69 65 198 200
5=Y_AC 13 13 84 80 208 209
7=Cr_AC 1 1 36 27 150 179
13=quadrant1
1 1 70 11 194 100
14=quadrant2
4 4 97 9 193 95
15=quadrant3
0 0 44 40 183 175
24=FormFac1
5 5 44 9 197 147
47=Mass3x 1 1 48 7 192 163
Семинар "Нейроинформатика" Санкт-Петербург 2008
36
Семантическая классификация изображений
ПоказательЗначение
Число объектов в базе данных 214
Число классов Concept/Мodifier () 118
Размерность признакового пространства () 56
Максимальная представительность образа 24
Минимальная представительность образа 1
Семинар "Нейроинформатика" Санкт-Петербург 2008
37
Представительность образов в базе данных
N=214, M=56
0 20 40 60 80 100 1200
5
10
15
20
25name=ModCon , description=-, measure=-
Links 648 PlusLinks 401 MinusLinks 247 NVertex 55 GraphDensity 0.40602MaxVertexDegree 38 MinVertexDegree 2 Triangles 3674 Concert_Triangles 3281 Contr_Triangles 393
Семинар "Нейроинформатика" Санкт-Петербург 2008
38
Классификатор эталонной модели
NN1
NNs1
NN2
NNs2
NNk
NNsk
X1
PA
PB
PC
Эталонная модель
Схема голосования
Семинар "Нейроинформатика" Санкт-Петербург 2008
39
Схема голосования
jF
jFllj
Голосующий вес классификатора l по образу j
l
ljj Jjq ,,2,1, Результаты голосования
*jAX jj
j qq max* Решение о принадлежности к образу
Семинар "Нейроинформатика" Санкт-Петербург 2008
40
Иерархия голосований
X1
P
Эталонная модель Left Схема
голосования Эталонная модель Right
Локальность 1
X2 Эталонная модель Left Схема
голосования Эталонная модель Right
Локальность 2
Схема голосования
Локальность R
Семинар "Нейроинформатика" Санкт-Петербург 2008
41
Обобщающая способность классификатора
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50
0.05
0.1
0.15
0.2
0.25
Sigma fraction
Err
or
Classificator Amount=277:277+26
Семинар "Нейроинформатика" Санкт-Петербург 2008
42
Пример 2, N=535, M=99
0 50 100 150 200 2500
10
20
30
40
50
60name=ModCon, description=-, measure=-
Links 2556 PlusLinks 1447 MinusLinks 1109 NVertex 99 GraphDensity 0.50614MaxVertexDegree 80 MinVertexDegree 17 Triangles 30744 Concert_Triangles 25805 Contr_Triangles 4939
Семинар "Нейроинформатика" Санкт-Петербург 2008
43
Обобщающая способность классификатора. Пример 2.
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50.05
0.1
0.15
0.2
0.25
0.3
Sigma fraction
Err
or
Classificator Amount=945:945+84