Построение гендерного классификатора
TRANSCRIPT
![Page 1: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/1.jpg)
Построение гендерного классификатора
Результаты экспериментов и пути дальнейшего улучшения алгоритма
Лев Шмаглит
Ярославский государственный университет им. П.Г. Демидова150000, г. Ярославль, ул. Советская, 14
Физический факультетКафедра динамики электронных систем
![Page 2: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/2.jpg)
2
План доклада:
1. Задача понимания изображений. Вводные замечания.
2. Построение гендерного классификатора. Результаты экспериментов.
3. Обзор современных подходов, позволяющих увеличить вероятность распознавания.
![Page 3: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/3.jpg)
3
Понимание изображений
Небо
Дорога
Знак
МашинаМашина
Машина
Машина
Машина
Машина
Здание
[Ivan Laptev. Human Action Recognition // MCVS 2011]
![Page 4: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/4.jpg)
4
Понимание изображений
[Andrew Zisserman. Visual Search and Recognition // MCVS 2011]
Набор классов
Детектирование
Автобус
Машина
РаспознаваниеКлассификация
![Page 5: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/5.jpg)
5
Детектирование• Сканирование
пирамиды масштабированных изображений окном
K
K
K
«не лицо»
«лицо»• Принятие решения
для каждого окна - классификация
![Page 6: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/6.jpg)
6
Классификация
Входной фрагмент
XКлассификатор
),,,,( 21 mXf
Скалярное число
Сравнение с порогом
Решение
Обучающий набор
iXОПТИМИЗАЦИЯ
;,,,, 21 miXE
Вектор данных
Машинное обучение
![Page 7: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/7.jpg)
7
Понимание изображений(компьютерное зрение)
Детектирование + Распознавание
Классификация(машинное обучение)
Оптимизация
![Page 8: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/8.jpg)
8
Сколько пикселей относится к «людям»?
[Ivan Laptev. Human Action Recognition // MCVS 2011]
![Page 9: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/9.jpg)
9
Сколько пикселей относится к «людям»?
[Ivan Laptev. Human Action Recognition // MCVS 2011]
![Page 10: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/10.jpg)
10
Сколько пикселей относится к «людям»?
[Ivan Laptev. Human Action Recognition // MCVS 2011]
![Page 11: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/11.jpg)
11
План доклада:
1. Задача понимания изображений. Вводные замечания.
2. Построение гендерного классификатора. Результаты экспериментов.
3. Обзор современных подходов, позволяющих увеличить вероятность распознавания.
![Page 12: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/12.jpg)
12
Постановка задачи
Исходное изображение
Изображение с выделенными лицами
Распознавание пола
мм
мжж
Применение:• системы видеонаблюдения• Digital Signage
![Page 13: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/13.jpg)
13
Пример работы алгоритма
![Page 14: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/14.jpg)
14
Схема работы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
![Page 15: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/15.jpg)
15
Алгоритм на базе SNoW
Вычисление SMQT признаков
001010010
Представление в виде вектора
82
Пересчет в виде
индекса
Wx
facex
Wx
nonfacex xMhxMh
Классификатор
Wx
ifacex xMhЕсли ))(( ))(())(( xMhxMh i
facexi
facex
))(())(( xMhxMh ifacexi
facex
Wxi
facex xMhЕсли ))((
Процедура обновления весов
![Page 16: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/16.jpg)
16
Классификаторы KDDA и SVMЛинейные классификаторы с использованием ядра
для внесения нелинейности:
ядерная функция Гаусса
KDDA SVM
ASAASA
ASAA
WTHT
BTWT
BTWT
A maxarg
m
iiii bXXkyXf
1
),(sgn)(
2
2
2121 exp),(
zz
zzk
![Page 17: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/17.jpg)
17
Методика обучения и тестирования
Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up
SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007
База изображений (2770 шт.)
Анализ работы алгоритмов
Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов
Классификатор KDDA(81,5%)
Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке
Классификатор SVM(89%)
ПредобработкаМасштабирование до разрешения 40 × 40 пикселей
Выравнивание гистограммы яркости
Обучающая база (300 шт.)
Тестовая база (100 шт.)
![Page 18: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/18.jpg)
18
База обучающих изображений
• 2770 изображений• фронтальные лица• равномерное освещение • однородный фон
Мужчины Женщины Дети
![Page 19: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/19.jpg)
19
Результаты экспериментов
Классификатор
KDDA
81,5%
Классификатор
SVM
89%
![Page 20: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/20.jpg)
20
План доклада:
1. Задача понимания изображений. Вводные замечания.
2. Построение гендерного классификатора. Результаты экспериментов.
3. Обзор современных подходов, позволяющих увеличить вероятность распознавания.
![Page 21: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/21.jpg)
21
Подходы связанные с модификацией схемы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
1. Уточнение области лица после его выделения
Выделенная область квадратная, она наложена на лицо не точно, как по положению, так и по масштабу
Реализация: а) оценка положения глаз б) выделение овальной маской, захватывающей определенный процент лицевых пикселей, классифицированных до этого по цвету; в) фильтрация краевых эффектов.
Потенциальный выигрыш: 3 - 5 %
![Page 22: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/22.jpg)
22
Подходы связанные с модификацией схемы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
2. Использование информации из областей рядом с лицом
Лица могут быть очень похожи, в то время как другие части тела и одежда могут сильно отличаться
Реализация: эмпирическое задание рамки, захватывающей нужные области, исходя из размера и положения детектированного лица
Потенциальный выигрыш: 5 - 10%
![Page 23: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/23.jpg)
23
Подходы связанные с модификацией схемы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
3. Переход в пространство признаков
Переход в пространство признаков позволяет достичь:
а) инвариантности к масштабу, освещенности, положению и т.п.;
б) выделения особенностей, характерных тому или иному классу.
Реализация: дескрипторы SIFT, PHOW, HOG, реализованные в библиотеках VL-Feet и OpenCV
Потенциальный выигрыш: 5 - 15%
![Page 24: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/24.jpg)
24
SIFT дескрипторы
[Andrew Zisserman. Visual Search and Recognition // MCVS 2011]
Вектор SIFT размерностью 128 Визуальное слово
Построение гистограммы визуальных слов
![Page 25: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/25.jpg)
25
HOG дескрипторы
[Andrew Zisserman. Visual Search and Recognition // MCVS 2011]
• Разбиение изображения на блоки• Вычисление гистограммы
градиентов
![Page 26: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/26.jpg)
26
Подходы связанные с модификацией схемы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
4. Использование всех трех цветовых компонент
Три – лучше, чем одна
Реализация: а) переход в пространство HSV б) вычисление признаков независимо для каждой из компонент
Потенциальный выигрыш: 1 - 5%
![Page 27: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/27.jpg)
27
Подходы связанные с модификацией схемы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
5. Усложнение ядра
Никогда заранее не известно, какое ядро будет лучше работать при конкретной задаче (полиномиальное, RBF, хи-квадрат и т.д.)
Кроме того, произведение (сложение) нескольких ядер, существенно увеличивает силу классификатора.
Реализация: SVM библиотеки: libSVM, SVMlight и т.д.
Потенциальный выигрыш: 5 - 10%
![Page 28: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/28.jpg)
28
Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up
SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007
База изображений (2770 шт.)
Анализ работы алгоритмов
Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов
Классификатор KDDA(81,5%)
Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке
Классификатор SVM(89%)
ПредобработкаМасштабирование до разрешения 40 × 40 пикселей
Выравнивание гистограммы яркости
Обучающая база (300 шт.)
Тестовая база (100 шт.)
Подходы связанные с модификацией схемы обучения
1. Увеличение обучающей базы
Обучающих изображений всегда не хватает
Реализация: а) поиск новых изображений б) размножение изображений путем применения ротации, аффинного преобразования, изменения яркости / контраста
Потенциальный выигрыш: 100%
![Page 29: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/29.jpg)
29
Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up
SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007
База изображений (2770 шт.)
Анализ работы алгоритмов
Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов
Классификатор KDDA(81,5%)
Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке
Классификатор SVM(89%)
ПредобработкаМасштабирование до разрешения 40 × 40 пикселей
Выравнивание гистограммы яркости
Обучающая база (300 шт.)
Тестовая база (100 шт.)
Подходы связанные с модификацией схемы обучения
2. Усложнение алгоритма оптимизации параметров ядра
Оптимизация ядра необходима, чтобы избежать переобучения и достигнуть наилучшей обобщающей способности
Реализация: а) кроссвалидация б) алгоритмы оптимизации (GA)
Потенциальный выигрыш: 1 - 10%
![Page 30: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/30.jpg)
30
Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up
SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007
База изображений (2770 шт.)
Анализ работы алгоритмов
Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов
Классификатор KDDA(81,5%)
Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке
Классификатор SVM(89%)
ПредобработкаМасштабирование до разрешения 40 × 40 пикселей
Выравнивание гистограммы яркости
Обучающая база (300 шт.)
Тестовая база (100 шт.)
Подходы связанные с модификацией схемы обучения
3. Применение древовидной (каскадной) структуры
Объединение решений нескольких классификаторов всегда дает преимущество в итоговой вероятности распознавания
Следующий слой классификатора можно обучать на ошибках предыдущего
Реализация: а) каскадная структура б) дерево (решающий лес)
Потенциальный выигрыш: 5 - 10%
![Page 31: Построение гендерного классификатора](https://reader035.vdocuments.net/reader035/viewer/2022070319/557fe168d8b42a117e8b4d40/html5/thumbnails/31.jpg)
Построение гендерного классификатора
Результаты экспериментов и пути дальнейшего улучшения алгоритма
Лев Шмаглит
Ярославский государственный университет им. П.Г. Демидова150000, г. Ярославль, ул. Советская, 14
Физический факультетКафедра динамики электронных систем