introduction to "facial landmark detection by deep multi-task learning"
Post on 12-Jul-2015
855 Views
Preview:
TRANSCRIPT
1
2014.12.6第26 回 コンピュータビジョン勉強会@関東 ECCV2014読み会
Facial Landmark Detectionby Deep Multi-task Learning
Zhanpeng Zhang, Ping Luo, Chen Change Loy, Xiaoou TangThe Chinese University of Hong Kong
笹尾幸良 Yukiyoshi Sasao (紹介者)
@poyy
2
Summary目的:顔画像の5点の位置を得る (顔特徴点検出:Facial Landmark Detection)
補助的なタスク(性別とか顔向き)情報も用いて一緒に学習する
主目的
Deep CNN + Multi-Task Learning (タスク毎の停止条件付き)
によって、少ないNN-layer数で高精度 ,隠れに強い顔特徴点検出を実現
3
著者(研究室) 紹介1香港中文大学The Chinese University of Hong Kong / Multimedia Laboratory
Xiaogang Wang
Deep Learning を人・顔などの認識に応用
ECCV2014 : 10papers acceptedCVPR2014 : 12papers accepted
4
著者(研究室) 紹介2
顔認識ベンチマーク Labeled Faces in the Wild でNo.1精度
人が実施した精度 (Human performance)
5
● Regression-based method
● Template fitting method
● Cascaded CNN
顔特徴点検出の先行研究Valstar, M., Martinez, B., Binefa, X., Pantic, M.: Facial point detection using boosted regression and graph models. In: CVPR. pp. 2729-2736 (2010)
Cootes, T.F., Edwards, G.J., Taylor, C.J.: Active appearance models. PAMI 23(6), 681-685 (2001)
Sun, Y., Wang, X., Tang, X.: Deep convolutional network cascadefor facial point detection.In: CVPR. pp. 3476-3483 (2013)
回帰で、点の位置を直接求める
位置や見た目のモデルをあてはめる
同じ研究室の手法特徴点ごとに分割して段階的にCNNを適用.CNN数が多い. 23 CNNs.
先行研究に対し,補助的なタスクを使うことと,Raw-pixel入力のCNNで,Cascadeせずに少ない処理時間で処理できることが特徴.
6
メインTask と 補助Task
w
メインTask 5点の2 次元座標 (回帰)
眼鏡をかけているか (識別)
笑顔か (識別)
性別 (識別)
顔向き (識別)
g
7
● 一般的な Multi-Task Learning (MTL)
目的関数 1
各Task 各訓練サンプル
→ 全てのTaskの損失関数を平等に最適化
正解y 特徴量x, パラメータwによる関数
各Taskの損失関数
正則化
8
● 本稿でのMTL
目的関数 2
メインTask(顔特徴点検出)の損失 補助Task(笑顔,眼鏡,..)の損失
各補助Taskその補助Taskの重要度
→ Taskごとに重要度λ は異なる (λも学習) 目的はあくまでメインTaskを最適化すること
正則化の線形関数 softmax関数
実装は..
9
全体構造
TCDCN : Tasks-Constrained Deep Convolutional Network
特徴量は共通
Network (特徴抽出)は全Taskで共通
各Taskで回帰
10
・学習した特徴量を可視化すると..
CNNで抽出した特徴量
似たような顔向き、顔属性の入力に対し同じような特徴量を抽出できている
→ 顔向き・顔属性にロバストな特徴空間
11
学習方法:
一般的な確率的勾配降下法 (Stochastic Gradient Descent)例:
特徴量のエラー = 全TaskのErrorを統合したものBack propagation
収束するまで繰り返す
12
Task-wise early stopping:
Taskによって, 難易度, 収束率 (最適なパラメータまでのiteration数) は異なる 例えば, 眼鏡のあり/なしは, 笑顔かどうか よりも簡単であるそのTaskの最良の時を過ぎて学習を続けることは, メインTaskの学習を阻害することになりかねない
→ Taskごとに, 最良の時に学習をstopする
[最良の時]のcriterion
閾値
training-errorの傾向 .直近k回のtraining-errorが急激に落ちていると,
値は小さくなる → stop しない
汎化性能 .training-error に対する validation-error の率.
:補助Taskの重要度
13
結果 評価Dataset : AFLW
評価Dataset : AFW
失敗例
14
評価(1) 各補助Taskの効果:
評価Dataset : AFLW
・全補助Taskを使用する(FLD+all)ことで, 従来(FLD)から失敗率を10%改善・補助Taskの中ではposeが最も寄与している
学習画像として , 自ら用意した公開Dataset (MTFL) を使用
15
評価(2) Smile, Poseの効果:
評価Dataset : AFLW
16
評価(3) Task-wise Early Stoppingの効果:
補助Taskごとにstopすることで, 精度向上している
17
評価(4) 他手法との比較 1
Cascaded CNN と比較し, より少ない計算量で, 精度が良い
CNN数 処理時間 on Core i5
Cascaded CNN 23 120 msec
TCDCN 1 17 msec GPU→ 1.5 msec
18
評価(4) 他手法との比較 2
19
● Live Demo (exe, windows)● Multi-Task Facial Landmark (MTFL) dataset
Demo
http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html
20
● 異なる, だが少し関係するTaskとのjoint-learningによって,
隠れや顔角度に頑強な顔特徴点検出を実現.
● Taskごとの早期停止スキームによってモデルを収束.
● CNNをCascadeしないため高速.
● 他の手法の初期位置推定としても使用可能.
まとめ
RCPR(Robust face landmark estimation under occlusion)を高精度化
top related