introduction to "facial landmark detection by deep multi-task learning"

2014.12.6第26 回コンピュータビジョン勉強会＠関東　ECCV2014読み会

Facial Landmark Detectionby Deep Multi-task Learning

Zhanpeng Zhang, Ping Luo, Chen Change Loy, Xiaoou TangThe Chinese University of Hong Kong

笹尾幸良　Yukiyoshi Sasao (紹介者)

Summary目的：顔画像の５点の位置を得る (顔特徴点検出：Facial Landmark Detection)

補助的なタスク(性別とか顔向き)情報も用いて一緒に学習する

主目的

Deep CNN + Multi-Task Learning (タスク毎の停止条件付き)

によって、少ないNN-layer数で高精度 ,隠れに強い顔特徴点検出を実現

著者(研究室) 紹介1香港中文大学The Chinese University of Hong Kong　 / Multimedia Laboratory

Xiaogang Wang

Deep Learning を人・顔などの認識に応用

ECCV2014 : 10papers acceptedCVPR2014 : 12papers accepted

著者(研究室) 紹介2

顔認識ベンチマーク Labeled Faces in the Wild でNo.1精度

人が実施した精度 (Human performance)

Facebook

● Regression-based method

● Template fitting method

● Cascaded CNN

顔特徴点検出の先行研究Valstar, M., Martinez, B., Binefa, X., Pantic, M.: Facial point detection using boosted regression and graph models. In: CVPR. pp. 2729-2736 (2010)

Cootes, T.F., Edwards, G.J., Taylor, C.J.: Active appearance models. PAMI 23(6), 681-685 (2001)

Sun, Y., Wang, X., Tang, X.: Deep convolutional network cascadefor facial point detection.In: CVPR. pp. 3476-3483 (2013)

回帰で、点の位置を直接求める

位置や見た目のモデルをあてはめる

同じ研究室の手法特徴点ごとに分割して段階的にCNNを適用.CNN数が多い. 23 CNNs.

先行研究に対し,補助的なタスクを使うことと,Raw-pixel入力のCNNで,Cascadeせずに少ない処理時間で処理できることが特徴.

メインTask と補助Task

メインTask 5点の2 次元座標 (回帰)

眼鏡をかけているか (識別)

笑顔か (識別)

性別 (識別)

顔向き (識別)

● 一般的な Multi-Task Learning (MTL)

目的関数 1

各Task 各訓練サンプル

→　全てのTaskの損失関数を平等に最適化

正解y 特徴量x, パラメータwによる関数

各Taskの損失関数

正則化

● 本稿でのMTL

目的関数 2

メインTask(顔特徴点検出)の損失補助Task(笑顔,眼鏡,..)の損失

各補助Taskその補助Taskの重要度

→ Taskごとに重要度λ は異なる (λも学習) 目的はあくまでメインTaskを最適化すること

正則化の線形関数 softmax関数

実装は..

全体構造

TCDCN : Tasks-Constrained Deep Convolutional Network

特徴量は共通

Network (特徴抽出)は全Taskで共通

各Taskで回帰

・学習した特徴量を可視化すると..

CNNで抽出した特徴量

似たような顔向き、顔属性の入力に対し同じような特徴量を抽出できている

→　顔向き・顔属性にロバストな特徴空間

学習方法:

一般的な確率的勾配降下法 (Stochastic Gradient Descent)例：

特徴量のエラー = 全TaskのErrorを統合したものBack propagation

収束するまで繰り返す

Task-wise early stopping:

Taskによって, 難易度, 収束率 (最適なパラメータまでのiteration数) は異なる例えば, 眼鏡のあり/なしは, 笑顔かどうかよりも簡単であるそのTaskの最良の時を過ぎて学習を続けることは, メインTaskの学習を阻害することになりかねない

→　Taskごとに, 最良の時に学習をstopする

[最良の時]のcriterion

閾値

training-errorの傾向 .直近k回のtraining-errorが急激に落ちていると,

値は小さくなる　→ stop しない

汎化性能 .training-error に対する validation-error の率.

：補助Taskの重要度

結果評価Dataset : AFLW

評価Dataset : AFW

失敗例

評価(1) 各補助Taskの効果:

評価Dataset : AFLW

・全補助Taskを使用する(FLD+all)ことで, 従来(FLD)から失敗率を10%改善・補助Taskの中ではposeが最も寄与している

学習画像として , 自ら用意した公開Dataset (MTFL) を使用

評価(2) Smile, Poseの効果:

評価Dataset : AFLW

評価(3) Task-wise Early Stoppingの効果:

補助Taskごとにstopすることで, 精度向上している

評価(4) 他手法との比較 1

Cascaded CNN と比較し, より少ない計算量で, 精度が良い

CNN数処理時間 on Core i5

Cascaded CNN 23 120 msec

TCDCN 1 17 msec GPU→ 1.5 msec

評価(4) 他手法との比較 2

● Live Demo (exe, windows)● Multi-Task Facial Landmark (MTFL) dataset

http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html

● 異なる, だが少し関係するTaskとのjoint-learningによって,

隠れや顔角度に頑強な顔特徴点検出を実現.

● Taskごとの早期停止スキームによってモデルを収束.

● CNNをCascadeしないため高速.

● 他の手法の初期位置推定としても使用可能.

まとめ

RCPR(Robust face landmark estimation under occlusion)を高精度化

introduction to "facial landmark detection by deep multi-task learning"

Technology

photorealistic facial texture inference using deep neural...

facial landmark localization and feature extraction for ......

lncs 8694 - facial landmark detection by deep multi-task...

facial landmark detection by deep multi-task...

landmark localization and registration of 3d facial scans

facial landmark tracking in videos using kalman filter...

wing loss for robust facial landmark localisation with...

rectified wing loss for efficient and robust facial …...to...

learning robust facial landmark detection via hierarchical...

group-aware deep feature learning for facial age...

subpixel heatmap regression for facial landmark

facial emotion detection using deep learning

applying deep learning techniques - masked facial

facial landmark detection via progressive initialization ·...

abstractabstract recently, deep learning based facial...

lanzerac spa facial skincare lanzerac spa … · deep...

introduction to deep learning for facial...

wing loss for robust facial landmark localisation with...

lncs 8694 - facial landmark detection by deep multi-task...

deep learning based facial expression recognition and its...