cvpr 2017 報告
TRANSCRIPT
CVPR 2017報告
8/25/2017
Agenda
•概要
•トレンド
•気になった論文
•ワークショップ
•その他
•まとめ初参加だったため、去年と比べて〇〇ということはなく、トレンド等ずれている部分もあるかもしれませんが、私の感じたこと、面白かった論文紹介を中心に、報告します。また、Computer Visionの専門家ではないが、少しは知っているというレベル感で書いています。(論文紹介は概要のみ)もし、もう少し深く突っ込みたい内容あれば、聞いてください。
概要
・学会名: Computer Vision and Pattern Recognition (CVPR)コンピュータービジョン界おけるトップカンファレンス
・日程、場所7//21 〜 7/26 @ Hawaii Convention Center, Honolulu, HI
・参加者: 4000人以上・論文応募数: 2680うち通過論文: 783(採択率: 29%)うちOral: 71 (2.95%), Spotlight: 144 (8%)・22〜25がメインカンファレンス・21,26はWorkshop, Tutorial・みんなTシャツ短パン
・昨今のAIブームでとんでもない規模感・Oralは3000人程度の前で実施・ポスターの数も見切れないほど
・企業ブースも多数あり、皆リクルーティングに必死
■学会について
Oralの様子
Oral, Spotlightはビデオありhttps://www.youtube.com/channel/UC0n76gicaarsN_Y9YShWwhw
概要
■圧倒的な注目度
CVPR2010 Sponsors CVPR2017 Sponsors
企業スポンサーの数を見ても、現在のCVに対する注目度の高さがうかがえる
トレンド
①よくも悪くもDeep Learning →ただし、傾向は変わってきている?
90%程度の発表はすべて、Deep Learningを活用したものばかり
認識検出ポーズ推定視線推定生成アテンションキャプショニングスタイルセグメンテーション3D推定アクション認識・・・
VGGResNetGANAuto EncoderRNNLSTMGRURL・・・
@JJ ”1,5
•
– /-.1 ł
– ” N_mco[f J_nqile
AlexNet [Krizhevsky+, ILSVRC2012]
VGGNet [Simonyan+, ILSVRC2014]
GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015]
ResNet [He+, ILSVRC2015/CVPR2016]
ILSVRC2012 winnerfiDL
16/19 fideeper
ILSVRC2014 winnerfi22
ILSVRC2015 winnerfi 152 ( 103+ )
@JJ ”3,5
•
– C=J7 fiC_h_l[nil”C
@cm]lcgch[n_l”@
– @MJ7
bnnjm7,,qqq+mfc_mb[l_+h_n,hgbe[bh,a_h_l[ncp_*[ p_lm[lc[f*
h_nqile*f[jf[]c[h*jsl[gc*a[h
ベースとなっているネットワーク構造自体は大きく変わらず、どこにどのように適用するか!が鍵となっている
トレンド
①よくも悪くもDeep Learning →ただし、傾向は変わってきている?
Label付きBig Data → 認識、検出というタスクはほぼ終了より高度なタスクへ移行している
Label付きBig Data
計算量さえ気にしなければ技術的にシュリンク
より高度化・Small Data・判断ではなく作り出す・動画、3D・マルチ化
猫!
トレンド
②中でも熱いDeep learning Architectures
■Adversarial Learning
アウトプットが画像のタスク(作り出す系、変換系)はだいたいAdversarial
SRGAN pix2pix
通常のロスに加え、DiscriminatorによるReal/Fakeのロスを加えることで、超解像の性能を向上
Christian Ledig, et al, twitter Phillip Isola, et al, UCB
画像の変換をGANで学習ColorizationやMap変換等、複数のタスクに応用
Ucdoh Hc) Oc_c Hco) Fcg_c U[ha) [h Icha*Dmo[h U[ha) yC_h_l[ncp_ B[]_
?igjf_ncih) ch ?RLN) /-.4
G_sqil m7 B[]_ ]igjf_ncih) @__j a_h_l[ncp_ gi _f) N_]ihmnlo]ncih fimm) = p_lm[lc[f fimm
@__j
a_h_l[ncp_ gi _f fl
fi fl
fl
fi á O_ag_hn[ncih fi
@cm]lcgch[nil fl
Himm”l_]ihmnlo]ncih fimmfinqi [ p_lm[lc[f fimm_mfi
m_g[hnc] j[lmcha fimm fl
Hchem 7 bnnjm7,,[lrcp+ila,j ,.4-1+-2505+j
45
トレンド
②中でも熱いDeep learning Architectures
■Adversarial Learning
SimGAN DR GAN
Deep Face Completion
AppleがPaperを出したことでも有名。シミュレーション画像をリアルに。
ポーズを潜在変数に加えることで、ポーズを自在に変換可能とする
Luan Tran, et al, Michigan=mbcmb Oblcp[mn[p[) Pig[m Lzmn_l) Kh]_f Pot_f) Fimb Oommech) S _h[
S [ha) Nomm S _ ) yH_[lhcha lig Ocgof[n_ [h Qhmoj_lpcm_ Eg[a_m
nblioab = p_lm[lc[f Pl[chcha) ch ?RLN) /-.4+ %il[f&
G_sqil m7 Oshnb_nc] @[n[) Qhmoj_lpcm_) = p_lm[lc[f Pl[chcha
ffi fl fl
fl fi fl
C=J = p_lm[lc[f Pl[chchafl
ł N_zh_l fiN_zh_
@cm]lcgch[nil fl fi
áá fl
%Ocgof[n_(Qhmoj_lpcm_ H_[lhcha&
N_zh_ ö
ł C=J
Hchem
bnnj7,,ij_h[]]_mm+nb_]p+]ig,]ihn_hnZ]pjlZ/-.4,j[j_lm,Oblcp[mn[p[ZH_[lhchaZBligZOcgof[n_Z?RLNZ/-.4Zj[j_l+j
.3
顔の欠損部分を再構成するYijun Li, et al, Adobe
Ashish S., et al, apple
※Best Paper
トレンド
②中でも熱いDeep learning Architectures
■New Architectures
Feedback Networks
ResNetのSkip ConnectionはもはやDefault →次なる気になるArchitectures
DenseNet Gao Huang, et al, Cornel, facebook
SkipConnectionを各層に入れるDenseNet。小パラメータで高精度な結果を実現
※Best Paper
通常のCNNをLSTM構造にすることで、収束の高速化、分類の細分化等を実現する
ResNetの不要な層を取り払うため、Halting Scoreを用いて途中でSTOPする構造
Amir Zamir, et al, Stanford SACT for ResNet Michael F., et al, CMU, Google
トレンド
③ラベルデータに対するアプローチ
大量のデータにラベルをつけるのは困難、ラベルが追加になったらどうする?等々、データセットに対するアプローチ
Gihmn[hnchim >iomgfcm) J[nb[h Ocf_lg[h) @[pc @ib[h) @ogcnlo Alb[h)
@cfcj Glcmbh[h) yQhmoj_lpcm_ Lcr_f*H_p_f @ig[ch = [jn[ncih qcnb
C_h_l[ncp_ = p_lm[lc[f J_nqilem) ch ?RLN ) /-.4+ %il[f&
G_sqil m7 C=J) @ig[ch = [jn[ncih) =onig[nc] @[n[ ?l_[ncih
ffl
ff
ł
ffl C=J”
ł
”C=J
ff IJEOP”
Hch_Ii ”0
ł
”?=@ ł Oshnb_nc] [n[
ł
On[n_*i*nb_*[ln
ł á
Hchem bnnjm7,,[lrcp+ila,j ,.3./+-21/1+j
IJEOP Hch_Ii
3 Unsupervised pixel level domain adaptation with GAN
容易に作成が可能なデータ(シミュレーション等)から、実世界の画像をラベル付きで生成する。
Konstantinos B., et al, google
Learning by AssociationPhilip Haeusser, et al, google
同様のラベルは非常に似たベクトルになるように各画像のEmbeddingベクトルをCNN学習する半教師学習手法
他にも、Self-supervisedやWeakly supervisedも
トレンド
④次元の増加 (動画、3D化)
2D画像→ 3D or動画へ、難しいタスクへの移行が進んでいる
ł ”.4,.5
• K]nJ_n”Kl[f
– 0 K]nl__ ffl ff ff
– ?ihpifoncih,Qjm[gjf_
OctNet Gernot Riegler, et al., ETH
3Dならではの難しさとして、物体がスパースになるという問題あり→ Octreeを活用して畳み込み
Semantic Scene Completion
3Dにすると、カメラで捉えられない部分の再生が必要になってくる。
Shuran Song, et al., Princeton
Goi *D[ i V_ha) Obcb*D[h ?bi o Bo*Dmc[ha ?b[h Fo[h ? [ l fi m J c_ f_m) I ch Ooh )y=a_hn*?_hnl c] Ncme =mm_mmg _hn7=hnc]cj [nci h [h Ncmes N_aci h Hi ][ fct[nci h ) ch ?RLN) / - . 4+
3/
G_sq i l m7 l cme _mncg [nci h) l cme [hnc]cj [nci h
[a_hn*]_hnl c] ) ) [a_hn
[ j j _l [h]_ ) Ncme g [ j Ncme g [ j [ j j _l [h]_ [a_hn
[a_hn [ j j _l [h]_
HOPI) cg [ach_ )
[a_hn ) )
Bonol _ l cme j l _ c]nci h
[a_hn ) cg [ach_ [a_hn
) Onl__n =]]c _hn %O=& [n[m_n ) Aj c] B[cf %AB& [n[m_n ) Aj c] B[cf %AB& [n[m_n
Hchembnnj m7,,[ l r cp+i l a,[ m,. 4- 2+- 323-
[a_hn) B[mn_l*N?J J ) [ j j _l [h]_ Cfi [ f =p* _l [a_ Li i fcha
) Aj c] B[cf %AB& [n[m_n Pcg _ ni [ ]]]c _hn _h
ni _h^ ł
Agent-Centric Risk AssessmentKuo-Hao Zeng, et al., Stanford
ビデオでの危険因子の領域と時刻推定。動画では、時系列によりネットワークの複雑化が必須となる。
トレンド
⑤マルチタスク
1つのネットワークで様々なタスクをこなす万能ネットワークはこれから熱いか?
Iasonas Kokkinos, facebookUberNet
それぞれのタスクを同時に学習できるLoss関数、省メモリ化の取り組みにより、7つのタスクを同時にこなすネットワークを提案
企業のPaper
企業のPaperから企業の今後の動きが見える
■Snap
Image to Textまわりで3本→写真描写型スタンプやチャットが次の機能か?
Vbio N_h) Tc[iso S [ha) Jcha Vb[ha) Ton[i Hp) Hc*Fc[ Hc) y@__j
N_chil]_g_hn H_[lhcha*[m_ Eg[a_ ?[jncihcha qcnb Ag _ cha
N_q[l ) ch [lTcp .4-1+-0566) /-.4 %?RLN/-.4&+
/3
G_sqil m7 ?JJ) HOPI) Eg[a_ ?[jncihcha) N_chil]_g_hn H_[lhcha
?[jncihcha ł fl
?JJ HOPI ?[jncihcha ł fiHOPI
al__s
fl
Lifc]s J_nqile %?JJ HOPI&
%fi][f& R[fo_ J_nqile l_q[l
%afi [f&
l_q[l ł × fl
l_q[l Rcmo[f*O_g[hnc]
Ag _ cha ff
flmn[n_*i*nb_*[ln fl
Eg[a_ ?[jncihcha
Rcmo[f*O_g[hnc] Ag _ cha N_q[l
Hchem
bnnjm7,,[lrcp+ila,j ,.3-3+-444-+j
Deep RL for image CaptioningZhou Ren, et al., Snap, Google
強化学習を用いて、Reward Max学習をすることで高精度なキャプショニングを達成
Dense Captioning Linjie Yang, et al., Snap, Google
Generating diverse questions
Unnat Jain, et al., Snap
企業のPaper
企業のPaperから企業の今後の動きが見える
■AdobePhotoshop系の技術はこれからどんどん進化しそうな勢い。逆に言えば、ポストプロダクションで多くのことができるようになる時代
Deep Image Synthesis
L[nmilh O[haefis) Fchaq[h Ho) ?b_h B[ha) Bcmb_l Uo) F[g_m D[sm)
yO]lc f_l7 ?ihnliffcha @__j Eg[a_ Oshnb_mcm S cnb Oe_n]b [h ?ifil)
ch) ?RLN) /-.4+
G_sqil m7 cg[a_ a_h_l[ncih) me_n]b) om_l chn_l[]ncp_) C=J
ff
fi ff ff fi
fi fi
fl ö
fi ö
ff fl
fi ł á
fl
ff
ö
Hchem
bnnj7,,ij_h[]]_mm+nb_]p+]ig,]ihn_hnZ]pjlZ/-.4,
j[j_lm,
O[haefisZO]lc f_lZ?ihnliffchaZ@__jZ?RLNZ/-.4Zj[j_
l+j
.-.
Patsorn Sangkloy, et al., Adobe
スケッチに色付け。
Jcha To) >lc[h Llc]_) O]inn ?ib_h) Pbig[m Do[ha) y@__j Eg[a_ I[nncha)
ch ?RLN) /-.4+ %il[f&
/.
G_sqil m7 Eg[a_ I[nncha) Ah]i _l*@_]i _l
Eg[a_ I[nncha”
” ff
@JJ Ah]i _l*@_]il _l
[fj[b g[nn_”
mg[ff @JJ Plcg[j” il_alioh, []ealioh,
ohehiqh ł
á
ohehiqh Plcg[j
ł
Hchem bnnjm7,,[lrcp+ila,j ,.4-0+-054/+j
Deep Image Matching
背景の切り出し。
Neural Face Editing
FaceApp的な。
Zhixin Shu, et al., Adobe
Ning Xu, et al., Adobe
もちろん全部Deep Learningの力
企業のPaper
企業のPaperから企業の今後の動きが見える
■Twitter■Apple
Super Resolution機能が充実しそうARモデル等の生成なのか?データ拡張的役割として使うのか
SimGAN
=mbcmb Oblcp[mn[p[) Pig[m Lzmn_l) Kh]_f Pot_f) Fimb Oommech) S _h[
S [ha) Nomm S _ ) yH_[lhcha lig Ocgof[n_ [h Qhmoj_lpcm_ Eg[a_m
nblioab = p_lm[lc[f Pl[chcha) ch ?RLN) /-.4+ %il[f&
G_sqil m7 Oshnb_nc] @[n[) Qhmoj_lpcm_) = p_lm[lc[f Pl[chcha
ffi fl fl
fl fi fl
C=J = p_lm[lc[f Pl[chchafl
ł N_zh_l fiN_zh_
@cm]lcgch[nil fl fi
áá fl
%Ocgof[n_(Qhmoj_lpcm_ H_[lhcha&
N_zh_ ö
ł C=J
Hchem
bnnj7,,ij_h[]]_mm+nb_]p+]ig,]ihn_hnZ]pjlZ/-.4,j[j_lm,Oblcp[mn[p[ZH_[lhchaZBligZOcgof[n_Z?RLNZ/-.4Zj[j_l+j
.3
Ashish S., et al, apple
SRGAN
Christian Ledig, et al, twitter
Real time super resolution Jose Caballero, et al, twitter
企業のPaper
企業のPaperから企業の今後の動きが見える
■Google, facebook
体力のあるこの2社は、幅広く基礎から応用までやっている
また、彼らは自分たちのライブラリ(tensorflow, pytorch)の普及も一つ目的であるため、Citationが伸びそうなpaperにも注力していると考えられる。
注目度の高かった以下2つはfacebokから
Image Compression
George Toderici, et al, Google
DenseNet UberNet
Googleは本当に幅広い
LSTM活用でjpegを超える圧縮性能
Learning by AssociationIasonas Kokkinos, facebook
Gao Huang, et al, Cornel, facebook Philip Haeusser, et al, google
日本企業/大学
日本企業のPaperは、論文が少ないのもさることながら、Deep Learning系でないものもなぜか多い
Non-contact full field vibration measurement
■Nikon
位相シフトより、非接触でバイブレーションを測定する(らしい)。
Hiroyuki Kayaba, et al., Nikon
Mihoko Shimano, et al., National institute of Informatics
Wetness and color
マルチスペクトル画像により、対象表面の濡れ具合を予想する(らしい)。
■国立情報学研究所 ■NTT
Deep Learningではない もちろんDeep LearningのPaperもあり
■Canon
CNN SLAM
G_cmoe_ P[n_hi) B__lc]i Pig [lc) Eli H[ch[) J[mmcl J[p[ ) y?JJ*OH=I7
N_[f*ncg_ _hm_ gihi]of[l OH=I qcnb f_[lh_ _jnb jl_c]ncih) ch
?RLN) /-.4+
G_sqil m7 ?JJ*OH=I) @_jnb Ll_c]ncih
OH=I ?JJ
Iihi*OH=I” OH=I
Iihi*OH=I ff
?JJ
ł ffl ö
OH=I ?JJ
ff
”
ffl ö OH=I
Hchem
bnnjm7,,[lrcp+ila,j ,.4-1+-0156+j
bnnj7,,][gj[l+ch+nog+_,?b[cl,Llid_]n?JJOH=I
bnnjm7,,qqq+siono _+]ig,q[n]b;p9tZJFreMh>Q
?JJ*OH=I
HO@*OH=I
12
CNNによる距離画像の推定+SemaSegを加えることで、visual SLAMを高精度化
※ただし、既存のCNN活用(ResNet)のみ
Keisuke Tateno, et al, Canon
Takuhiro Kaneko, et al., NTT
連続的に特徴量変更を可能にするGAN
Generative Attribute Controller
他気になった論文
YOLO9000 Deep360Pilot
イメージングのアプリケーションとして活用できそうなPaper
ちなみにポスターが完全に尖っている
Joseph Redmon, et al., Washinton
リアルタイムオブジェクト検出として、圧倒的な性能。9000以上のオブジェクトカテゴリに対応
ł ”/,.5
• UKHK6---”Dihil[ f_ I_hncih =q[l
– UKHK WN_gih() ?RLN.3X
–
• fi fiff ł ”/,.5
• UKHK6---”Dihil[ f_ I_hncih =q[l
– UKHK WN_gih() ?RLN.3X
–
• fi fiff
かなり細かくアーキテクチャを評価、最適化している
360度全周映像から、ユーザーの好みを切り出し、ベストビュー映像を作る。
Hou-Ning Hu, et al., ThingHua, NVIDIA
Sports-360 Datasetも同時に公開
他気になった論文
Lip Reading Video2Shop
イメージングには直接関係なさそうだが、アプリケーションとしては面白いPaper
Joon Son Chung, et al., Oxford, DeepMind
読唇術。プロを上回る性能を実現。
画像をCNNで認識し、LSTMで時系列につなげて、アウトプットを出力
Fiih Oih ?boha) =hl_q O_hcil) Klcif Rchs[fm) =hl_q Vcmm_lg[h) yHcj
N_[ cha O_hn_h]_m ch nb_ S cf) ch ?RLN/-.4+%Kl[f&
G_sqil m7 ?JJ) HOPI) Hcj l_[ cha
”
ffi
” S H=O
” °
” .-
HNO,
ffl 7 HNO ffl
S H=O >>?
ff
á
%ch nb_ S cf
Hchem
bnnj7,,ij_h[]]_mm+nb_]p+]ig,]ihn_hnZ]pjlZ/-.4,j[j_lm,
?bohaZHcjZN_[ chaZO_hn_h]_mZ?RLNZ/-.4Zj[j_l+j
.2
Zhi-Qi Cheng, et al., Alibaba
Vbc*Mc ?b_ha ) Tc[i S o ) U[ha Hco ) Tc[h*Ob_ha Do[) yRc_i/Obij7 Ar[]n
I[n]bcha ?finb_m ch Rc_im ni Khfch_ Obijjcha Eg[a_m) ch ?RLN)
/-.4+jimn_l
G_sqil m7 ihfch_ mbijjcha pc_i ?finbcha l_nlc_p[f g[n]bcha
ł
Eg[a_ B_[nol_ J_nqile”EBJ
ffi
fmng
g[n]bcha
mnl__n*ni*mbij g[n]bcha
g[n]bcha á
pc_i*ni*mbij
]limm*ig[ch miol]_m
Hchem
bnnj7,,ij_h[]]_mm+nb_]p+]ig,]ihn_hnZ]pjlZ/-.4,
j[j_lm,
?b_haZRc_i/ObijZAr[]nZI[n]bchaZ?RLNZ/-.4Zj[j_l+
j
50
Videoの服装を検出(ImageFeatureNetwork)し、似たような服装をオンラインショッピング上で見つけ出す(SimilalityNetwork)手法。AlibabaらしいPaper。
他気になった論文
Emotion Recognition Modeling Audience Reactions
単純な興味として面白いPaper
Ronak Kosti, et al., MIT
顔情報だけでなく、画像全体のContextを同時に見ることで、Contextを考慮した感情認識を実現。カテゴリーも26と豊富。
Zhiwei Deng, et al., Disney Research
顔の特徴量状態をVAEにてマッピング→映画を見ている人のリアクションに応用
今後は映画を見ているだけで客のリアクションが分析され、マーケティング応用されちゃうのか?
Tutorial■Theory and Application of Generative Adversarial Network 会場は満席!
一方、Anomaly Detectionの会はガラガラニューラルネットワークを期待していたが、そうではなかった。
私の研究テーマの1つでもあるGenerative Adversarial NetworkのTutorialに参加。会場は満席、注目度の高さが伺えた。
Taxonomy of generative models
30
Maximum
likelihood
Explicit density
Trackable
density
Approximate
density
Implicit density
GANs
VAEsPixelCNNs
Slide credit Goodfellow 2016
GAN含めた生成モデルの俯瞰
Improve GAN training
52
Tricks
• Label smoothing
• Historical batches
• …
Surrogate or auxiliary objective
• UnrolledGAN
• WGAN-GP
• DRAGAN
• …
New objectives
• EBGAN
• LSGAN
• WGAN
• BEGAN
• fGAN
• …
Network architecture
• LAPGAN
• …
Mode Collapseと呼ばれるGAN特有の学習の難しさについて触れ、トレーニングの改善方法について、最新研究を基に紹介。
https://github.com/mingyuliutw/cvpr2017_gan_tutorial発表資料 by Ming Yu Liu
企業ブーススポンサー企業がデモ、リクルーティングをするブース。とにかく大規模会場。リクルーティング目的で、Tシャツやボールペンなど、ノベエルティを配って、メンバー登録をさせるという手法がほとんど。私もいろいろもらった。日本企業は少なく3社。アメリカ50%, 中国40%, 韓国10%といった感じ。
AR/VR/MR
Facebook, Microsoft, Snap等、本領域に本気の企業は、体験デモ含めて、展示。Computer Visionで大きく化ける可能性のある領域。
Autonomous Driving
Tesla, Toyota(TRI)等の大手、Uber, Lyft等のライドシェア、中国企業も含めて、最大規模の展示数。単眼カメラでの自動運転や、ドローンの展示が印象的。
Hardware
Nvidiaは圧倒的なGPUの力を存分に示した。Intelは子会社MovidiusのNeural Compute Stickを先行発売。(次ページ参照)
Vision2Shop
個人的に伸びる気がしているのは、ここ。映像から商品につなげたり、手に取った商品を認識するAmazonGoなど。Amazon, Alibabaが強い領域。ファッションを分析するAmazon Echo Lookは面白い!
Neural Compute Stick
第一回は初日に即売り切れ。第二回の販売で購入したが、この大行列。しかも、1人1個までという品薄状態。
USB3.0につなぐだけで高速なDeep Learning処理を実行可能とするデバイスが、CVPR会場にて先行販売。参加者はマニアが多いせいか、大反響だった。私も1つ購入。
Neural Compute Stick・Intel買収のMovidius製・$75・基本的なCaffeモデル使用可能・OSはUbuntu・Rasberry PiやDrone等での動作を想定
まとめ
• CVPRの注目度は昨今のAIブームで想像以上に高まっていた。• 学会がリクルーティングの場と化していた。• トレンドとして、以下を見た。
• 基本はDeep Learningを活用した発表がほとんど• ただし、傾向としては認識、検出からより高度なものに変わって来ている
• Architectureとして、Adversarial Learningが大きく活用されている• 大きいデータの活用から、小さいデータやラベルなしデータに対する取り組みへの変化
• 3Dや動画といった次元の増加• 1つのネットワークで複数をこなすマルチタスク化
EOF