cvpr 2017 報告

CVPR 2017報告

8/25/2017

Agenda

•概要

•トレンド

•気になった論文

•ワークショップ

•その他

•まとめ初参加だったため、去年と比べて〇〇ということはなく、トレンド等ずれている部分もあるかもしれませんが、私の感じたこと、面白かった論文紹介を中心に、報告します。また、Computer Visionの専門家ではないが、少しは知っているというレベル感で書いています。（論文紹介は概要のみ）もし、もう少し深く突っ込みたい内容あれば、聞いてください。

概要

・学会名: Computer Vision and Pattern Recognition (CVPR)コンピュータービジョン界おけるトップカンファレンス

・日程、場所7//21 〜 7/26 @ Hawaii Convention Center, Honolulu, HI

・参加者: 4000人以上・論文応募数: 2680うち通過論文: 783（採択率: 29%）うちOral: 71 (2.95%), Spotlight: 144 (8%)・22〜25がメインカンファレンス・21,26はWorkshop, Tutorial・みんなTシャツ短パン

・昨今のAIブームでとんでもない規模感・Oralは3000人程度の前で実施・ポスターの数も見切れないほど

・企業ブースも多数あり、皆リクルーティングに必死

■学会について

Oralの様子

Oral, Spotlightはビデオありhttps://www.youtube.com/channel/UC0n76gicaarsN_Y9YShWwhw

https://www.youtube.com/channel/UC0n76gicaarsN_Y9YShWwhw

概要

■圧倒的な注目度

CVPR2010 Sponsors CVPR2017 Sponsors

企業スポンサーの数を見ても、現在のCVに対する注目度の高さがうかがえる

トレンド

①よくも悪くもDeep Learning →ただし、傾向は変わってきている？

90%程度の発表はすべて、Deep Learningを活用したものばかり

認識検出ポーズ推定視線推定生成アテンションキャプショニングスタイルセグメンテーション3D推定アクション認識・・・

VGGResNetGANAuto EncoderRNNLSTMGRURL・・・

@JJ ”1,5

•

– /-.1 ł

– ” N_mco[f J_nqile

AlexNet [Krizhevsky+, ILSVRC2012]

VGGNet [Simonyan+, ILSVRC2014]

GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015]

ResNet [He+, ILSVRC2015/CVPR2016]

ILSVRC2012 winnerfiDL

16/19 fideeper

ILSVRC2014 winnerfi22

ILSVRC2015 winnerfi 152 ( 103+ )

@JJ ”3,5

•

– C=J7 fiC_h_l[nil”C

@cm]lcgch[n_l”@

– @MJ7

bnnjm7,,qqq+mfc_mb[l_+h_n,hgbe[bh,a_h_l[ncp_*[ p_lm[lc[f*

h_nqile*f[jf[]c[h*jsl[gc*a[h

ベースとなっているネットワーク構造自体は大きく変わらず、どこにどのように適用するか！が鍵となっている

トレンド

①よくも悪くもDeep Learning →ただし、傾向は変わってきている？

Label付きBig Data → 認識、検出というタスクはほぼ終了より高度なタスクへ移行している

Label付きBig Data

計算量さえ気にしなければ技術的にシュリンク

より高度化・Small Data・判断ではなく作り出す・動画、3D・マルチ化

猫！

トレンド

②中でも熱いDeep learning Architectures

■Adversarial Learning

アウトプットが画像のタスク(作り出す系、変換系)はだいたいAdversarial

SRGAN pix2pix

通常のロスに加え、DiscriminatorによるReal/Fakeのロスを加えることで、超解像の性能を向上

Christian Ledig, et al, twitter Phillip Isola, et al, UCB

画像の変換をGANで学習ColorizationやMap変換等、複数のタスクに応用

Ucdoh Hc) Oc_c Hco) Fcg_c U[ha) [h Icha*Dmo[h U[ha) yC_h_l[ncp_ B[]_

?igjf_ncih) ch ?RLN) /-.4

G_sqil m7 B[]_ ]igjf_ncih) @__j a_h_l[ncp_ gi _f) N_]ihmnlo]ncih fimm) = p_lm[lc[f fimm

@__j

a_h_l[ncp_ gi _f fl

fi fl

fl

fi á O_ag_hn[ncih fi

@cm]lcgch[nil fl

Himm”l_]ihmnlo]ncih fimmfinqi [ p_lm[lc[f fimm_mfi

m_g[hnc] j[lmcha fimm fl

Hchem 7 bnnjm7,,[lrcp+ila,j ,.4-1+-2505+j

45

トレンド


■Adversarial Learning

SimGAN DR GAN

Deep Face Completion

AppleがPaperを出したことでも有名。シミュレーション画像をリアルに。

ポーズを潜在変数に加えることで、ポーズを自在に変換可能とする

Luan Tran, et al, Michigan=mbcmb Oblcp[mn[p[) Pig[m Lzmn_l) Kh]_f Pot_f) Fimb Oommech) S _h[

S [ha) Nomm S _ ) yH_[lhcha lig Ocgof[n_ [h Qhmoj_lpcm_ Eg[a_m

nblioab = p_lm[lc[f Pl[chcha) ch ?RLN) /-.4+ %il[f&

G_sqil m7 Oshnb_nc] @[n[) Qhmoj_lpcm_) = p_lm[lc[f Pl[chcha

ffi fl fl

fl fi fl

C=J = p_lm[lc[f Pl[chchafl

ł N_zh_l fiN_zh_

@cm]lcgch[nil fl fi

áá fl

%Ocgof[n_(Qhmoj_lpcm_ H_[lhcha&

N_zh_ ö

ł C=J

Hchem

bnnj7,,ij_h[]]_mm+nb_]p+]ig,]ihn_hnZ]pjlZ/-.4,j[j_lm,Oblcp[mn[p[ZH_[lhchaZBligZOcgof[n_Z?RLNZ/-.4Zj[j_l+j

.3

顔の欠損部分を再構成するYijun Li, et al, Adobe

Ashish S., et al, apple

※Best Paper

トレンド


■New Architectures

Feedback Networks

ResNetのSkip ConnectionはもはやDefault →次なる気になるArchitectures

DenseNet Gao Huang, et al, Cornel, facebook

SkipConnectionを各層に入れるDenseNet。小パラメータで高精度な結果を実現

※Best Paper

通常のCNNをLSTM構造にすることで、収束の高速化、分類の細分化等を実現する

ResNetの不要な層を取り払うため、Halting Scoreを用いて途中でSTOPする構造

Amir Zamir, et al, Stanford SACT for ResNet Michael F., et al, CMU, Google

トレンド

③ラベルデータに対するアプローチ

大量のデータにラベルをつけるのは困難、ラベルが追加になったらどうする？等々、データセットに対するアプローチ

Gihmn[hnchim >iomgfcm) J[nb[h Ocf_lg[h) @[pc @ib[h) @ogcnlo Alb[h)

@cfcj Glcmbh[h) yQhmoj_lpcm_ Lcr_f*H_p_f @ig[ch = [jn[ncih qcnb

C_h_l[ncp_ = p_lm[lc[f J_nqilem) ch ?RLN ) /-.4+ %il[f&

G_sqil m7 C=J) @ig[ch = [jn[ncih) =onig[nc] @[n[ ?l_[ncih

ffl

ff

ł

ffl C=J”

ł

”C=J

ff IJEOP”

Hch_Ii ”0

ł

”?=@ ł Oshnb_nc] [n[

ł

On[n_*i*nb_*[ln

ł á

Hchem bnnjm7,,[lrcp+ila,j ,.3./+-21/1+j

IJEOP Hch_Ii

3 Unsupervised pixel level domain adaptation with GAN

容易に作成が可能なデータ(シミュレーション等)から、実世界の画像をラベル付きで生成する。

Konstantinos B., et al, google

Learning by AssociationPhilip Haeusser, et al, google

同様のラベルは非常に似たベクトルになるように各画像のEmbeddingベクトルをCNN学習する半教師学習手法

他にも、Self-supervisedやWeakly supervisedも

トレンド

④次元の増加 (動画、3D化)

2D画像→ 3D or動画へ、難しいタスクへの移行が進んでいる

ł ”.4,.5

• K]nJ_n”Kl[f

– 0 K]nl__ ffl ff ff

– ?ihpifoncih,Qjm[gjf_

OctNet Gernot Riegler, et al., ETH

3Dならではの難しさとして、物体がスパースになるという問題あり→ Octreeを活用して畳み込み

Semantic Scene Completion

3Dにすると、カメラで捉えられない部分の再生が必要になってくる。

Shuran Song, et al., Princeton

Goi *D[ i V_ha) Obcb*D[h ?bi o Bo*Dmc[ha ?b[h Fo[h ? [ l fi m J c_ f_m) I ch Ooh )y=a_hn*?_hnl c] Ncme =mm_mmg _hn7=hnc]cj [nci h [h Ncmes N_aci h Hi ][ fct[nci h ) ch ?RLN) / - . 4+

3/

G_sq i l m7 l cme _mncg [nci h) l cme [hnc]cj [nci h

[a_hn*]_hnl c] ) ) [a_hn

[ j j _l [h]_ ) Ncme g [ j Ncme g [ j [ j j _l [h]_ [a_hn

[a_hn [ j j _l [h]_

HOPI) cg [ach_ )

[a_hn ) )

Bonol _ l cme j l _ c]nci h

[a_hn ) cg [ach_ [a_hn

) Onl__n =]]c _hn %O=& [n[m_n ) Aj c] B[cf %AB& [n[m_n ) Aj c] B[cf %AB& [n[m_n

Hchembnnj m7,,[ l r cp+i l a,[ m,. 4- 2+- 323-

[a_hn) B[mn_l*N?J J ) [ j j _l [h]_ Cfi [ f =p* _l [a_ Li i fcha

) Aj c] B[cf %AB& [n[m_n Pcg _ ni [ ]]]c _hn _h

ni _h^ ł

Agent-Centric Risk AssessmentKuo-Hao Zeng, et al., Stanford

ビデオでの危険因子の領域と時刻推定。動画では、時系列によりネットワークの複雑化が必須となる。

トレンド

⑤マルチタスク

1つのネットワークで様々なタスクをこなす万能ネットワークはこれから熱いか？

Iasonas Kokkinos, facebookUberNet

それぞれのタスクを同時に学習できるLoss関数、省メモリ化の取り組みにより、7つのタスクを同時にこなすネットワークを提案

企業のPaper

企業のPaperから企業の今後の動きが見える

■Snap

Image to Textまわりで3本→写真描写型スタンプやチャットが次の機能か？

Vbio N_h) Tc[iso S [ha) Jcha Vb[ha) Ton[i Hp) Hc*Fc[ Hc) y@__j

N_chil]_g_hn H_[lhcha*[m_ Eg[a_ ?[jncihcha qcnb Ag _ cha

N_q[l ) ch [lTcp .4-1+-0566) /-.4 %?RLN/-.4&+

/3

G_sqil m7 ?JJ) HOPI) Eg[a_ ?[jncihcha) N_chil]_g_hn H_[lhcha

?[jncihcha ł fl

?JJ HOPI ?[jncihcha ł fiHOPI

al__s

fl

Lifc]s J_nqile %?JJ HOPI&

%fi][f& R[fo_ J_nqile l_q[l

%afi [f&

l_q[l ł × fl

l_q[l Rcmo[f*O_g[hnc]

Ag _ cha ff

flmn[n_*i*nb_*[ln fl

Eg[a_ ?[jncihcha

Rcmo[f*O_g[hnc] Ag _ cha N_q[l

Hchem

bnnjm7,,[lrcp+ila,j ,.3-3+-444-+j

Deep RL for image CaptioningZhou Ren, et al., Snap, Google

強化学習を用いて、Reward Max学習をすることで高精度なキャプショニングを達成

Dense Captioning Linjie Yang, et al., Snap, Google

Generating diverse questions

Unnat Jain, et al., Snap

企業のPaper


■AdobePhotoshop系の技術はこれからどんどん進化しそうな勢い。逆に言えば、ポストプロダクションで多くのことができるようになる時代

Deep Image Synthesis

L[nmilh O[haefis) Fchaq[h Ho) ?b_h B[ha) Bcmb_l Uo) F[g_m D[sm)

yO]lc f_l7 ?ihnliffcha @__j Eg[a_ Oshnb_mcm S cnb Oe_n]b [h ?ifil)

ch) ?RLN) /-.4+

G_sqil m7 cg[a_ a_h_l[ncih) me_n]b) om_l chn_l[]ncp_) C=J

ff

fi ff ff fi

fi fi

fl ö

fi ö

ff fl

fi ł á

fl

ff

ö

Hchem

bnnj7,,ij_h[]]_mm+nb_]p+]ig,]ihn_hnZ]pjlZ/-.4,

j[j_lm,

O[haefisZO]lc f_lZ?ihnliffchaZ@__jZ?RLNZ/-.4Zj[j_

l+j

.-.

Patsorn Sangkloy, et al., Adobe

スケッチに色付け。

Jcha To) >lc[h Llc]_) O]inn ?ib_h) Pbig[m Do[ha) y@__j Eg[a_ I[nncha)

ch ?RLN) /-.4+ %il[f&

/.

G_sqil m7 Eg[a_ I[nncha) Ah]i _l*@_]i _l

Eg[a_ I[nncha”

” ff

@JJ Ah]i _l*@_]il _l

[fj[b g[nn_”

mg[ff @JJ Plcg[j” il_alioh, []ealioh,

ohehiqh ł

á

ohehiqh Plcg[j

ł

Hchem bnnjm7,,[lrcp+ila,j ,.4-0+-054/+j

Deep Image Matching

背景の切り出し。

Neural Face Editing

FaceApp的な。

Zhixin Shu, et al., Adobe

Ning Xu, et al., Adobe

もちろん全部Deep Learningの力

企業のPaper


■Twitter■Apple

Super Resolution機能が充実しそうARモデル等の生成なのか？データ拡張的役割として使うのか

SimGAN

=mbcmb Oblcp[mn[p[) Pig[m Lzmn_l) Kh]_f Pot_f) Fimb Oommech) S _h[

S [ha) Nomm S _ ) yH_[lhcha lig Ocgof[n_ [h Qhmoj_lpcm_ Eg[a_m

nblioab = p_lm[lc[f Pl[chcha) ch ?RLN) /-.4+ %il[f&

G_sqil m7 Oshnb_nc] @[n[) Qhmoj_lpcm_) = p_lm[lc[f Pl[chcha

ffi fl fl

fl fi fl

C=J = p_lm[lc[f Pl[chchafl

ł N_zh_l fiN_zh_

@cm]lcgch[nil fl fi

áá fl

%Ocgof[n_(Qhmoj_lpcm_ H_[lhcha&

N_zh_ ö

ł C=J

Hchem

bnnj7,,ij_h[]]_mm+nb_]p+]ig,]ihn_hnZ]pjlZ/-.4,j[j_lm,Oblcp[mn[p[ZH_[lhchaZBligZOcgof[n_Z?RLNZ/-.4Zj[j_l+j

.3

Ashish S., et al, apple

SRGAN

Christian Ledig, et al, twitter

Real time super resolution Jose Caballero, et al, twitter

企業のPaper


■Google, facebook

体力のあるこの２社は、幅広く基礎から応用までやっている

また、彼らは自分たちのライブラリ(tensorflow, pytorch)の普及も一つ目的であるため、Citationが伸びそうなpaperにも注力していると考えられる。

注目度の高かった以下2つはfacebokから

Image Compression

George Toderici, et al, Google

DenseNet UberNet

Googleは本当に幅広い

LSTM活用でjpegを超える圧縮性能

Learning by AssociationIasonas Kokkinos, facebook

Gao Huang, et al, Cornel, facebook Philip Haeusser, et al, google

日本企業/大学

日本企業のPaperは、論文が少ないのもさることながら、Deep Learning系でないものもなぜか多い

Non-contact full field vibration measurement

■Nikon

位相シフトより、非接触でバイブレーションを測定する(らしい)。

Hiroyuki Kayaba, et al., Nikon

Mihoko Shimano, et al., National institute of Informatics

Wetness and color

マルチスペクトル画像により、対象表面の濡れ具合を予想する(らしい)。

■国立情報学研究所 ■NTT

Deep LearningではないもちろんDeep LearningのPaperもあり

■Canon

CNN SLAM

G_cmoe_ P[n_hi) B__lc]i Pig [lc) Eli H[ch[) J[mmcl J[p[ ) y?JJ*OH=I7

N_[f*ncg_ _hm_ gihi]of[l OH=I qcnb f_[lh_ _jnb jl_c]ncih) ch

?RLN) /-.4+

G_sqil m7 ?JJ*OH=I) @_jnb Ll_c]ncih

OH=I ?JJ

Iihi*OH=I” OH=I

Iihi*OH=I ff

?JJ

ł ffl ö

OH=I ?JJ

ff

”

ffl ö OH=I

Hchem

bnnjm7,,[lrcp+ila,j ,.4-1+-0156+j

bnnj7,,][gj[l+ch+nog+_,?b[cl,Llid_]n?JJOH=I

bnnjm7,,qqq+siono _+]ig,q[n]b;p9tZJFreMh>Q

?JJ*OH=I

HO@*OH=I

12

CNNによる距離画像の推定＋SemaSegを加えることで、visual SLAMを高精度化

※ただし、既存のCNN活用(ResNet)のみ

Keisuke Tateno, et al, Canon

Takuhiro Kaneko, et al., NTT

連続的に特徴量変更を可能にするGAN

Generative Attribute Controller

他気になった論文

YOLO9000 Deep360Pilot

イメージングのアプリケーションとして活用できそうなPaper

ちなみにポスターが完全に尖っている

Joseph Redmon, et al., Washinton

リアルタイムオブジェクト検出として、圧倒的な性能。9000以上のオブジェクトカテゴリに対応

ł ”/,.5

• UKHK6---”Dihil[ f_ I_hncih =q[l

– UKHK WN_gih() ?RLN.3X

–

• fi fiff ł ”/,.5

• UKHK6---”Dihil[ f_ I_hncih =q[l

– UKHK WN_gih() ?RLN.3X

–

• fi fiff

かなり細かくアーキテクチャを評価、最適化している

360度全周映像から、ユーザーの好みを切り出し、ベストビュー映像を作る。

Hou-Ning Hu, et al., ThingHua, NVIDIA

Sports-360 Datasetも同時に公開


Lip Reading Video2Shop

イメージングには直接関係なさそうだが、アプリケーションとしては面白いPaper

Joon Son Chung, et al., Oxford, DeepMind

読唇術。プロを上回る性能を実現。

画像をCNNで認識し、LSTMで時系列につなげて、アウトプットを出力

Fiih Oih ?boha) =hl_q O_hcil) Klcif Rchs[fm) =hl_q Vcmm_lg[h) yHcj

N_[ cha O_hn_h]_m ch nb_ S cf) ch ?RLN/-.4+%Kl[f&

G_sqil m7 ?JJ) HOPI) Hcj l_[ cha

”

ffi

” S H=O

” °

” .-

HNO,

ffl 7 HNO ffl

S H=O >>?

ff

á

%ch nb_ S cf

Hchem

bnnj7,,ij_h[]]_mm+nb_]p+]ig,]ihn_hnZ]pjlZ/-.4,j[j_lm,

?bohaZHcjZN_[ chaZO_hn_h]_mZ?RLNZ/-.4Zj[j_l+j

.2

Zhi-Qi Cheng, et al., Alibaba

Vbc*Mc ?b_ha ) Tc[i S o ) U[ha Hco ) Tc[h*Ob_ha Do[) yRc_i/Obij7 Ar[]n

I[n]bcha ?finb_m ch Rc_im ni Khfch_ Obijjcha Eg[a_m) ch ?RLN)

/-.4+jimn_l

G_sqil m7 ihfch_ mbijjcha pc_i ?finbcha l_nlc_p[f g[n]bcha

ł

Eg[a_ B_[nol_ J_nqile”EBJ

ffi

fmng

g[n]bcha

mnl__n*ni*mbij g[n]bcha

g[n]bcha á

pc_i*ni*mbij

]limm*ig[ch miol]_m

Hchem

bnnj7,,ij_h[]]_mm+nb_]p+]ig,]ihn_hnZ]pjlZ/-.4,

j[j_lm,

?b_haZRc_i/ObijZAr[]nZI[n]bchaZ?RLNZ/-.4Zj[j_l+

j

50

Videoの服装を検出(ImageFeatureNetwork)し、似たような服装をオンラインショッピング上で見つけ出す(SimilalityNetwork)手法。AlibabaらしいPaper。


Emotion Recognition Modeling Audience Reactions

単純な興味として面白いPaper

Ronak Kosti, et al., MIT

顔情報だけでなく、画像全体のContextを同時に見ることで、Contextを考慮した感情認識を実現。カテゴリーも26と豊富。

Zhiwei Deng, et al., Disney Research

顔の特徴量状態をVAEにてマッピング→映画を見ている人のリアクションに応用

今後は映画を見ているだけで客のリアクションが分析され、マーケティング応用されちゃうのか？

Tutorial■Theory and Application of Generative Adversarial Network 会場は満席！

一方、Anomaly Detectionの会はガラガラニューラルネットワークを期待していたが、そうではなかった。

私の研究テーマの1つでもあるGenerative Adversarial NetworkのTutorialに参加。会場は満席、注目度の高さが伺えた。

Taxonomy of generative models

30

Maximum

likelihood

Explicit density

Trackable

density

Approximate

density

Implicit density

GANs

VAEsPixelCNNs

Slide credit Goodfellow 2016

GAN含めた生成モデルの俯瞰

Improve GAN training

52

Tricks

• Label smoothing

• Historical batches

• …

Surrogate or auxiliary objective

• UnrolledGAN

• WGAN-GP

• DRAGAN

• …

New objectives

• EBGAN

• LSGAN

• WGAN

• BEGAN

• fGAN

• …

Network architecture

• LAPGAN

• …

Mode Collapseと呼ばれるGAN特有の学習の難しさについて触れ、トレーニングの改善方法について、最新研究を基に紹介。

https://github.com/mingyuliutw/cvpr2017_gan_tutorial発表資料 by Ming Yu Liu

https://github.com/mingyuliutw/cvpr2017_gan_tutorial

企業ブーススポンサー企業がデモ、リクルーティングをするブース。とにかく大規模会場。リクルーティング目的で、Tシャツやボールペンなど、ノベエルティを配って、メンバー登録をさせるという手法がほとんど。私もいろいろもらった。日本企業は少なく3社。アメリカ50%, 中国40%, 韓国10%といった感じ。

AR/VR/MR

Facebook, Microsoft, Snap等、本領域に本気の企業は、体験デモ含めて、展示。Computer Visionで大きく化ける可能性のある領域。

Autonomous Driving

Tesla, Toyota(TRI)等の大手、Uber, Lyft等のライドシェア、中国企業も含めて、最大規模の展示数。単眼カメラでの自動運転や、ドローンの展示が印象的。

Hardware

Nvidiaは圧倒的なGPUの力を存分に示した。Intelは子会社MovidiusのNeural Compute Stickを先行発売。(次ページ参照)

Vision2Shop

個人的に伸びる気がしているのは、ここ。映像から商品につなげたり、手に取った商品を認識するAmazonGoなど。Amazon, Alibabaが強い領域。ファッションを分析するAmazon Echo Lookは面白い！

Neural Compute Stick

第一回は初日に即売り切れ。第二回の販売で購入したが、この大行列。しかも、1人1個までという品薄状態。

USB3.0につなぐだけで高速なDeep Learning処理を実行可能とするデバイスが、CVPR会場にて先行販売。参加者はマニアが多いせいか、大反響だった。私も1つ購入。

Neural Compute Stick・Intel買収のMovidius製・$75・基本的なCaffeモデル使用可能・OSはUbuntu・Rasberry PiやDrone等での動作を想定

まとめ

• CVPRの注目度は昨今のAIブームで想像以上に高まっていた。• 学会がリクルーティングの場と化していた。• トレンドとして、以下を見た。

• 基本はDeep Learningを活用した発表がほとんど• ただし、傾向としては認識、検出からより高度なものに変わって来ている

• Architectureとして、Adversarial Learningが大きく活用されている• 大きいデータの活用から、小さいデータやラベルなしデータに対する取り組みへの変化

• 3Dや動画といった次元の増加• 1つのネットワークで複数をこなすマルチタスク化

cvpr 2017 報告

Technology