image-to-image translation with conditional adversarial networksの紹介
TRANSCRIPT
![Page 1: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/1.jpg)
Image-to-Image Translation with Conditional Adversarial
Networks論文紹介
Twitter:@UMU____
![Page 2: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/2.jpg)
何の論文か?
• 画像から画像への変換を行う方法がたくさん開発されてきた.
![Page 3: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/3.jpg)
何の論文か?
• たくさんの手法がある中で,手法の役割/効果について研究.
![Page 4: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/4.jpg)
生成した画像の紹介
• 論文参照(多いので)
https://arxiv.org/pdf/1611.07004.pdf
![Page 5: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/5.jpg)
目次
• GAN
• cGAN
• Encoder-Decoder vs U-Net
• Patch-GAN
• L1 vs cGAN vs L1+cGAN
![Page 6: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/6.jpg)
• 敵対的生成ネットワーク(Generative Adversarial Networks).
• G:画像を生成する.
• D:画像が本物かどうか判別する.
GAN
![Page 7: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/7.jpg)
GAN
• Lは,Gが生成した画像と,本物の画像を,それぞれ,Dが「Gが生成した」,Dが「本物の画像だ」と判別できた頻度が高いほど,大きな値を取る.
損失関数Lを,
• Dの重みは,最大化するように学習.
• Gの重みは,最小化するように学習.
→敵対的生成ネットワーク.
![Page 8: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/8.jpg)
GAN
• 学習時にはDとGを学習させ,使用時にはGを用いて画像を生成する.
![Page 9: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/9.jpg)
cGAN
• GANは,Gの入力値として高次元のランダム値を使用していた.
• cGAN(conditional-GAN)は,GとDの入力値にお手本画像を与える.
→このようにすることで,お手本画像と本物の画像の関係性に基づいた画像を,生成できる.
![Page 10: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/10.jpg)
Encoder-Decoder vs U-Net
• Gでは,お手本画像をもとに画像を生成する.
• E-Dモデル(左)では,Convolution層でどんどん画像が畳み込まれて,生成(DeConvoluton)
するときにはお手本画像のどの部分のピクセルを生成すべきなのかという情報が失われる.
• U-Netでは,層を飛び越えて接続することで,これを解決.
Gの中身
![Page 11: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/11.jpg)
Encoder-Decoder vs U-Net
• E-DよりもU-Netの方が,良い結果を与える.
![Page 12: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/12.jpg)
Patch-GAN
• Patch-GANは,Dによって画像が本物かどうかを識別するときに,画像の全体を見るのではなく,局所領域を見て本物かどうかを判定する.
→これによって,画像の低周波成分の妥当性より,高周波成分の妥当性が確保される.
Dに入力する局所領域の大きさによって生成画像の性質が変化する.
![Page 13: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/13.jpg)
Patch-GAN
• Dに入力する局所領域の大きさについて
局所領域を小さくしていくと,全体的な妥当性が失われる.
局所領域を大きくしていくと,局所的な妥当性が失われる
局所領域が大きいと学習すべきパラメータが増大するという問題点もあり
局所領域が小さいとColorful
![Page 14: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/14.jpg)
L1 vs cGAN vs L1+cGAN
![Page 15: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/15.jpg)
L1 vs cGAN vs L1+cGAN
• 損失関数にL1正規化項を入れることで,全体的な妥当性(低周波領域での妥当性)が確保される.
• cGANでは(PatchGANの導入によって)高周波成分の妥当性が確保される
→cGANにL1正規化を追加し,
局所的・全体的に妥当性を生む.
※Semantic segmentationなどのhigh detailedな画像が要求されない場合は,L1正規化のみの方が良い.
![Page 16: Image-to-Image Translation with Conditional Adversarial Networksの紹介](https://reader031.vdocuments.net/reader031/viewer/2022030306/58d1ac431a28ab6f6b8b6753/html5/thumbnails/16.jpg)
まとめ
• GANを用いた画像生成で用いられる様々な手法を評価し,良い構成方法を検討した.