[dlhacks 実装]neural machine translation in linear time

TOMOKI FUKUMA

Neural Machine Translation in Linear Time

Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, Koray Kavukcuoglu.

DL Hacks 論文紹介

・Encoder/Decoderによる翻訳をCNNを用いて行った　　→計算を並列でできるようにしつつ、単語間の関係もより長く考慮できるよう考案。・Source Networkは文章幅と等しい中間表現を作る　→RNNは文の長さに関わらず固定長（←そもそも情報量が文の長さに依存しないのはおかしい）・文字ベースの翻訳モデルでは他を圧倒しstate-of-the-artの性能を出した

「機械翻訳」モデル ”ByteNet”

ByteNetがCNNを用いるメリットByteNet RNN

CNNを用いると、並列化しやすく速い（RNNでは入力と出力の長さの線形で時間がかかる）

ひとつなぎの構造なので並列化できない

逆伝搬のコスト計算も、文章の長さには左右されず、深さのみに依存

逆伝搬のコスト計算は文章の長さに依存

長い文章中の単語間の依存性は短いpathで繋がり、より学習が容易

長い文章間の単語の依存性は学習が困難

生成される中間表現が文章の長さによって変化する中間表現のサイズが一緒

高速

時系列性

情報量

ByteNetの構造

Source Network 入力をCNN(Dilated Convolution)を用いて変換

Target Network 可変の特徴を用いて Dynamic Unfoldingで展開

Decoder

Encoder

TECHNIQUE USED IN THIS MODEL 1.Dilated Convolution

左側の何も写っていない場所はパディング

・フィルターとの積を取る相手の間隔をあける畳み込みのこと

２次元→

←１次元

TECHNIQUE USED IN THIS MODEL 1.Dilated Convolution・畳み込みにはdilationを用いることで、比較的少ない層，少ない結合で遠い場所との相関をモデリングできる

・Dilationを用いると深さを増やすに連れ指数的に需要野が広がる・Dilationのrateをレイヤー毎に1から16まで2倍しながら構成する

Dilation=1Dilation=2Dilation=3Dilation=4

TECHNIQUE USED IN THIS MODEL 2.Dynamic Unfolding

・source networkによって生成される特徴量は入力の系列と同じ長さを持つ

・ステップ毎にtarget networkはsourceの特徴量を出力しEOSが出るまで継続・sourceの特徴量の長さを出力が超える場合は対応する部分をzero-paddingする

TECHNIQUE USED IN THIS MODEL 3.Masked One-Dimension Convolution

・目標出力t=t0,t1…tnがあり、tnを予測する際はEmbeddingしたt0,t1…tn-1を用いる

・現在のtokenより先の情報が入らないように、それ以降のtokenはmaskし1d dilated convolutionする

ByteNetの構造

Source Network 入力をCNN(Dilated Convolution)を用いて変換

Target Network 可変の特徴を用いて Dynamic Unfoldingで展開

Decoder

Encoder

Model Comparison

PathsはSource Networkの長さ PathtはTarget Networkの長さ Pathが短いほど、逆方向に伝播するレイヤーの数が少なくなり、ネットワークが収束しやすくなる。

Model Comparison

Negative log-likelihood results in bits/byte on the Hutter Prize Wikipedia benchmark.

Model Comparison

BLEU scores on En-De WMT NewsTest 2014 and 2015 test sets.

[dlhacks 実装]neural machine translation in linear time

Technology