divergence optimization based on trade-off between separation and extrapolation abilities in...
DESCRIPTION
音楽信号を対象とした音源分離に関する研究をしています. 今回の学会発表では,ステレオ信号を対象として音源の方位情報を用いた分解と音源毎の音色の違いを用いた分解を組み合わせた ハイブリッドな分解手法について提案しました.また,本手法にのみ確認される通常と異なる固有の現象について仮説をたて実験的な実証を行いました.TRANSCRIPT
Divergence optimization based on trade-off between
separation and extrapolation abilities in
superresolution-based nonnegative matrix factorization
超解像型非負値行列因子分解における分離性能と外挿能力の
トレードオフに基づく最適なダイバージェンスの検討
☆北村大地, 猿渡洋, 中村哲
(奈良先端科学技術大学院大学)
高橋祐, 近藤多伸
(ヤマハ株式会社)
• 音源分離: 複数の音源から成る混合音から特定の音源を分離
• 非負値行列因子分解(nonnegative matrix factorization: NMF)[Lee, 2001]
– スパース分解表現による特徴量抽出手法
• 一般に各音源毎に基底を選別することは困難
• 目的音源の基底を学習する教師ありNMF [Smaragdis, 2010], [Yagi, 2012]
背景: 非負値行列因子分解による音源分離
Amplitude
Am
plit
ud
e
観測スペクトログラム 基底スペクトル行列
アクティベーション行列
Time
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底数
Time
Freq
uen
cy
Freq
uen
cy
2
本発表における目的
• 頑健なマルチチャネル信号分離手法として,超解像型教師ありNMF及びそのハイブリッド手法を提案 [Kitamura, 2013]
3
L R
方位に関する分解
超解像型
教師ありNMF
超解像型教師ありNMFに関して,コスト関数をパラメトリックに拡張した一般化アルゴリズムを提案する
「スパース分解表現」と「教師による超解像処理」が統合された技術において,最適なコスト関数がどのようなメカニズムで決まるかを明らかにする
従来法:教師ありNMFによる音源分離
• 分離したい目的音の教師(サンプル)音を事前に学習
• 学習プロセスで教師スペクトル基底(dictionary) を作成
• 分離プロセスで目的音 と,非目的音 に分離
分離プロセス
教師基底 を固定し,他の変数を最適化
最適化
学習プロセス
教師音から作成した教師スペクトル基底 分離目的音の教師音
4 無相関にする罰則条件
提案法:超解像型NMF及びハイブリッド手法
• 方位クラスタリング [Araki, 2007], [Miyabe, 2009]
– ステレオ信号による方位情報のクラスタリングを用いた分解手法
• ハイブリッド手法 [Kitamura, 2013]
L-c
h a
mplit
ude
R-ch amplitude
:音源成分 :重心ベクトル Right cluster
L R
Center cluster Left cluster
L R
方位クラスタリング
方位情報を用いた分解 スペクトル情報を用いた分解 5
超解像型
教師ありNMF
• 前段: 方位クラスタリング
– スペクトログラム上でのハードクラスタリング
• 後段: 超解像型教師ありNMF [Kitamura, 2013]
– 前段処理によって生成されるバイナリマスク を用いる
– 欠落したグリッドを無視し,残った成分だけに教師ありNMFを適用
– 欠落した目的音源成分は教師スペクトルによって外挿され復元
– 同一方位に存在する非目的音源成分を分離
提案法:超解像型NMF及びハイブリッド手法
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
Time F
req
ue
ncy
Time
Fre
qu
en
cy
: 欠落
Time 要素毎の積
Fre
qu
en
cy 入力スペクトログラム バイナリマスク 分離された目的クラスタ
目的
方位成分
非目的
方位成分
6
提案法:超解像型NMF及びハイブリッド手法
Center Right Left Direction
sou
rce
co
mp
on
en
t
z
(b)
Center Right Left Direction
sou
rce
com
po
nen
t (a) 目的音源
Center Right Left Direction
sou
rce
com
po
nen
t (c) 外挿された
目的音源成分 Fr
eq
ue
ncy
of
Freq
uen
cy o
f Fr
equ
ency
of
After
Input
After
signal
directional clustering
super- resolution- based SNMF
方位クラス
タリング
方位クラス
タリング
超解像型
教師ありNMF
超解像型
教師ありNMF
バイナリマスク
7
Time
Fre
qu
en
cy 入力スペクトログラム
目的
方位成分
非目的
方位成分
Time
Time
Fre
qu
en
cy
外挿して復元
Fre
qu
en
cy
: 欠落
分離された目的クラスタ
復元された目的成分
教師スペクトル基底
教師基底外挿における正則化
• 欠落が極端に多いフレームでは外挿誤りを起こす危険がある
• 超解像処理としての正則化が必要
8
4
3
2
1
0
F
requency [
kH
z]
43210 Time [s]
外挿誤りの例
Fre
qu
en
cy
: 欠落
目的成分がほぼ欠落したフレーム
分離された目的クラスタ
: それぞれ行列 の要素, : 論理反転,
フロベニウスノルム最小化による正則化
Time
: フロベニウスノルム
• 従来は「ユークリッド距離」と「一般化KLダイバージェンス」規準のみが検討されていた
分解モデルとコスト関数
9
分解モデル:
コスト関数(ユークリッド距離規準):
教師スペクトル基底(固定)
正則化項 罰則項
: それぞれ行列 の要素,
: 正則化項と罰則項の重み係数, : 論理反転, : フロベニウスノルム
• : -divergence関数 [Eguchi, 2001]
– パラメータ の値に応じてダイバージェンスが変化
– 特に, の時にユークリッド距離, の時に一般化KLダイバージェンス, の時に板倉-斎藤擬距離に対応
– 振幅ドメインのNMFによる
音源分離では,
程度が高精度
コスト関数の一般化
10
一般化コスト関数:
正則化項
罰則項
• コスト関数 を最小化することで変数 の反復型更新式が得られる
• 最小化問題は補助関数法を用いて解くことができる
一般化コスト関数に基づく更新式
11
更新式:
• 4つのメロディからなるステレオの混合音源を作成
• 中央に2つ,左右15°に1つずつ音源を配置
• 3種の楽器編成のMIDI信号を用意,計36パターンの平均評価値
最適距離規範の確認実験 実験条件
12
Center
1 2 3
4
Left Right
目的音源
教師用
音源信号
目的音源の音域をカバーする2オクターブの24音階
Dataset Melody 1 Melody 2 Midrange Bass No. 1 Oboe Flute Piano Trombone No. 2 Trumpet Violin Harpsichord Fagotto No. 3 Horn Clarinet Piano Cello
• その他の実験条件
• NMFコストのダイバージェンス と正則化コストのダイバージェンス のすべての組み合わせ(16通り)で実験を行い,最適な を検討
– は教師基底学習時と超解像時で常に統一
• 評価値はSDR, SIR, SARを用いる [Vincent, 2006]
最適距離規範の確認実験 実験条件
観測信号 3種のデータセット,合計36パターンのステレオMIDI信号
教師信号 目的音源と同じMIDI信号で音域をカバーする2オクターブの24音階からなる信号
分解ドメイン 振幅スペクトログラム 基底数 教師基底: 100, その他の基底: 30 重み係数 実験的に調整して定めた値
比較手法 モノラルにミックスダウンした信号に罰則条件付き教師ありNMF (PSNMF)を適用
13
SDR :分離した目的音の品質
SIR :目的音と非目的音の分離度合
SAR :一連の処理で生じた歪みの少なさ
総合的な分離精度
• 各手法における評価値の平均を算出
• 従来の教師ありNMFでは が最適だったが,超解像型教師ありNMF及びそのハイブリッド手法では が最適
– 最適なダイバージェンスがシフトしている
• 正則化コストのダイバージェンスは が極端に性能が悪く,他の値はほとんど差が無い
最適距離規範の確認実験 実験結果
14
20
15
10
5
0
SIR
[dB
]
0 1 2 3Value of
NMF
10
8
6
4
2
0
SA
R [
dB
]
0 1 2 3Value of
NMF
12
10
8
6
4
2
0
SD
R [
dB
]
0 1 2 3Value of
NMF
0
PSNMF
Proposed hybrid method (reg = 0) Proposed hybrid method (reg = 1)
Proposed hybrid method (reg = 2) Proposed hybrid method (reg = 3)
Good
Bad
15
• 超解像型教師ありNMFには2つのタスクがある
• 仮説: 音源分離と基底外挿のそれぞれのタスクにおいて最適なNMFコストのダイバージェンス が異なるのではないか?
• 正味の外挿能力を測る実験
– 正則化コストの は最適値であった1に固定して実験
最適ダイバージェンスシフトの原因の仮説
目的音源のみの信号 成分が欠落した信号 復元された信号
バイナリマスク
超解像NMF
音源の分離 教師基底を用いた外挿 超解像型
教師ありNMF
16
• 正則化コストのダイバージェンス は最適値の1に固定
• NMFコストのダイバージェンス は1よりも少し高い方が,外挿能力が高くなる
• ダイバージェンス が0に近づくと,学習された教師基底がスパースになる傾向がある
外挿能力の確認実験結果
20
15
10
5
0S
AR
[dB
]
0 1 2 3 4Value of
NMF
Good
Bad
-10
-8
-6
-4
-2
0
Am
plit
ude [dB
]
543210Frequency [kHz]
-10
-8
-6
-4
-2
0A
mplit
ude [dB
]
543210Frequency [kHz]
-10
-8
-6
-4
-2
0
Am
plit
ude [dB
]
543210Frequency [kHz]
ダイバージェンスの違いによる基底の変化
• 事前学習時において の値が小さいと,教師基底はピークとスパース性が重視され,より局所的な特徴を捉える
• 逆に事前学習において の値が大きいと,教師基底は少し滑らかになり,より大局的な特徴を捉える
17
-10
-8
-6
-4
-2
0
Am
plit
ude [dB
]
543210Frequency [kHz] Attack Sustain Release
Am
plit
ud
e
Time
Decay
Attack
Decay
Sustain Release
Am
plit
ud
e
Time
最適ダイバージェンスのトレードオフ
• 超解像型教師ありNMF及びそのハイブリッド手法における最適なダイバージェンスは音源分離能力と外挿能力のトレードオフとなる
– 振幅スペクトログラムにおける従来の教師ありNMF分離では が高性能であったが,ハイブリッド手法では が高い性能となる
-10
-8
-6
-4
-2
0
Am
plit
ude [dB
]
543210Frequency [kHz]
-10
-8
-6
-4
-2
0
Am
plit
ude [dB
]
543210Frequency [kHz]
スパース性: 強 スパース性: 弱
18
Pe
rfo
rma
nce
分離能力
総合性能
外挿能力
Value of
まとめ
• 超解像型教師ありNMFのコスト関数において,NMFコストと正則化コストを -divergenceで一般化
• 超解像型教師ありNMF及びそのハイブリッド手法における最適なダイバージェンスを実験的に確認
• 音源分離能力と教師基底外挿能力のトレードオフから,最適なダイバージェンスがシフトする現象を確認
19