音響信号処理の基礎icaにおける様々なコスト関数 2次統計量 •...
TRANSCRIPT
音を聞き分ける耳:マイクロホンアレー
音声処理での一例:マイクロホンアレー
• 複数のマイクによって得られた複数の受音信号のなかから、必要な情報(目的音声)のみを取り出す装置
期待される応用
• 高性能な hands-free 通信
• 雑音にロバストな音声認識
⇒ではどういうアルゴリズム (ソフト)が必要なのか?
複数の異なる入力情報群から必要な要素を抽出する ⇒ 計測情報処理の基礎
実際、人間も2つの耳で聞くことによって、
音の方向や複数音の聞き分けを行っている
3
ブラインド音源分離の登場
Blind Source Separation (BSS)
• 複数の音源信号が混合されて観測された場合、観測信号のみから音源信号を自律的に推定する技術
• 目的音の方位・無音区間情報が不要
• マイク素子位置・特性情報も不要
独立成分分析(ICA)に基づくBSS
1989 J. Cardoso
1990 C. Jutten (高次無相関化)
1994 P. Comon (ICAという言葉を定義)
1995 A. Bell (infomaxによる定式化)
1998 P. Smaragdis, S. Ikeda, H. Saruwatari …
(音響信号へICAを導入)
第一世代
第二世代
4
「独立」とは何か?
数学における「独立」の定義:
• 2つの確率事象に関する同時確率密度分布
が,それぞれの事象における周辺密度分布 の積で書ける場合を「(統計的に)独立」と呼ぶ.
• つまり
),( 21 xxp
)(),( 21 xpxp
)()(),( 2121 xpxpxxp 独立
7
独立成分分析(ICA)とは何か?
独立な成分の抽出: • 複数の確率信号が混合された観測系列から,統計的に独立な個々の確率過程を分解する.
特徴: • 独立性は「無相関性」よりも厳しい尺度であり,確率信号同士の確率密度構造の幾何が問われる.よって「情報幾何学」とも呼ばれる.
• 確率密度の構造を測るために,3次以上の統計量が必要とされる.よって統計の分野では,「高次統計量数理」の一種でもある.
• 決定論的な目標値を与えずに最適化を行うことより,学習理論の分野では「教師無し学習」とも呼ばれる.
8
独立成分分析と主成分分析
主成分分析(PCA): • 複数要因の混合で表現されるものの中から,分散の大きなものの順に成分を取り出す.
• エネルギーの大きな因子を優先した成分分解法
→ エネルギーが大=影響が大と見なす
一方,独立成分分析は…
• エネルギーの大小とは無関係に,「独立」なもの同士に分解する.小さな成分でも他と独立性が高ければそれを抽出することが可能.
• 取り出される因子の順番は問わない.
互いに独立
既知
ICAに基づくBSS とは?
妨害音
目的ユーザ
マイク 1
マイク 2
おはよう
#&%¥ 観測信号 2
我々が知り得るのはこれだけ
観測信号 1 ICAによる
音源分離
出力同士が最も関係なくなるように最適化
ICAに基づくBSSの定式化
)(
)(
)(
)( 11
1
111
tx
tx
ts
ts
AA
AA
LKLKL
K
線形混合過程
混合行列 音源信号 観測信号
分離過程 分離信号 分離行列
)(
)(
)(
)( 1
1
1111
tx
tx
WW
WW
ty
ty
LKLK
L
K
独立?
コスト関数
最適化
ICAにおける様々なコスト関数
2次統計量
• 信号間相関を最小化(複数時間区間利用)
高次統計量1
• 高次相関をも最小化
高次統計量2
• 源信号確率密度関数を仮定
分離信号ベクトル: T21 )(),...,()( tytyt y
diag)()(E T tt yy
diag)()(E T3 tt yy
diag)()(E T tt yyΦ
:Φ tanh関数など
非線型関数2の導出
独立⇒Kullback Leibler Divergenceの最小化問題
• 一般にKullback Leibler Divergenceとは2分布間の距離
分離信号 の同時分布密度関数 )(ty),,()( 1 Kyypp z
K
k kypvp 1 )()(
yy
y dyp
ppWKL
K
k k
1 )(
)(log)()(
周辺分布密度関数の積
最小化
zv
zzzv d
p
ppKL
)(
)(log)(),(
上式において…
とおき,これらのKLを分離行列Wに関して最小化すれば独立
非線型関数2の導出(cont’d)
WX
xWxx
yyyWY
log)(
)log)((log)(
)(log)();(
H
dpp
dppH
xx
yyW
dypp
dyppYH
k
kk
)(log)(
)(log)();(
K
kk
K
k k
WYHWH
dyp
ppWKL
1
1
);();(
)(
)(log)()(
Y
yy
y
1. 結合エントロピー 2. 周辺エントロピー和
|)|/)()(( Wxy pp
))()(( yyxx dpdp
非線型関数2の導出(cont’d)
WX
xWxx
yyyWY
log)(
)log)((log)(
)(log)();(
H
dpp
dppH
xx
yyW
dypp
dyppYH
k
kk
)(log)(
)(log)();(
K
kk
K
k k
WYHWH
dyp
ppWKL
1
1
);();(
)(
)(log)()(
Y
yy
y
1. 結合エントロピー 2. 周辺エントロピー和
|)|/)()(( Wxy pp
))()(( yyxx dpdp
この値を最大化
⇒ 音源間の関連を無くす
この値を最小化
⇒ 個々の音を非ガウス化
非線型関数2の導出(cont’d)
1TT
T1T
T1T
)(E
)(E)(
)()()()(
WyyI
xyW
xxyWW
WW
y
x
dxpKL
に関する勾配を求め,その逆方向に を更新学習 Wの W
音声の場合はSigmoid
関数で近似可能
T
1
1 )(log...,,
)(log)(
K
K
y
yp
y
ypy
)(WKL分離信号の同時確率密度と周辺確率密度積のKL擬距離
様々なバリエーション
EMアルゴリズムによるp(y)の同時推定
二次統計量によるp(y)の推定+高次統計量ICA [Saruwatari, ICASSP2009]
ICAと音響信号処理の類似点を明らかにし、相補性を生かした高速収束アルゴリズム [Saruwatari, IEEE Trans. SAP 2003 & 2006]
教師無し最適化としてのICA
従来の教師有り最適化:目標値が与えられる
• 子育てで言えば「医者にするにはどうするか?」
• 最小化関数=∫ (医者 ー 子供の現在)2
• コスト関数が可計算、その微分勾配も可計算
ICA等の教師無し最適化:目標値が無い!
• 子育てで言えば「良い大人になりなさい!(でも具体的には?)」
• 最小化関数=div(???||子供の現在) ⇒陽に計算不可
• コスト関数は可計算ではないが、その勾配は可計算
• 独立性自体をデータから測ることは困難であるが、どの方向に動けば独立性が高まるかは計算可能
• 「勉強しよう」、「運動しよう」、「約束は守る」、「友達は大切に」…
スパース信号解析としてのICA(1)
スパース(疎)信号解析とICAの密接な関係
• スパースな生起を有する信号の確率密度は非ガウス
• より非ガウス分布に従う確率信号へ分解するのがスパース解析
• ICAによって分解される信号は、実際、より「疎」なものになる
Amplitude
Am
plit
ud
e 観測スペクトログラム 基底スペクトル行列
アクティベーション行列
Time
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底数
Time
Freq
uen
cy
Freq
uen
cy
スパース信号解析としてのICA(2)
スパース(疎)信号解析とICAの密接な関係
• 「スパースさ」を測る尺度として「高次統計量」がある
• 高次統計量を眺めて非ガウス性を測り、全ての分解信号を可能な限り「ガウス分布から離れたものにする」のがICA
• 音声信号は元来、非常に非ガウス(優ガウス)なので相性が良い
0 1 2 3 4 5 6 7 8 9 10
x 104
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
0 1 2 3 4 5 6 7 8 9 10
x 104
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
優ガウス
優ガウス
ガウス
ハンズフリー音声対話ロボシステムの構築
・各種モジュールを統合した実環境動作可能な音声対話システム
8チャンネル
マイクアレー
キタちゃんロボ
ディスプレー
リアルタイム
ブラインド空間
サブトラクションアレー
音声発話検出&
音声認識デコーダ
対話管理処理
応答音声生成
各種情報提示処理
典型的な駅騒音の中で
遠隔発話した場合でも
90%以上 の単語認識率を達成
(今後) ロボット動作
との連携
ICA利用したアプリケーション
世界で初めてリアルタイムBSSモジュールが商用化され、2008年には警察備品として採用された。
ドコモモバイルサイエンス賞
京大NAIST-CRESTプロジェクトにて「場の雰囲気を読むポスタセッションアーカイブシステム」に導入された。
ポスタ会場 発表者 質問者
Time [sec]
Fre
quency [
Hz]
Nonnegative Matrix Factorization (NMF)
28
…
…
…
…
頻出スペクトル
各スペクトルのタイミングと音量
• NMF では,分解行列因子の と を最適化するための目的関数が距離関数として与えられる
• この距離関数はデータや分解する目的に応じて使い分けられる
–音源分離: 一般化KLダイバージェンス
–自動採譜: 板倉-斉藤擬距離
NMF の目的関数
30
: 任意の距離関数
ex.)
• 一般化距離関数 -divergence [Eguchi, et al., 2001]
31
: ユークリッド距離
: 一般化KLダイバージェンス
: 板倉-斉藤擬距離
スパース性が重視された距離尺度に
-divergence について
• における のグラフ
32
-divergence について
5x102
4
3
2
1
0
IS-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=0) 25
20
15
10
5
0
KL-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=1) 12
10
8
6
4
2
0
EU
C-d
ista
nce
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=2)
が正 入力変数 がデータ より大きい
が負 入力変数 がデータ より小さい
板倉-斉藤擬距離やKL-divergenceでは大きな距離値に
板倉-斉藤擬距離やKL-divergenceでは小さな距離値に
33
-divergence について
5x102
4
3
2
1
0
IS-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=0) 25
20
15
10
5
0
KL-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=1) 12
10
8
6
4
2
0
EU
C-d
ista
nce
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=2)
• における のグラフ
-10
-8
-6
-4
-2
0
Am
plit
ude [dB
]
543210Frequency [kHz]
-10
-8
-6
-4
-2
0
Am
plit
ude [dB
]
543210Frequency [kHz]
スパース性: 強 スパース性: 弱
-divergence について
34
• における のグラフ 100
80
60
40
20
0
-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=3)9x10
2
8
7
6
5
4
3
2
1
0
-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=4)5x10
97
0
-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=100)
さらに を大きくすると,入力変数 とデータ を入れ替えたような性質になる
• 分離する楽器の教師音を用いる手法
学習プロセス
36
目的の楽器の教師音を用いて学習した基底
分離プロセス 教師基底 を固定して を構成
Penalized Supervised NMF (PSNMF) [Kitamura, et al., 2013]
は となるべく無相関となるように求める
• 分離する楽器の教師音を用いる手法
学習プロセス
Penalized Supervised NMF (PSNMF)
37
目的の楽器の教師音を用いて学習した基底
分離プロセス 教師基底 を固定して を構成
から再構成した
スペクトログラムが分離結果
[Kitamura, et al., 2013]
多チャネル音楽信号分離デモ1
4楽器から成るステレオ曲を実際に分解してみた。
原曲
分離音1
分離音2
分離音3
分離音4
全てのメロディが聞き取れた
ら、君もプロミュージシャン!
フルート聞き取れた?
難しい
簡単
多チャネル音楽信号分離デモ3
プロレコーディングに対応できる品質を目指して。
原曲(プロ演奏) Saxのみを抜いた
伴奏部分
Copyright © 2014 Yamaha Corp.
All rights reserved.
サックス奏者が消えた!?
従来手法: ICAからIVAへ [T. Kim, et al., 2007]
• 独立ベクトル分析 (independent vector analysis: IVA)
– 周波数領域ICAにおけるパーミュテーション問題を解決
– 周波数ビン間の高次相関を考慮しつつ,音源間 (ベクトル間)
の独立性を仮定して分離
• 例: 変数ベクトルは球状ラプラス分布に従うと仮定
42
…
…
…
…
…
…
…
分離信号 分離行列 観測信号
IVAのモデル 球状ラプラス分布
フルランク空間相関+NMF音源モデル 多チャネルNMF
ランク1空間相関近似
ICA ■音源モデル: 時間方向に非ガウス制約 ■空間モデルとの関連:
パーミュテーション解決法に依存 1.周波数間相関利用 (空間モデルとは無関係)
2.DOA分布の違いを利用 (空間モデルと関係有り)
IVA ■音源モデル: 時間周波数領域でランク1 ・時間軸:任意スパース ・周波数軸:非スパース ■空間モデルとの関連: 特に無し
Rank-1 MNMF ■音源モデル: 時間周波数領域で低ランク ・時間軸:任意スパース ・周波数軸:任意スパース ■空間モデルとの関連: 特に無し
類似 拡張
拡張
特徴 ・比較的柔軟な音源モデル ・空間モデルの制約有り (高残響下で性能劣化?)
特徴 ・制約付き音源モデル (楽器音は苦手?) ・空間モデルの制約受けない
特徴 ・柔軟な音源モデル ・空間モデルの制約受けない
多チャネル信号モデルの再定式化
• 従来の多チャネルNMFにおける定式化
44
: 周波数ビン数 : 時間フレーム数 : チャネル数
複素数
対角成分が グリッドにおける各チャネルの観測パワー (非負値)
非対角成分はチャネル間相関を示す複素数
各 グリッドが全てベクトルとなる
• 多チャネルNMFの分解モデル ( の例 )
• 参考: 単一チャネルNMFの分解モデル
多チャネル信号モデルの再定式化
45
要素毎の積
灰色は非負の実数
赤色は複素数
Amplitude
Am
plit
ude
Time
Time
Fre
quency
Fre
quency
基底 アクティベーション スペクトログラム
要素毎の積
灰色は非負の実数
赤色は複素数
• 多チャネルNMFの分解モデル ( の例 )
多チャネル信号モデルの再定式化
46
分離行列を推定する問題にするために,
空間相関行列が全てランク1の行列となるような制約条件を導入
Rank-1 MNMF [Kitamura, et al., ICASSP2015]
ランク1空間相関行列とは
• ランク1近似: 各時間フレームでの複素瞬時混合を仮定
– 音源ができるだけ点音源に近く,残響などの拡散が時間周波数解析の時間フレーム内に収まるという条件に対応
• ランク1空間相関行列は各音源のステアリングベクトルの外積で表現できる
• ステアリングベクトルは混合行列の列成分
47
音源信号
複素混合行列
観測信号
( のランク1行列)
時不変の複素混合行列 で表現できる
コスト関数の変形と変数変換
• 従来の多チャネルNMFのコスト関数 (板倉斎藤擬距離)
• Rank-1 MNMFのコスト関数 (板倉斎藤擬距離)
48
ランク1空間相関行列を導入 ( )
混合行列 を用いて表現しなおす
, を用いて
分離行列 と分離信号 に変数変換
1.
2.
3.
IVA及びNMFとの関係
• Rank-1 MNMFのコスト関数 (板倉斎藤擬距離)
• IVAと単一チャネルNMFの各コスト関数の組み合わせ
– IVAの最適化法とNMFの最適化法には、共通の手法がある(→「補助関数法」)
–補助関数法を交互に使うことにより、通常の微係数勾配反復処理(ICA等)より高速かつ収束が保証された最適化処理を行うことが可能
※補助関数法とは:最小化したい関数の上限関数を解析的関数で与え、それを直接最小化することにより、元の関数を最小化する手法(統計推定で用いられるEMアルゴリズムと等価)
IVA及びNMFとの関係
• Rank-1 MNMFのコスト関数 (板倉斎藤擬距離)
• IVAと単一チャネルNMFの各コスト関数の組み合わせ
– IVAと多チャネルNMFの関係を明らかにする
53
モデルの自由度 低 高
スペクトル基底の数を拡張
混合系のランク1
近似を導入
多チャネルNMF
IVA 提案手法
仮定する生成モデルの違い
54
Fre
quency
Time
球状ラプラス
分布
従来のIVAの
生成モデル
全周波数ビンで分散が等しい
→全周波数ビンが等価
周波数ビン間は無相関だが高次相関はある
→球状の多変量分布
Fre
quency
Time
各グリッドが
複素ガウス分布
提案手法の
生成モデル
各時間各周波数ビンで分散が変動
→時間周波数分散変動モデル
周波数ビン間の関係性はスペクトル基底として表現