音響信号処理の基礎icaにおける様々なコスト関数 2次統計量 •...

55
東京大学大学院情報理工学系研究科/奈良先端大 猿渡 洋 音情報処理論 音響信号処理の基礎 ~独立成分分析、スパース表現など~

Upload: ngoliem

Post on 18-Jan-2019

221 views

Category:

Documents


0 download

TRANSCRIPT

東京大学大学院情報理工学系研究科/奈良先端大

猿渡 洋

音情報処理論

音響信号処理の基礎 ~独立成分分析、スパース表現など~

音を聞き分ける耳:マイクロホンアレー

音声処理での一例:マイクロホンアレー

• 複数のマイクによって得られた複数の受音信号のなかから、必要な情報(目的音声)のみを取り出す装置

期待される応用

• 高性能な hands-free 通信

• 雑音にロバストな音声認識

⇒ではどういうアルゴリズム (ソフト)が必要なのか?

複数の異なる入力情報群から必要な要素を抽出する ⇒ 計測情報処理の基礎

実際、人間も2つの耳で聞くことによって、

音の方向や複数音の聞き分けを行っている

3

ブラインド音源分離の登場

Blind Source Separation (BSS)

• 複数の音源信号が混合されて観測された場合、観測信号のみから音源信号を自律的に推定する技術

• 目的音の方位・無音区間情報が不要

• マイク素子位置・特性情報も不要

独立成分分析(ICA)に基づくBSS

1989 J. Cardoso

1990 C. Jutten (高次無相関化)

1994 P. Comon (ICAという言葉を定義)

1995 A. Bell (infomaxによる定式化)

1998 P. Smaragdis, S. Ikeda, H. Saruwatari …

(音響信号へICAを導入)

第一世代

第二世代

4

「独立」とは何か?

数学における「独立」の定義:

• 2つの確率事象に関する同時確率密度分布

が,それぞれの事象における周辺密度分布 の積で書ける場合を「(統計的に)独立」と呼ぶ.

• つまり

),( 21 xxp

)(),( 21 xpxp

)()(),( 2121 xpxpxxp 独立

5

独立である場合の例

1x

2x )()(),( 2121 xpxpxxp

同時確率密度

)( 1xp

1x

周辺確率密度

2x

周辺確率密度

)( 2xp

6

独立ではない場合の例

1x

2x )()(),( 2121 xpxpxxp

同時確率密度

)( 1xp

1x

周辺確率密度

2x

周辺確率密度

)( 2xp と に

強い関連がある 1x 2x

7

独立成分分析(ICA)とは何か?

独立な成分の抽出: • 複数の確率信号が混合された観測系列から,統計的に独立な個々の確率過程を分解する.

特徴: • 独立性は「無相関性」よりも厳しい尺度であり,確率信号同士の確率密度構造の幾何が問われる.よって「情報幾何学」とも呼ばれる.

• 確率密度の構造を測るために,3次以上の統計量が必要とされる.よって統計の分野では,「高次統計量数理」の一種でもある.

• 決定論的な目標値を与えずに最適化を行うことより,学習理論の分野では「教師無し学習」とも呼ばれる.

8

独立成分分析と主成分分析

主成分分析(PCA): • 複数要因の混合で表現されるものの中から,分散の大きなものの順に成分を取り出す.

• エネルギーの大きな因子を優先した成分分解法

→ エネルギーが大=影響が大と見なす

一方,独立成分分析は…

• エネルギーの大小とは無関係に,「独立」なもの同士に分解する.小さな成分でも他と独立性が高ければそれを抽出することが可能.

• 取り出される因子の順番は問わない.

9

独立成分分析と主成分分析の違い

信号1の散布図

信号2の散布図

10

主成分分析の場合

第二主成分 第一主成分

真の成分軸を

求められない

11

独立成分分析の場合

第二成分

第一成分

真の成分軸を

抽出可能

互いに独立

既知

ICAに基づくBSS とは?

妨害音

目的ユーザ

マイク 1

マイク 2

おはよう

#&%¥ 観測信号 2

我々が知り得るのはこれだけ

観測信号 1 ICAによる

音源分離

出力同士が最も関係なくなるように最適化

ICAに基づくBSSの定式化

)(

)(

)(

)( 11

1

111

tx

tx

ts

ts

AA

AA

LKLKL

K

線形混合過程

混合行列 音源信号 観測信号

分離過程 分離信号 分離行列

)(

)(

)(

)( 1

1

1111

tx

tx

WW

WW

ty

ty

LKLK

L

K

独立?

コスト関数

最適化

ICAにおける様々なコスト関数

2次統計量

• 信号間相関を最小化(複数時間区間利用)

高次統計量1

• 高次相関をも最小化

高次統計量2

• 源信号確率密度関数を仮定

分離信号ベクトル: T21 )(),...,()( tytyt y

diag)()(E T tt yy

diag)()(E T3 tt yy

diag)()(E T tt yyΦ

:Φ tanh関数など

非線型関数2の導出

独立⇒Kullback Leibler Divergenceの最小化問題

• 一般にKullback Leibler Divergenceとは2分布間の距離

分離信号 の同時分布密度関数 )(ty),,()( 1 Kyypp z

K

k kypvp 1 )()(

yy

y dyp

ppWKL

K

k k

1 )(

)(log)()(

周辺分布密度関数の積

最小化

zv

zzzv d

p

ppKL

)(

)(log)(),(

上式において…

とおき,これらのKLを分離行列Wに関して最小化すれば独立

非線型関数2の導出(cont’d)

WX

xWxx

yyyWY

log)(

)log)((log)(

)(log)();(

H

dpp

dppH

xx

yyW

dypp

dyppYH

k

kk

)(log)(

)(log)();(

K

kk

K

k k

WYHWH

dyp

ppWKL

1

1

);();(

)(

)(log)()(

Y

yy

y

1. 結合エントロピー 2. 周辺エントロピー和

|)|/)()(( Wxy pp

))()(( yyxx dpdp

非線型関数2の導出(cont’d)

WX

xWxx

yyyWY

log)(

)log)((log)(

)(log)();(

H

dpp

dppH

xx

yyW

dypp

dyppYH

k

kk

)(log)(

)(log)();(

K

kk

K

k k

WYHWH

dyp

ppWKL

1

1

);();(

)(

)(log)()(

Y

yy

y

1. 結合エントロピー 2. 周辺エントロピー和

|)|/)()(( Wxy pp

))()(( yyxx dpdp

この値を最大化

⇒ 音源間の関連を無くす

この値を最小化

⇒ 個々の音を非ガウス化

非線型関数2の導出(cont’d)

1TT

T1T

T1T

)(E

)(E)(

)()()()(

WyyI

xyW

xxyWW

WW

y

x

dxpKL

に関する勾配を求め,その逆方向に を更新学習 Wの W

音声の場合はSigmoid

関数で近似可能

T

1

1 )(log...,,

)(log)(

K

K

y

yp

y

ypy

)(WKL分離信号の同時確率密度と周辺確率密度積のKL擬距離

様々なバリエーション

EMアルゴリズムによるp(y)の同時推定

二次統計量によるp(y)の推定+高次統計量ICA [Saruwatari, ICASSP2009]

ICAと音響信号処理の類似点を明らかにし、相補性を生かした高速収束アルゴリズム [Saruwatari, IEEE Trans. SAP 2003 & 2006]

教師無し最適化としてのICA

従来の教師有り最適化:目標値が与えられる

• 子育てで言えば「医者にするにはどうするか?」

• 最小化関数=∫ (医者 ー 子供の現在)2

• コスト関数が可計算、その微分勾配も可計算

ICA等の教師無し最適化:目標値が無い!

• 子育てで言えば「良い大人になりなさい!(でも具体的には?)」

• 最小化関数=div(???||子供の現在) ⇒陽に計算不可

• コスト関数は可計算ではないが、その勾配は可計算

• 独立性自体をデータから測ることは困難であるが、どの方向に動けば独立性が高まるかは計算可能

• 「勉強しよう」、「運動しよう」、「約束は守る」、「友達は大切に」…

スパース信号解析としてのICA(1)

スパース(疎)信号解析とICAの密接な関係

• スパースな生起を有する信号の確率密度は非ガウス

• より非ガウス分布に従う確率信号へ分解するのがスパース解析

• ICAによって分解される信号は、実際、より「疎」なものになる

Amplitude

Am

plit

ud

e 観測スペクトログラム 基底スペクトル行列

アクティベーション行列

Time

Ω: 周波数ビン数

𝑇: 時間フレーム数

𝐾: 基底数

Time

Freq

uen

cy

Freq

uen

cy

スパース信号解析としてのICA(2)

スパース(疎)信号解析とICAの密接な関係

• 「スパースさ」を測る尺度として「高次統計量」がある

• 高次統計量を眺めて非ガウス性を測り、全ての分解信号を可能な限り「ガウス分布から離れたものにする」のがICA

• 音声信号は元来、非常に非ガウス(優ガウス)なので相性が良い

0 1 2 3 4 5 6 7 8 9 10

x 104

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

0 1 2 3 4 5 6 7 8 9 10

x 104

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

優ガウス

優ガウス

ガウス

ハンズフリー音声対話ロボシステムの構築

・各種モジュールを統合した実環境動作可能な音声対話システム

8チャンネル

マイクアレー

キタちゃんロボ

ディスプレー

リアルタイム

ブラインド空間

サブトラクションアレー

音声発話検出&

音声認識デコーダ

対話管理処理

応答音声生成

各種情報提示処理

典型的な駅騒音の中で

遠隔発話した場合でも

90%以上 の単語認識率を達成

(今後) ロボット動作

との連携

ハンズフリー音声対話ロボシステムの構築

ICA利用したアプリケーション

世界で初めてリアルタイムBSSモジュールが商用化され、2008年には警察備品として採用された。

ドコモモバイルサイエンス賞

京大NAIST-CRESTプロジェクトにて「場の雰囲気を読むポスタセッションアーカイブシステム」に導入された。

ポスタ会場 発表者 質問者

スパース表現信号処理について1

非負値行列因子分解による

半教師あり音源分離

25

研究背景

• 複数の楽器音が多重に混合された音楽信号から,楽器音を分離・抽出 音楽信号分解

• 応用例

–ユーザが好み応じて各楽器音を編集

–音楽信号の自動採譜

–音の拡張現実 (AR) 等

26

• 非負値行列因子分解 [Lee, et al., 1999]

• データのスパース性,重ね合わせ表現を考慮

• 効率的な乗法型更新式

• 画像処理,信号処理等様々な分野への応用

研究背景

27

Time [sec]

Fre

quency [

Hz]

Nonnegative Matrix Factorization (NMF)

28

頻出スペクトル

各スペクトルのタイミングと音量

Time [sec]

Fre

quency [

Hz]

Nonnegative Matrix Factorization (NMF)

29

アクティベーション行列

スペクトル基底行列

• NMF では,分解行列因子の と を最適化するための目的関数が距離関数として与えられる

• この距離関数はデータや分解する目的に応じて使い分けられる

–音源分離: 一般化KLダイバージェンス

–自動採譜: 板倉-斉藤擬距離

NMF の目的関数

30

: 任意の距離関数

ex.)

• 一般化距離関数 -divergence [Eguchi, et al., 2001]

31

: ユークリッド距離

: 一般化KLダイバージェンス

: 板倉-斉藤擬距離

スパース性が重視された距離尺度に

-divergence について

• における のグラフ

32

-divergence について

5x102

4

3

2

1

0

IS-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=0) 25

20

15

10

5

0

KL-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=1) 12

10

8

6

4

2

0

EU

C-d

ista

nce

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=2)

が正 入力変数 がデータ より大きい

が負 入力変数 がデータ より小さい

板倉-斉藤擬距離やKL-divergenceでは大きな距離値に

板倉-斉藤擬距離やKL-divergenceでは小さな距離値に

33

-divergence について

5x102

4

3

2

1

0

IS-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=0) 25

20

15

10

5

0

KL-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=1) 12

10

8

6

4

2

0

EU

C-d

ista

nce

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=2)

• における のグラフ

-10

-8

-6

-4

-2

0

Am

plit

ude [dB

]

543210Frequency [kHz]

-10

-8

-6

-4

-2

0

Am

plit

ude [dB

]

543210Frequency [kHz]

スパース性: 強 スパース性: 弱

-divergence について

34

• における のグラフ 100

80

60

40

20

0

-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=3)9x10

2

8

7

6

5

4

3

2

1

0

-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=4)5x10

97

0

-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=100)

さらに を大きくすると,入力変数 とデータ を入れ替えたような性質になる

• -divergence の全ての において収束性が保障された更新式の導出

-divergence規範NMF [Nakano, et al., 2010]

35

はそれぞれ

の要素

• 分離する楽器の教師音を用いる手法

学習プロセス

36

目的の楽器の教師音を用いて学習した基底

分離プロセス 教師基底 を固定して を構成

Penalized Supervised NMF (PSNMF) [Kitamura, et al., 2013]

は となるべく無相関となるように求める

• 分離する楽器の教師音を用いる手法

学習プロセス

Penalized Supervised NMF (PSNMF)

37

目的の楽器の教師音を用いて学習した基底

分離プロセス 教師基底 を固定して を構成

から再構成した

スペクトログラムが分離結果

[Kitamura, et al., 2013]

多チャネル音楽信号分離デモ1

4楽器から成るステレオ曲を実際に分解してみた。

原曲

分離音1

分離音2

分離音3

分離音4

全てのメロディが聞き取れた

ら、君もプロミュージシャン!

フルート聞き取れた?

難しい

簡単

多チャネル音楽信号分離デモ2

実際の演奏曲を教師有りNMFで分解してみた。

原曲

教師1

分離音1

教師2

分離音2

多チャネル音楽信号分離デモ3

プロレコーディングに対応できる品質を目指して。

原曲(プロ演奏) Saxのみを抜いた

伴奏部分

Copyright © 2014 Yamaha Corp.

All rights reserved.

サックス奏者が消えた!?

スパース表現信号処理について2

低ランク音源モデルとランク1空間モデル

に基づく柔軟なブラインド音源分離

41

従来手法: ICAからIVAへ [T. Kim, et al., 2007]

• 独立ベクトル分析 (independent vector analysis: IVA)

– 周波数領域ICAにおけるパーミュテーション問題を解決

– 周波数ビン間の高次相関を考慮しつつ,音源間 (ベクトル間)

の独立性を仮定して分離

• 例: 変数ベクトルは球状ラプラス分布に従うと仮定

42

分離信号 分離行列 観測信号

IVAのモデル 球状ラプラス分布

フルランク空間相関+NMF音源モデル 多チャネルNMF

ランク1空間相関近似

ICA ■音源モデル: 時間方向に非ガウス制約 ■空間モデルとの関連:

パーミュテーション解決法に依存 1.周波数間相関利用 (空間モデルとは無関係)

2.DOA分布の違いを利用 (空間モデルと関係有り)

IVA ■音源モデル: 時間周波数領域でランク1 ・時間軸:任意スパース ・周波数軸:非スパース ■空間モデルとの関連: 特に無し

Rank-1 MNMF ■音源モデル: 時間周波数領域で低ランク ・時間軸:任意スパース ・周波数軸:任意スパース ■空間モデルとの関連: 特に無し

類似 拡張

拡張

特徴 ・比較的柔軟な音源モデル ・空間モデルの制約有り (高残響下で性能劣化?)

特徴 ・制約付き音源モデル (楽器音は苦手?) ・空間モデルの制約受けない

特徴 ・柔軟な音源モデル ・空間モデルの制約受けない

多チャネル信号モデルの再定式化

• 従来の多チャネルNMFにおける定式化

44

: 周波数ビン数 : 時間フレーム数 : チャネル数

複素数

対角成分が グリッドにおける各チャネルの観測パワー (非負値)

非対角成分はチャネル間相関を示す複素数

各 グリッドが全てベクトルとなる

• 多チャネルNMFの分解モデル ( の例 )

• 参考: 単一チャネルNMFの分解モデル

多チャネル信号モデルの再定式化

45

要素毎の積

灰色は非負の実数

赤色は複素数

Amplitude

Am

plit

ude

Time

Time

Fre

quency

Fre

quency

基底 アクティベーション スペクトログラム

要素毎の積

灰色は非負の実数

赤色は複素数

• 多チャネルNMFの分解モデル ( の例 )

多チャネル信号モデルの再定式化

46

分離行列を推定する問題にするために,

空間相関行列が全てランク1の行列となるような制約条件を導入

Rank-1 MNMF [Kitamura, et al., ICASSP2015]

ランク1空間相関行列とは

• ランク1近似: 各時間フレームでの複素瞬時混合を仮定

– 音源ができるだけ点音源に近く,残響などの拡散が時間周波数解析の時間フレーム内に収まるという条件に対応

• ランク1空間相関行列は各音源のステアリングベクトルの外積で表現できる

• ステアリングベクトルは混合行列の列成分

47

音源信号

複素混合行列

観測信号

( のランク1行列)

時不変の複素混合行列 で表現できる

コスト関数の変形と変数変換

• 従来の多チャネルNMFのコスト関数 (板倉斎藤擬距離)

• Rank-1 MNMFのコスト関数 (板倉斎藤擬距離)

48

ランク1空間相関行列を導入 ( )

混合行列 を用いて表現しなおす

, を用いて

分離行列 と分離信号 に変数変換

1.

2.

3.

IVA及びNMFとの関係

• Rank-1 MNMFのコスト関数 (板倉斎藤擬距離)

• IVAのコスト関数 (球状ラプラス分布仮定)

• 単一チャネルNMFのコスト関数 (板倉斎藤擬距離)

49

IVA及びNMFとの関係

• Rank-1 MNMFのコスト関数 (板倉斎藤擬距離)

• IVAのコスト関数 (球状ラプラス分布仮定)

• 単一チャネルNMFのコスト関数 (板倉斎藤擬距離)

50

IVA及びNMFとの関係

• Rank-1 MNMFのコスト関数 (板倉斎藤擬距離)

• IVAのコスト関数 (球状ラプラス分布仮定)

• 単一チャネルNMFのコスト関数 (板倉斎藤擬距離)

51

IVA及びNMFとの関係

• Rank-1 MNMFのコスト関数 (板倉斎藤擬距離)

• IVAと単一チャネルNMFの各コスト関数の組み合わせ

– IVAの最適化法とNMFの最適化法には、共通の手法がある(→「補助関数法」)

–補助関数法を交互に使うことにより、通常の微係数勾配反復処理(ICA等)より高速かつ収束が保証された最適化処理を行うことが可能

※補助関数法とは:最小化したい関数の上限関数を解析的関数で与え、それを直接最小化することにより、元の関数を最小化する手法(統計推定で用いられるEMアルゴリズムと等価)

IVA及びNMFとの関係

• Rank-1 MNMFのコスト関数 (板倉斎藤擬距離)

• IVAと単一チャネルNMFの各コスト関数の組み合わせ

– IVAと多チャネルNMFの関係を明らかにする

53

モデルの自由度 低 高

スペクトル基底の数を拡張

混合系のランク1

近似を導入

多チャネルNMF

IVA 提案手法

仮定する生成モデルの違い

54

Fre

quency

Time

球状ラプラス

分布

従来のIVAの

生成モデル

全周波数ビンで分散が等しい

→全周波数ビンが等価

周波数ビン間は無相関だが高次相関はある

→球状の多変量分布

Fre

quency

Time

各グリッドが

複素ガウス分布

提案手法の

生成モデル

各時間各周波数ビンで分散が変動

→時間周波数分散変動モデル

周波数ビン間の関係性はスペクトル基底として表現

Rank-1 MNMFによるデモ

• ドラム、ストリング、音声からなる複合音の分離

55

2 m

Source 1

Source 2

2.83 cm

70

Source 3

2.83 cm

50

20