t 0b >Ý;owÍåÝ »*winnie.kuis.kyoto-u.ac.jp/members/okuno/public/ipsj-mus1310%82o-itoyama.pdf$...

6
情報処理学会研究報告 IPSJ SIG Technical Report 楽器音に対する仮想音源のパラメータ推定 糸山 克寿 1,a) 奥乃 博 1 概要:本稿では,音源分離などに起因する雑音や歪みを含む楽器音に対して,それらを含まないクリーン な楽器音を得るための仮想楽器音源のパラメータ推定法について述べる.多数の楽器音をランダムに生成 し,楽器音からフレームベースの音響特徴量とその統計量を計算する.重回帰分析を用いて音源パラメー タと音響特徴量との関係を学習し,未知楽器音のパラメータをその関係性を用いて推定する.評価実験の 結果,推定対象のパラメータが少ない場合には学習データを十分に用意することで,実用上十分な精度で のパラメータ推定を実現した. 1. 序論 YouTube * 1 やニコニコ動画 * 2 に代表される消費者生成メ ディア (consumer generated media; CGM) の製作や編集 を支援する技術の需要は増加している.作曲や編曲,楽器 の演奏などの方法で音楽を楽しむためには専門的な知識, 経験,機器が必要であり,これまでは限られた人々のみが これを行うことができたが,様々なソフトウェアやコンテ ンツ配信基盤の充実により,多くの人がコンテンツの作成 を楽しむようになっている.CGM 上のコンテンツにおけ る主流の一つは,既存楽曲の模倣やアレンジなど,コンテ ンツの再利用である.複数の楽曲を組み合わせるマッシュ アップや,自らの楽器演奏を既存楽曲に重ねるものなどが あり,基本的には既存楽曲の音響信号をそのまま用いるこ とが多い.一方で楽曲中の特定の音楽要素,例えば混合音 中のギターソロや歌声のビブラートなど,を取り出すこと ができれば,製作される作品の品質向上や幅の拡大が期待 される. 楽器音や歌声は,2 つの表現方法があるといえる.1 は音響信号そのものである.これはノンパラメトリックな 表現ともいえる.音楽 CD などで広く用いられており汎用 性が高いという利点があるが,以下のような問題点を持つ. 加工が困難. フィルタやエフェクトなどによる,後処理 的な簡単な加工のみが可能であり,録音された音源に 対して音高や楽器の種類を操作することは困難である. データ量が大きい. 高品質な音源の実時間配信には向か 1 京都大学 Kyoto University, Sakyo, Kyoto 606-8501, Japan a) itoyama(at)kuis.kyoto-u.ac.jp * 1 http://www.youtube.com/ * 2 http://www.nicovideo.jp/ ない. もう 1 つは音高,音量,ビブラート,ポルタメント,励振 波形,フィルタ,残響など,楽器の演奏法,歌い方,録音 環境などの様々な音響信号生成過程に基づく,数値的な表 現である.具体的には,musical instrument digital inter- face (MIDI) 音源や virtual studio technology instruments (VSTi) 音源などの音源パラメータが想定される.こちら はパラメトリックな表現ともいえる.この表現は以下のよ うな利点を持つ. 加工が容易. 楽器の種類,音高,残響といった音響信号 上で操作することが難しい音楽的要素であっても,対 応するパラメータを操作すれば容易に操作可能であ る.また,ビブラートやポルタメントなどの歌い方や 演奏の特徴を抽出して他のデータに適用することで, これらの要素を別の演奏に移植することができる. データ量が小さい. 音楽音響信号に対する情報圧縮とし て有用である.さらに,高品質な機器を用いることで それだけ高品質な演奏が得られる.この特性はヤマハ のリモートライブ * 3 などに応用されている. 一方問題点として,音響信号からの推定が困難であること が挙げられる.これらを取得するには,一般には MIDI アノなどの専用の機器が必要である. 本稿では,楽器音から MIDI VSTi などの仮想楽器音 源のパラメータを推定する手法について述べる.現在では 様々な仮想楽器音源が開発・公開されており,多くの楽曲 の製作に用いられている.モデルとなっている楽器は,ピ アノ・ギター・バイオリンなどのアコースティック楽器, アナログシンセサイザーやテルミンなどの電気・電子楽器 など,多岐にわたる.したがって,仮に現在公開されてい * 3 http://www.y2lab.com/project/remotelive/ 1 2013 Information Processing Society of Japan Vol.2013-MUS-100 No.5 2013/8/31

Upload: others

Post on 22-Jan-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

情報処理学会研究報告IPSJ SIG Technical Report

楽器音に対する仮想音源のパラメータ推定

糸山 克寿1,a) 奥乃 博1

概要:本稿では,音源分離などに起因する雑音や歪みを含む楽器音に対して,それらを含まないクリーンな楽器音を得るための仮想楽器音源のパラメータ推定法について述べる.多数の楽器音をランダムに生成し,楽器音からフレームベースの音響特徴量とその統計量を計算する.重回帰分析を用いて音源パラメータと音響特徴量との関係を学習し,未知楽器音のパラメータをその関係性を用いて推定する.評価実験の結果,推定対象のパラメータが少ない場合には学習データを十分に用意することで,実用上十分な精度でのパラメータ推定を実現した.

1. 序論

YouTube*1やニコニコ動画*2に代表される消費者生成メディア (consumer generated media; CGM) の製作や編集を支援する技術の需要は増加している.作曲や編曲,楽器の演奏などの方法で音楽を楽しむためには専門的な知識,経験,機器が必要であり,これまでは限られた人々のみがこれを行うことができたが,様々なソフトウェアやコンテンツ配信基盤の充実により,多くの人がコンテンツの作成を楽しむようになっている.CGM上のコンテンツにおける主流の一つは,既存楽曲の模倣やアレンジなど,コンテンツの再利用である.複数の楽曲を組み合わせるマッシュアップや,自らの楽器演奏を既存楽曲に重ねるものなどがあり,基本的には既存楽曲の音響信号をそのまま用いることが多い.一方で楽曲中の特定の音楽要素,例えば混合音中のギターソロや歌声のビブラートなど,を取り出すことができれば,製作される作品の品質向上や幅の拡大が期待される.楽器音や歌声は,2つの表現方法があるといえる.1つ

は音響信号そのものである.これはノンパラメトリックな表現ともいえる.音楽 CDなどで広く用いられており汎用性が高いという利点があるが,以下のような問題点を持つ.加工が困難. フィルタやエフェクトなどによる,後処理

的な簡単な加工のみが可能であり,録音された音源に対して音高や楽器の種類を操作することは困難である.

データ量が大きい. 高品質な音源の実時間配信には向か

1 京都大学Kyoto University, Sakyo, Kyoto 606-8501, Japan

a) itoyama(at)kuis.kyoto-u.ac.jp*1 http://www.youtube.com/*2 http://www.nicovideo.jp/

ない.もう 1つは音高,音量,ビブラート,ポルタメント,励振波形,フィルタ,残響など,楽器の演奏法,歌い方,録音環境などの様々な音響信号生成過程に基づく,数値的な表現である.具体的には,musical instrument digital inter-

face (MIDI) 音源や virtual studio technology instruments

(VSTi) 音源などの音源パラメータが想定される.こちらはパラメトリックな表現ともいえる.この表現は以下のような利点を持つ.加工が容易. 楽器の種類,音高,残響といった音響信号上で操作することが難しい音楽的要素であっても,対応するパラメータを操作すれば容易に操作可能である.また,ビブラートやポルタメントなどの歌い方や演奏の特徴を抽出して他のデータに適用することで,これらの要素を別の演奏に移植することができる.

データ量が小さい. 音楽音響信号に対する情報圧縮として有用である.さらに,高品質な機器を用いることでそれだけ高品質な演奏が得られる.この特性はヤマハのリモートライブ*3などに応用されている.

一方問題点として,音響信号からの推定が困難であることが挙げられる.これらを取得するには,一般にはMIDIピアノなどの専用の機器が必要である.本稿では,楽器音からMIDIや VSTiなどの仮想楽器音

源のパラメータを推定する手法について述べる.現在では様々な仮想楽器音源が開発・公開されており,多くの楽曲の製作に用いられている.モデルとなっている楽器は,ピアノ・ギター・バイオリンなどのアコースティック楽器,アナログシンセサイザーやテルミンなどの電気・電子楽器など,多岐にわたる.したがって,仮に現在公開されてい

*3 http://www.y2lab.com/project/remotelive/

1ⓒ 2013 Information Processing Society of Japan

Vol.2013-MUS-100 No.52013/8/31

情報処理学会研究報告IPSJ SIG Technical Report

るあらゆる仮想楽器音源を収集することができれば,その中には任意の楽曲で使われている楽器音に十分に類似した音を演奏できるものがあると言える.これらの仮想楽器音源で演奏される楽器音には音源分離 [1–5]に起因する歪みやノイズが全く含まれない.したがって,仮想楽器音源を用いた分離音や混合音に対する音源パラメータを推定できれば,分離歪みやノイズの除去が実現できる.手法の概要を図 1に示す.提案法は 2つの特徴をもつ.( 1 ) 任意の音源を対象とする.すなわち,内部構造がブ

ラックボックス化されており,音源パラメータと音響信号やその特徴との関係性が未知であることを仮定する.

( 2 ) 分離歪みやノイズを含む分離音を入力とし,入力音から歪みやノイズを取り除いた楽器音を合成可能な音源パラメータを出力する.

提案法は以下の 2ステップからなる.( 1 ) 学習ステップ.学習用パラメータをランダムに生成

し,そのパラメータから楽器音を合成する.楽器音を短時間フレームに分割してフレームごとに音響特徴抽出し,時間差分,集約,次元圧縮を行う.音響特徴空間でのパラメータの直交性を仮定し,音響特徴量-音源パラメータ間の重線形回帰モデルの回帰係数を反復推定する.

( 2 ) 推定ステップ.入力楽器音を学習ステップと同様にフレーム分割し,音響特徴を抽出する.重線形回帰モデルを用いて,音響特徴に対する最適な音源パラメータを計算する.

類似の研究として,楽器の物理モデルパラメータ推定が挙げられる.多くは特定の楽器,例えばギターなどの撥弦楽器 [6, 7]やバイオリンなどの擦弦楽器 [8]に特化している.弦などの振動を微分方程式で陽にモデル化し,入力楽器音に対して最適な弦の太さや張力などの物理パラメータを推定する.もう一つの類似研究として,Vocaloid*4のパラメータを推定するVocaListener [9,10]が挙げられる.歌声の音量や音高と,Vocaloidの音源パラメータとの対応関係に基づき,入力歌声に対して最適なパラメータを反復推定する.これらの研究の問題点は,(1)ノイズや歪みを含まないクリーンな楽器音や歌声を対象とすること,(2)特定の楽器や音源を前提としており,任意の音源を対象とできる汎用性に欠けることである.

2. 回帰モデル

2.1 楽器音源のパラメータMIDIやVSTiなどの楽器音源は,その楽器の形態や演奏

方法に依存するものとしないものの両方を含んだ,様々なパラメータをもつ.各パラメータは基本的に,0–127 (MIDI)

*4 http://www.vocaloid.com/

図 1 Overview of the proposed method.

や 0–1 (VSTi)といった,ある範囲内の値として表現される.本稿では単純のため全てのパラメータの範囲を 0–1に正規化して扱う.各パラメータは,その設定方式から大きく 2つに分けられる.( 1 ) 連続パラメータ.音量や残響の長さなど,上限と下限の間で作用が連続的に変化するもの.生成される楽器音に連続的に影響を及ぼす.

( 2 ) 選択パラメータ.波形生成器の種類を正弦波,三角波,ノコギリ波,矩形波などから一つを選択するなどの,離散集合から一つを選択するもの.生成される楽器音に離散的に影響を及ぼす.パラメータ xの範囲を以下のように分割することで実装されることが多い.

• 0 ≤ x < 0.25のとき正弦波,• 0.25 ≤ x < 0.5のとき三角波,• 0.5 ≤ x < 0.75のときノコギリ波,• 0.75 ≤ x ≤ 1のとき矩形波.

本研究では音源パラメータは音響特徴に線型に影響を及ぼすと仮定する.音響特徴と連続パラメータとの関係の表現にこの仮定は適しているが,選択パラメータには向かない.そこで,選択パラメータを線型モデルに適したものに以下のように拡張・圧縮する.パラメータ拡張 パラメータの次元を選択対象である集合の大きさに増やす.それぞれの要素を以下のような1-of-K表現で表す.

• 正弦波のとき (1, 0, 0, 0),• 三角波のとき (0, 1, 0, 0),• ノコギリ波のとき (0, 0, 1, 0),• 矩形波のとき (0, 0, 0, 1).

パラメータ圧縮 拡張されたパラメータの中での最大値に対応する,元の集合中の要素を用いる.上記の例を用いると,(1, 0, 0, 0)は正弦波,(0.3, 0.5, 0.8, 0.2)はノコギリ波となる.

2.2 回帰モデル学習重線形回帰モデルで音源パラメータと音響特徴との関係

を学習する.学習に用いる n 個の楽器音から抽出された音響特徴を x1, . . . ,xn,それぞれに対応する音源パラメー

2ⓒ 2013 Information Processing Society of Japan

Vol.2013-MUS-100 No.52013/8/31

情報処理学会研究報告IPSJ SIG Technical Report

タを y1, . . . ,yn とする.回帰係数行列Aおよび a0 を用いて,回帰モデルは以下で表される.

y = a0 + Ax (1)

最適な回帰係数 Aおよび a0 は,以下の目的関数の最小化で得る.

n∑i=1

‖yi − a0 − Axi‖2 + λ∑i �=j

ai · aj (2)

‖x‖と x · y は,それぞれベクトルの L2 ノルムと内積を表す.ai は Aの各行ベクトルである.目的関数の第 2項は,定数 λのもとでAの各行の直交性を得るためのものである.この目的関数を各行ベクトルに関して解くと,以下を

得る.

akm =

∑n ynkxnm −∑

m′ �=m akm′∑

n xnmxnm′∑n x2

nm + λ∑

k′ �=k ak′m(3)

a0m =

∑n xnm −∑

m′ �=m a0m′∑

n xnmxnm′∑n x2

nm

(4)

各行ベクトルにこれを反復的に適用することで,目的関数を最小化する係数行列を得る.

3. 音響特徴抽出

音響特徴の抽出は 4ステップからなる.( 1 ) フレームごとに低次の特徴を抽出する.( 2 ) 隣接する数フレームでの特徴量の変化量を求める.( 3 ) 特徴量ごとに値を集約し固定長のベクトルを得る.( 4 ) 主成分分析を用いて次元を圧縮する.

3.1 Low-level Features

主に楽器音の音色を表現する音響特徴を,楽器同定および音楽ムード推定の従来研究 [11, 12]を参考に設計した.楽器音から短時間フレームを切り出し,各フレームをフーリエ変換して振幅スペクトルを得る.信号 x1, . . . , xn とスペクトル y1, . . . , ym から,合計 32次元の以下の特徴を抽出する.信号の二乗平均平方根 信号全体のエネルギー.

√∑ni=1 x

2i

n

エネルギー分布の偏り 各周波数の平均エネルギーよりも小さいエネルギーを持つ周波数の割合.

#{yi | yi < y}m

s.t. y =

∑mi=1 yi

m

ゼロ交差数 信号が軸と交差する回数.

#{xi | xixi+1 < 0}

スペクトル重心 振幅スペクトルの周波数重心.∑m

i=1 yifi

m

fi はスペクトル yi に対応する周波数.スペクトル幅 スペクトル重心を中心とした,振幅スペクトルの重み付き 2乗誤差.

∑mi=1 yi(f − fi)

2

m

f はスペクトル重心.スペクトルロールオフ 振幅スペクトルの 95パーセンタイル点.

スペクトルフラックス 振幅スペクトルの隣接フレーム間の差の L2 ノルム.

スペクトルピーク 振幅スペクトルの,振幅の大きい 5%の周波数における平均振幅.

スペクトルバレー 振幅スペクトルの,振幅の小さい 5%の周波数における平均振幅.

スペクトルコントラスト スペクトルピークとスペクトルバレーの差.

メル周波数ケプストラム係数 (MFCC) 信号全体の音色を表現する.本研究では 12次元のMFCCを用いた.

高調波成分の振幅 調波構造成分の音色を表現する.本研究では 10次までの高調波成分を用いた.この特徴はPreFEst [13]を用いて抽出する.フレームごとに抽出された低次の音響特徴は,楽器音の

瞬間的な特徴を表現するものであり,時間的な変動を表さない.特徴の時間変動成分をとらえるため,特徴に対して 3種類の時間微分を計算する.隣接フレームの差分,近傍 50ms での近似直線の傾き,および近傍 100ms での近似直線の傾き.さらに隣接フレームの差分からは,2次の時間微分も同様に計算する.結果として,各フレームから32× (1 + 3 + 3) = 224次元の特徴ベクトルが得られる.

3.2 集約と次元圧縮各楽器音の長さはパラメータによって様々であるため,

各楽器音からフレームごとに抽出された特徴ベクトルの数は楽器音の長さに応じて異なる.回帰モデルを用いて音源パラメータと特徴量の関係を学習するためには,各楽器音から得られる特徴ベクトルの長さは全て等しい必要がある.このステップでは,フレームごとに抽出された特徴量の時系列を様々な統計量へと集約することで,あらゆる長さの楽器音から画一の次元の特徴ベクトルを得る.25の統計量を特徴量の要素ごとに計算する.

総和,平均,分散,歪度,尖度 これらの統計量は特徴量の分布の性質を表現する.

最小値,最大値,中央値,10/90パーセンタイル値 これらの統計量は特徴量の分布の性質を表現する.中央

3ⓒ 2013 Information Processing Society of Japan

Vol.2013-MUS-100 No.52013/8/31

情報処理学会研究報告IPSJ SIG Technical Report

図 2 19 temporal subregions.

値と 10/90パーセンタイル値は平均や最大値,最小値よりも外れ値の影響を受けにくい.さらに,これらの値の位置(時刻)も計算する.

離散コサイン変換係数 この統計量は,特徴量の楽器音全体にわたる時間変化を表現する.本研究では 10次までの係数を用いた.

振幅エンベロープのADSR(アタック,ディケイ,サステイン,リリース)に代表されるように,楽器音は異なる特徴をもついくつかの区間の組み合わせからなるものがある.このような区間的な特徴を捉えるため,音響信号に対して 3つの区間を設定する.(1) 音響信号全体,(2) 励振区間(MIDIノートオンからノートオフまで),(3) 残響区間(MIDIノートオフから無音まで).さらに,これらの区間に対してさらに細かい部分区間を設定する.(a) 開始から終了まで,(b) 開始から区間の {20, 40, 60, 80}パーセント点まで,(c) 区間の {20, 40, 60, 80}パーセント点から終了まで,(d) 区間開始から {200, 400, 600, 800, 1000}msの間,(e) 区間終了までの {200, 400, 600, 800, 1000}msの間(図 2).集約ステップまでで,各楽器音から 224× 7× 3× 19 =

319200次元の特徴ベクトルが得られる.このままの特徴ベクトルを用いても回帰モデルを学習することは可能であるが,特徴ベクトルの冗長性とモデル学習に要する計算コストを削減するため,主成分分析で特徴量の次元を圧縮する.本研究では累積寄与率の閾値を 0.99 とした.ただしモデルパラメータの推定のためには,特徴ベクトルの次元は音源パラメータの次元よりも大きくなければならないことに注意する.

4. 評価実験

提案法を評価するため,2つの実験を行った.実験 1は,ランダムに生成するパラメータの数によって,パラメータ推定精度がどのように変化するか調査する.実験 2は,提案法の雑音への頑健性を調査する.多数の音源パラメータをランダムに生成し,楽器音合成,特徴量抽出,回帰モデル学習を行う.別に用意したテスト用音源パラメータから楽器音合成と特徴量抽出を行い,その特徴量から回帰モデルを用いて音源パラメータを再推定する.実験 2では楽器音生成の際に雑音を付与し,雑音の含まれた音響特徴から元の(すなわち,雑音を含まない)音源パラメータを推定する.推定するパラメータの数は 1, 2, 4, 8とした.この

数のパラメータをランダムに選択し,さらに実験 1では 10,

100, 1000の,実験 2では 1000のパラメータをランダムに生成する.パラメータ選択から生成までのプロセスは 10

回繰り返し,特定のパラメータによって評価が偏ることを避ける.ランダム生成したパラメータを 10グループに分け,交差検定を行う.なお,楽器音の音高はMIDIノートナンバー 69 (440Hz),音長は 1秒に固定する.推定された音源パラメータと元の音源パラメータとの誤

差の大きさで評価する.誤差 eは,連続パラメータと選択パラメータでそれぞれ以下のように定義する.

e =ec + es

パラメータ数 ,

ec =∑i

|pest,i − pref,i|

es =∑i

⎧⎨⎩0 推定されたパラメータが正しい場合

1 推定されたパラメータが正しくない場合

pref,i と pest,i はそれぞれランダム生成されたパラメータと回帰モデルから推定されたパラメータである.

4.1 音源実験 1では表 1に示す音源を用いた.実験 2では,表 1に

用いた音源のうち,4Front R-Piano, DSK Strings, Synth1

の 3音源を用いた.

4.2 結果実験 1 の結果を表 2に,実験 2 の結果を表 3に示す.

実験 1の結果より,推定すべきパラメータの数を増やすと推定誤差が増加し,学習データの数を増やすと推定誤差が減少していることが分かる.また,Spicy Guitarなど,他よりも大幅に推定誤差が大きい音源があることが分かる.この原因は今後調査を進める必要がある.実験 2の結果より,パラメータ数を増やすと推定誤差が増加し,また雑音の音量が増加すると推定誤差も増加することが分かる.多くのMIDI音源は 0-127の 7bit整数でパラメータを制

御する.VSTiもこれに準ずると仮定すると,1.0 / 128 =

0.008 よりも小さい誤差はゼロと見なしてもよいといえる.パラメータが音響信号や音響特徴に与える影響はパラメータによって異なるので,今後は BSS Eval [14]などで音響的な推定誤差を測定することも必要である.

5. 結論

本稿では,VSTiなどの仮想楽器音源のパラメータを推定する手法について述べた.音源パラメータと音響特徴の関係を重線形回帰モデルで学習する.評価実験では,提案法は一部の条件では良い精度でパラメータを推定したが,雑音の増加と推定すべきパラメータ数の増加に応じて推定精度が劣化することが明らかになった.今後は,雑音への

4ⓒ 2013 Information Processing Society of Japan

Vol.2013-MUS-100 No.52013/8/31

情報処理学会研究報告IPSJ SIG Technical Report

表 1 実験に用いた音源名前 楽器 パラメータ数 URL

4Front R-Piano electric piano 13 http://www.yohng.com/software/rpiano.html

DSK AkoustiK KeyZ pianoforte 18 http://www.dskmusic.com/dsk-akoustik-keyz/

DSK ChoirZ choir/pad 81 http://www.dskmusic.com/dsk-choirz/

DSK Darkness Theory PCM synthesizer 61 http://www.dskmusic.com/dsk-darkness-theory/

DSK Electrik GuitarZ electric guitar 35 http://www.dskmusic.com/dsk-electrik-guitarz/

DSK Elektrik Keys electric keyboard 36 http://www.dskmusic.com/dsk-elektrik-keys/

DSK RhodeZ rhodes 23 http://www.dskmusic.com/dsk-rhodez/

DSK SaxophoneZ saxophone 19 http://www.dskmusic.com/dsk-saxophonez/

DSK Strings strings 41 http://www.dskmusic.com/dsk-strings/

ファミシンセ II 8bit 16 http://www.geocities.jp/mu station/vstlabo/famisynth.html

neon subtractive synthesizer 14 http://japan.steinberg.net/jp/support

/unsupported products/vst classics vol 2.html

Phat Bass bass guitar 9 http://www.dreamvortex.co.uk/instruments/

Spicy Guitar guitar 22 http://www.spicyguitar.com/

Synth1 subtractive synthesizer 99 http://www.geocities.jp/daichi1969/softsynth/

Transcender SE subtractive synthesizer 20 http://www.dreamvortex.co.uk/instruments/

表 2 実験 1 の結果# of parameters 1 2 4 8

# of training sounds 9 90 900 9 90 900 9 90 900 9 90 900

4Front R-Piano 0.047 0.008 0.005 0.149 0.017 0.012 0.185 0.062 0.042 0.251 0.131 0.098

DSK AkoustiK KeyZ 0.102 0.011 0.005 0.196 0.076 0.061 0.282 0.107 0.078 0.291 0.194 0.170

DSK ChoirZ 0.124 0.022 0.008 0.184 0.069 0.024 0.306 0.141 0.107 0.353 0.218 0.200

DSK Darkness Theory 0.153 0.091 0.077 0.248 0.035 0.011 0.239 0.152 0.106 0.266 0.200 0.192

DSK Electrik GuitarZ 0.019 0.004 0.002 0.101 0.015 0.008 0.216 0.068 0.042 0.328 0.188 0.142

DSK Elektrik Keys 0.177 0.021 0.010 0.256 0.116 0.045 0.208 0.151 0.103 0.263 0.200 0.171

DSK RhodeZ 0.081 0.009 0.004 0.238 0.065 0.030 0.260 0.152 0.093 0.334 0.200 0.170

DSK SaxophoneZ 0.089 0.006 0.003 0.305 0.113 0.104 0.222 0.091 0.076 0.247 0.173 0.149

DSK Strings 0.100 0.028 0.014 0.162 0.048 0.034 0.195 0.085 0.044 0.249 0.172 0.128

ファミシンセ II 0.250 0.150 0.037 0.250 0.125 0.125 0.250 0.250 0.250 0.375 0.333 0.250

neon 0.071 0.007 0.004 0.112 0.021 0.010 0.203 0.067 0.036 0.262 0.142 0.114

Phat Bass 0.102 0.010 0.006 0.106 0.022 0.010 0.174 0.057 0.032 0.257 0.155 0.107

Spicy Guitar 0.246 0.244 0.243 0.273 0.210 0.244 0.239 0.173 0.139 0.272 0.228 0.209

Synth1 0.191 0.059 0.031 0.200 0.233 0.250 0.168 0.086 0.057 0.253 0.156 0.131

Transcender SE 0.039 0.006 0.002 0.086 0.012 0.005 0.165 0.045 0.017 0.255 0.105 0.061

Average 0.119 0.045 0.030 0.191 0.078 0.065 0.221 0.112 0.081 0.284 0.186 0.153

表 3 実験 2 の結果noise level [dB] −∞ −20

# of parameters 1 2 4 8 1 2 4 8

4Front R-Piano 0.047 0.091 0.183 0.256 0.065 0.099 0.172 0.354

DSK Strings 0.015 0.025 0.034 0.076 0.019 0.029 0.061 0.124

Synth1 0.018 0.021 0.050 0.177 0.025 0.037 0.074 0.191

noise level [dB] −10 0

# of parameters 1 2 4 8 1 2 4 8

4Front R-Piano 0.093 0.114 0.236 0.377 0.107 0.113 0.254 0.402

DSK Strings 0.037 0.048 0.102 0.180 0.060 0.071 0.167 0.272

Synth1 0.053 0.092 0.123 0.222 0.071 0.098 0.144 0.315

5ⓒ 2013 Information Processing Society of Japan

Vol.2013-MUS-100 No.52013/8/31

情報処理学会研究報告IPSJ SIG Technical Report

頑健性の向上,パラメータ数への頑健性の向上,およびより多くの楽器音源を用いた評価を行う予定である.謝辞 本研究の一部は,科研費 基盤 (S) No.24220006およ

び科研費 若手 (B) No.24700168 の支援を受けた.

参考文献[1] Casey, M. A. and Westner, A.: Separation of Mixed

Audio Sources by Independent Subspace Analysis,ICMC2000, pp. 154–161 (2000).

[2] Virtanen, T. and Klapuri, A.: Separation of HarmonicSounds Using Linear Models for the Overtone Series,ICASSP2002, pp. 1757–1760 (2002).

[3] Every, M. R. and Szymanski, J. E.: A Spectral-filteringApproach to Music Signal Separation, DAFx-04, pp.197–200 (2004).

[4] Woodruff, J., Pardo, B. and Dannenberg, R.: RemixingStereo Music with Score-informed Source Separation, IS-MIR2006, pp. 314–319 (2006).

[5] Viste, H. and Evangelista, G.: A Method for Separationof Overlapping Partials Based on Similarity of Tempo-ral Envelopes in Multichannel Mixtures, IEEE Trans.Audio, Speech and Lang. Process., Vol. 14, No. 3, pp.1051–1061 (2006).

[6] Su, A. W. Y. and Liang, S.-F.: A Class of Physi-cal Modeling Recurrent Networks for Analysis/Synthesisof Plucked String Instruments, IEEE Trans. NeuralNetw., Vol. 13, No. 5, pp. 1137–1148 (online), DOI:10.1109/TNN.2002.1031945 (2002).

[7] Riionheimo, J. and Valimaki, V.: Parameter Estimationof a Plucked String Synthesis Model Using a Genetic Al-gorithm with Perceptual Fitness Calculation, EURASIPJ. Adv. Signal Process., Vol. 2003, No. 8, pp. 791–805(online), DOI: 10.1155/S1110865703302100 (2003).

[8] Sterling, M. and Bocko, M.: Empirical Physical Mod-eling for Bowed String Instruments, ICASSP2010, pp.433–436 (online), DOI: 10.1109/ICASSP.2010.5495754(2010).

[9] Nakano, T. and Goto, M.: VocaListener: A Singing-to-Singing Synthesis System Based on Iterative ParameterEstimation, SMC2009, pp. 343–348 (2009).

[10] Goto, M., Nakano, T., Kajita, S., Matsusaka, Y.,Nakaoka, S. and Yokoi, K.: VocaListener and Vo-caWatcher: Imitating a Human Singer by Using SignalProcessing, ICASSP2012, pp. 5393–5396 (online), DOI:10.1109/ICASSP.2012.6289140 (2012).

[11] Kitahara, T.: Computational Musical Instrument Recog-nition and Its Application to Content-based Music Infor-mation Retrieval, PhD Thesis, Kyoto University (2007).

[12] Lu, L., Liu, D. and Zhang, H.-J.: Automatic MoodDetection and Tracking of Music Audio Signals, IEEETrans. Audio, Speech and Lang. Process., Vol. 14, No. 1,pp. 5–18 (2006).

[13] Goto, M.: A Real-time Music-scene-analysis System:Predominant-F0 Estimation for Detecting Melody andBass Lines in Real-world Audio Signals, Speech Com-munication, Vol. 43, No. 4, pp. 311–329 (2004).

[14] Vincent, E., Gribonval, R. and Fevotte, C.: PerformanceMeasurement in Blind Audio Source Separation, IEEETrans. Audio, Speech and Lang. Process., Vol. 14, No. 4,pp. 1462–1469 (2006).

6ⓒ 2013 Information Processing Society of Japan

Vol.2013-MUS-100 No.52013/8/31