年度卒業論文...

2007年度卒業論文

Hi-Fi骨導音エンハンサ

2008年 2月 19日

大阪大学基礎工学部システム科学科生物工学コース

山田和広

　主査:　　　　　　　　　　日付:　　　　

副査:　　　　　　　　　　日付:　　　　

概要

音声を扱う際に、騒音は避けることのできない問題である。本研究では、耐騒音性に優れ

た骨導音マイクロフォンを用いることで、外部の騒音に影響されない音声コミュニケーショ

ンを可能とする手法を提案し、試作システムを構築した。

骨導音マイクロフォンは、一般の気導音マイクロフォンに比べ耐騒音性に優れている一

方で、取得される骨導音は高周波成分が減衰し音質が劣化するという欠点がある。したがっ

て、骨導音による音声コミュニケーションを円滑に行うためには、音声劣化を解消するため

の信号処理を施す必要がある。本研究では、骨導音の高周波成分を修復し、骨導音の音質を

改善する手法を提案した。

まず、ケプストラム分析により骨導音、気導音のスペクトル包絡を抽出して比較し、骨導

音のスペクトル包絡を気導音によって置き換えることで骨導音の高周波成分を修復できるこ

とを明らかにした。次に、各音韻ごとに適切なスペクトル包絡置換を行うために、入力骨導

音を各音韻に振り分けるコードブックマッピングを用いたシステムを構築した。

提案手法による音質改善システムを試作し、ケプストラム距離および聴取実験により評価

を行った結果、有声音区間において骨導音の音質が改善されていることが確認された。

本研究により、外部の騒音に影響されない、様々な環境下における音声を用いたデバイス

の利用が可能となることが期待される。

Abstract

Environmental noise is an inevitable problem for any speech-signal proccesing-based

systems. This paper proposes a method to enable speech communication under noisy

environments using a bone-conducted microphone.

Though a bone-conducted microphone is robust for external noise, quality of bone-

conducted speech is deteriorated due to suppression of its high frequency component.

Therefore, to comfort bone-conducted speech communication, signal proccesing to ease

the deteration is indispensable. Proposed method improves quality of bone-conducted

speech by restoring its high frequency component.

First, the author compared spectrum envelop of bone-conducted speech with that of

air-conducted speech with cepstrum analysis, and revealed that replacement of spectrum

envelop of bone-conducted speech with that of air-conducted speech can compensate the

high frequency component of bone-conducted speech. Second, to apply spectrum en-

velop replacement for each phonemes appropriately, the author designed a system using

codebook-mapping which corresponds to given bone-conducted speech by each phonemes.

Prototype of proposed speech enhancer was developed, and evaluated with cepstrum

distance and hearing test. The evaluation ensured the prototype is enable to enhance

bone-conducted speech especially to voiced speech.

The proposed method will contributes to realize applications using speech signal under

various environments.

目次

第 1章序論 1

第 2章音声信号処理 3

2.1 音声の生成メカニズム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 音声の取得 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 音声信号の分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.4 骨導音の特徴 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

第 3章スペクトル包絡置換による音質改善 11

3.1 コードブックマッピング . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.2 スペクトル包絡置換 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.3 音質改善システムの構築 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

第 4章骨導音の音質改善 18

4.1 システムの実装 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.2 コードブックの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.3 骨導音の音質改善 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.4 評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.5 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

第 5章結論 24

謝辞 25

参考文献 26

第1章序論

日常的に我々は多くのコミュニケーションを音声によって行っている。これは、音声が人

間にとって最も効率的な情報伝達手段の一つであるためである。音声は、伝達される意味内

容に関する言語的情報の他に、話者の個人性や感情、状態といった非言語的情報も担ってお

り、非常に多くの情報量を有している [1, 2]。このような、音声に含まれる多くの情報を利

用し、音声認識や個人識別などを行うシステムが、近年盛んに開発されている [3]。これら

のシステムの長所は、両手を塞ぐことなく簡便に情報を伝達することができるという点にあ

る。特に、「いつでもどこでも」使うことのできる情報機器の開発が求められるユビキタス

情報社会においては、両手を塞ぐことのない簡便な情報伝達手段としての音声の利用に期待

が集まっている [4]。

しかしながら、現在一般的に利用されている音声入力デバイスであるマイクロフォンに

は、外部の環境による影響を受けやすいという短所がある。騒音が大きな場所では、目的と

する音声のみを取得することは困難である。音声入力システムに基づく情報が「いつでもど

こでも」利用されるためには、外部の環境に影響されない音声入力手段を備えていることが

必要条件である。一般的な外部騒音への対処の手法は、通常のマイクロフォンで取得された

騒音の混じった音声から、信号処理によって音声のみを抽出するというものであり、主に、

非音声区間から外部騒音を推定し、音声区間から推定した外部騒音を除去するという手法を

用いている [5]。しかし、この手法では、本来予測が不可能な外部騒音を推定しなければな

らないため、外部騒音を完全に除去することはできない。

ところで、通常のマイクロフォンによる音声の取得が外部騒音により影響を受けやすいと

いうことは、音声が発声器官により放射され外部の空気を媒体として伝達される情報である

ことに起因している。しかし、音声は発声器官から空気中に放射されるだけでなく、骨など

の体内組織を通じても伝搬されている。これは骨導音と呼ばれ、骨導音に対し空気中を伝搬

する音声は気導音と呼ばれる。骨導音は気導音と異なり、他の音源と媒質を共有しないため

に、他の音源、特に外部騒音の影響をほとんど受けない [6]。故に、骨導音を利用すること

1

で、外部騒音に影響されない音声システムの開発が可能となると考えられる。しかし、骨導

音には、体内組織を伝搬しているために高周波成分が減衰し、通常の音声に比べ音質が劣る

という欠点があり、これが骨導音利用の大きな障壁となっている。

本研究の目的は、高周波成分を修復することにより、高再現性 (Hi-Fi)を備えた骨導音を

出力するシステムを構築することである。

2

第2章音声信号処理

本章では、音声信号および音声信号処理の手法について説明し、気導音と骨導音の特徴を

述べる。以下の節では、2.1節で音声の生成メカニズムについて述べ、2.2節で音声の取得法

について述べる。2.3節では取得した音声の分析法について述べ、最後に 2.4節において気

導音と骨導音の特徴を述べる。

2.1 音声の生成メカニズム

2.1.1 気導音の生成メカニズム

気導音生成の模式図を図 2.1に示す。

図 2.1: 気導音生成の模式図

人間の発声器官は、声帯と声道、および放射器官からなる。図 2.2のように、まず声帯の

開閉運動により音源信号が生成され、次に口腔などの声道の調音運動により音韻情報が付加

される。最後に、放射の過程で音声として発せられる。

図 2.2: 音声の生成メカニズム

tは時間を表し、音声信号 x(t)は、声帯により発せられた音源信号 g(t)と、調音運動を起

こす声道特性 h(t)との畳み込みとして式 (2.1)のように表される。

3

x(t) = g(t) ∗ h(t) (2.1)

音源信号は音の高さとして知覚され、声道特性は音韻情報として知覚される。

2.1.2 骨導音の生成メカニズム

気導音が放射によって発せられたものである一方、骨導音は、図 2.3のように、声帯によっ

て生成された音源信号が声道を経た後に、骨などの体内組織を通して表皮へと伝わったもの

である。

図 2.3: 骨導音生成の模式図

したがって、骨導音の生成メカニズムは図 2.4のように表すことができる。

図 2.4: 骨導音生成メカニズム

骨導音信号 y(t)は、音源信号 g(t)と声道特性 h(t)、さらに体内組織の伝搬特性 i(t)の畳

み込みとして、式 (2.2)のように表すことができる。

y(t) = g(t) ∗ h(t) ∗ i(t) (2.2)

骨導音は軟骨や筋肉といった固有振動数の低い軟組織を伝搬するために、音声の高周波成

分が減衰するという特徴を有している [7]。

4

2.2 音声の取得

2.2.1 気導音マイクロフォンの構造

気導音は空気の振動である。空気の振動を検出するために、一般的にコンデンサマイクロ

フォンが用いられる [8]。コンデンサは、接近し絶縁された二枚の互いに平行な金属板から

構成される。一方の金属板を金属薄膜などの振動板に置き換えると、空気の振動に応じて電

極間の距離、すなわちコンデンサの静電容量が変化する。コンデンサに常に一定の電荷を蓄

積しておくことで、静電容量の変化を電位差の変化として取り出すことができる。

2.2.2 骨導音マイクロフォンの構造

骨導音は固体の振動である。骨導音を採取するためには発声中の表皮の振動を検出する必

要があり、一般的に圧電素子によるマイクロフォンが用いられる。圧電素子には、加圧によ

るひずみに応じた電位差を発生するセラミックや高分子材料などが用いられる。圧電素子を

振動する物体に密着させることで、振動に応じた電気信号が得られる [9]。

圧電素子を頭部の任意の部位に密着させることにより、骨導音を採取することができる。

一般的に、額、もしくは頬骨において最も良好に採取できるとされている [10]。

2.2.3 A/D変換

マイクロフォンにより得られた音声信号を計算機上で処理するためには、連続的なアナロ

グ電気信号を離散的なデジタル信号に変換する必要がある。アナログ信号からデジタル信号

への変換はA/D変換と呼ばれる。A/D変換は、標本化 (図 2.5)と呼ばれる時間的離散化と、

量子化 (図 2.6)と呼ばれる振幅値の離散化の二つの過程から成る [11]。

図 2.5: 標本化図 2.6: 量子化

5

2.3 音声信号の分析

A/D変換により計算機上に取り込まれた気導音/a/の音声信号波形を図 2.7に示す。図 2.7

より、音声信号は非定常的な信号であるが、数十msecの短時間で区切ると図 2.8 のように

定常的な信号と見なすことができる。この性質を利用して、音声信号を短時間で区切り、定

常的な信号と見なして分析する手法が一般的に用いられている。短時間での区切りの単位は

フレームと呼ばれ、フレームを一定間隔で移動させながら分析を行う。この間隔はフレーム

周期と呼ばれ、一般的にフレーム長の四分の一から八分の一の長さが用いられる。

図 2.7: 音声信号波形図 2.8: 短時間音声信号波形

2.3.1 スペクトル分析

音声信号の性質は、スペクトル上において顕著に特徴づけられることが知られている。一

般的に、デジタル信号の周波数解析には離散フーリエ変換 (DFT)が用いられる。デジタル

音声信号 x[n]のスペクトルX[k]はDFTによって式 (2.3)のように求めることができる。

X[k] =N−1∑n=0

x[n] exp(−2πn

Njk

)(2.3)

DFTを計算機上で高速に行うアルゴリズムとして、高速フーリエ変換 (FFT)が用いられ

ている [12]。現在では、FFTによって音声信号のスペクトルを求めることが主流となって

いる。

信号波形をある時間区間で切り出して周波数解析を行う場合、窓関数を用いる必要があ

る。フーリエ変換は無限区間において定義されるため、時間区間で切り出した信号を無限に

繰り返したものに対して周波数解析を行っていると考えなければならない。このとき、繰り

返しによる各区間の端における不連続性のために、高周波成分において解析結果にひずみが

6

生じる。このひずみを解消するために窓関数が用いられる。時間領域において信号に窓関数

を乗算することにより、各区間の端を滑らかにすることができる。音声信号のスペクトル分

析においては、窓関数には主にハニング窓 (式 (2.4))とハミング窓 (式 (2.5))の二つが用い

られる。ハニング窓、ハミング窓をそれぞれ図 2.9、図 2.10に示す。周波数領域において、

ハニング窓はダイナミックレンジが広く、振幅の小さいスペクトルの検出に適している。一

方、ハミング窓は周波数分解能が高く、微細な変化を有するスペクトルの検出に適してい

る [13]。

Hanning[n] =

⎧⎨⎩

0.50 − 0.50 cos(

2πn

N − 1

)(0 ≤ n ≤ N − 1)

0 (other)(2.4)

Hamming[n] =

⎧⎨⎩

0.54 − 0.46 cos(

2πn

N − 1

)(0 ≤ n ≤ N − 1)

0 (other)(2.5)

図 2.9: ハニング窓図 2.10: ハミング窓

音声信号を短時間で区切り、窓関数を乗算したのちに FFTを施すことで、短時間スペク

トルが得られる。音声信号/a/の短時間スペクトルを図 2.11に示す。また、短時間スペクト

ルを時間順に並べて表示したものはスペクトログラムと呼ばれ、スペクトルの時間変化を確

認するための有効な表示方法である。音声信号/a/のスペクトログラムを図 2.12に示す。

2.1節で述べたように、音声信号は音源信号と声道特性の畳み込みで表現されるが、これ

らは周波数領域において式 (2.6)のように積の形で表すことができる。

X[k] = G[k]H[k] (2.6)

音源信号G[k]はピッチと呼ばれ、図 2.11などの音声スペクトル上では急峻な周期的成分

として現れる。一方、声道特性H[k]はスペクトルの包絡成分として現れる。2.1節で述べた

7

図 2.11: 音声信号/a/の短時間スペクトル図 2.12: 音声信号/a/のスペクトログラム

ように、ピッチ成分G[k]は音の高さの情報を持っており、スペクトル包絡成分 H[k]は音韻

の情報を持っている。

2.3.2 ケプストラム分析

音声信号から音の高さの情報と音韻の情報とを分離して取り出すには、音声信号スペクト

ルのピッチ成分とスペクトル包絡成分とを分離する必要がある。二種類の成分を分離する手

法としてケプストラム分析が用いられる [14]。音声信号のスペクトルは、式 (2.6)のように

ピッチ成分とスペクトル包絡成分の積となっている。したがって、式 (2.7)のように、対数

スペクトルを用いることにより、これら二種類の成分を和の形に分解することができる。

log(X[k]) = log(G[k]) + log(H[k]) (2.7)

対数スペクトルに逆フーリエ変換を施したものは、スペクトラムのアナグラムにより、ケプ

ストラムと呼ばれる。音声信号/a/のケプストラムを図 2.13に示す。

図 2.13: 音声信号/a/のケプストラム

ケプストラムの横軸の次元は時間ではあるものの時間そのものではないことから、ケフレ

8

ンシと呼ばれ、ケプストラムにおけるフィルタ処理はリフタと呼ばれる [15]。これらの呼称

の対応表を表 2.1に示す。

表 2.1: 呼称対応表スペクトラム (Spectrum) ケプストラム (Cepstrum)周波数 (Frequency) ケフレンシ (Quefrency)フィルタ (Filter) リフタ (Lifter)

ケプストラムにおけるケフレンシは、スペクトル上での周期構造における周波数に相当す

る [16]。したがって、図 2.13において、5.0msec以下の低ケフレンシ領域には周期の長いス

ペクトル包絡成分が現れ、5.0msec以上の高ケフレンシ領域には周期の短いピッチ成分が現

れる。ケプストラムに低ケフレンシ領域を取り出すリフタを施し、逆フーリエ変換を行うこ

とで、スペクトル包絡成分を抽出することができる。また、高ケフレンシ領域に同様の処理

を施すことで、ピッチ成分を抽出することができる。図 2.11のスペクトルから抽出したス

ペクトル包絡成分とピッチ成分を、それぞれ図 2.14, 図 2.15に示す。

図 2.14: スペクトル包絡成分図 2.15: ピッチ成分

2.4 骨導音の特徴

骨導音マイクロフォンによって採取された音声は、図 2.4より体内組織を伝搬しているた

めに、気導音とは異なったものとなる。同時録音した骨導音/a/と気導音/a/のスペクトルを

図 2.16,図 2.17に示す。また、ケプストラム分析により抽出した両者のスペクトル包絡を図

2.18, 図 2.19に示す。図 2.18, 図 2.19の点線により囲まれた部分から、骨導音は気導音に比

べ高周波成分が著しく減衰していることが分かる。

骨導音の音質を改善するには、減衰したスペクトル包絡の高周波成分を修復しなければな

9

図 2.16: 骨導音/a/のスペクトル図 2.17: 気導音/a/のスペクトル

図 2.18: 骨導音/a/のスペクトル包絡図 2.19: 気導音/a/のスペクトル包絡

らない。修復の手法は、骨導音スペクトル包絡の高周波成分の減衰の度合により異なる。減

衰の度合が小さく骨導音の高周波成分に音韻情報が十分残されている場合は、全ての音韻に

おいて一様に高周波成分を増幅すればよい。一方、減衰の度合が大きく骨導音の高周波成分

に音韻情報が十分残されていない場合は、各音韻ごとに個別に高周波成分の音韻情報を補

う必要がある。後者の場合、骨導音を低周波成分を元にして各音韻に振り分けなければなら

ない。

10

第3章スペクトル包絡置換による音質改善

骨導音における高周波成分の減衰は著しく、全ての音韻において一様に増幅する手法を

提供することは困難である [17]。したがって、各音韻ごとに骨導音の高周波成分を復元する

手法を用いる。提案手法では、まずコードブックマッピングにより骨導音を各音韻に振り分

け、次にスペクトル包絡置換により高周波成分を修復する。以下の節では、3.1節でコード

ブックマッピングについて述べ、3.2節でスペクトル包絡置換について述べる。最後に、3.3

節において本研究で構築するシステムについて述べる。

3.1 コードブックマッピング

コードブックマッピングは、二つのコードブックを用いて入力音声とモデル群とを照合し

最も近いモデルを選び出す手法であり、狭帯域音声から広帯域音声への変換の前段階の手法

として、電話音声の音質改善 [18]や、騒音除去によって失われた音声スペクトルの補完 [19]

などに用いられている。モデル群を各音韻とすることで、入力音声を各音韻に振り分けるこ

とができる。コードブックマッピングに必要な行程は、コードブックの作成と、入力音声と

コードブックとの照合の二つである。

3.1.1 コードブックの作成

コードブックマッピングを行うには、事前に二つのコードブックを作成しておく必要があ

る。一方は入力音声との照合を行うコードブックであり、リファレンスコードブックと呼ば

れる。他方はリファレンスコードブックに対応した出力を行うコードブックであり、シャド

ウコードブックと呼ばれる。リファレンスコードブックには狭帯域音声のモデルが用いられ、

シャドウコードブックには広帯域音声のモデルが用いられる。コードブックを構成するモデ

ルには、音声のスペクトルやケプストラムなどのパラメータをベクトルとして表現したもの

を用いる。

正確なコードブックマッピングを行うためには、より多くのモデルを持ったコードブック

11

が必要となる。しかし、モデルの数を増やすことは処理の複雑化につながるため、モデルを

無限に増やすことはできない。したがって、多量のモデルベクトル群をある一定数の代表ベ

クトルによって表現する、ベクトル量子化 [20]と呼ばれる手法を適用する必要がある。

ベクトル量子化

適切なベクトル量子化を行うアルゴリズムとして、k-means法を改良した LBGアルゴリ

ズム [21]が一般的に用いられる。LBGアルゴリズムでは、以下の手順によりベクトル集合

をクラスタに分割し、各クラスタにおける重心ベクトルを求める。

1. 全ベクトル集合を初期クラスタとして重心ベクトルを求める

2. 重心ベクトルに微小ベクトルを加算および減算して、二つの重心ベクトルを作る

3. 全てのベクトルに対し最も距離の近い重心ベクトルを求め、ベクトル集合をクラスタ

に分割する

4. 各クラスタの重心を求め、新たな重心ベクトルとして更新する

5. 量子化によるひずみの減少量が十分小さくなるまで 3から 4を繰り返す。十分小さく

なれば 2へ飛ぶ。

6. 2から 5を、目的の量子化数に達するまで繰り返す

以上により求めた重心ベクトルをコードベクトルと呼び、コードベクトルの集合をコード

ブックとする。コードブック作成の概要を図 3.1に示す。

図 3.1: コードブックの作成

12

3.1.2 コードブックとの照合

次に、入力された任意の音声とコードブックとの照合を行う。入力音声をベクトル空間上

に投影し、リファレンスコードブックのすべてのコードベクトルとのベクトル距離を各成分

の差の自乗和により求める。入力音声とベクトル距離が最も小さいリファレンスコードブッ

クのコードベクトルを選び出し、対応するシャドウコードブックからコードベクトルを出力

する。照合の概要を図 3.2に示す。

図 3.2: コードブックとの照合

3.2 スペクトル包絡置換

コードブックマッピングにより出力されたシャドウコードブックのコードベクトルを用い

て、入力の音声を変換する。提案手法では、スペクトル包絡の置換により変換を行う。スペ

クトル包絡成分はケプストラムの低ケフレンシ領域に現れるため、入力音声ケプストラムの

低ケフレンシ領域を広帯域音声ケプストラムによって置き換えることで、スペクトル包絡を

修復することができる。

3.3 音質改善システムの構築

構築するシステムでは、気導音のケプストラムを用いて入力骨導音の高周波成分を修復す

る。したがって、まず、リファレンスコードブックを骨導音から、シャドウコードブックを

気導音からそれぞれ作成する。このとき、クラスタリングを行う際に有声音と無声音および

非音声区間とが混在している場合、有声音のコードベクトルが無声音および非音声区間の影

響を受けて減衰する。したがって、コードブック作成の際に、有声音と無声音および非音声

13

区間とを区別する必要がある。入力骨導音においても各フレームで有声/無声の判定を行い、

判定に従って適切なコードベクトルと照合を行う。最後に、照合によって出力された気導音

コードベクトルを用いて、入力音声のスペクトル包絡置換を行う。以上の行程により、任意

の入力骨導音の高周波成分を修復することが可能となる。構築するシステムのフローチャー

トを図 3.3に示す。

図 3.3: 構築するシステムのフローチャート

3.3.1 コードブックの作成

まず、すべての音素がバランス良く含まれる音素バランス文 [23]を、骨導音マイクロフォ

ンと気導音マイクロフォンにより同時に録音する。次に、録音した音声を短時間のフレーム

に分割し、各フレームにおけるケプストラムを求める。得られたケプストラムを用いて、各

フレームにおいて有声/無声の判定を行う。

有声音の判定

有声/無声の判定法として、ケプストラム法 [22]が広く用いられる。有声音と無声音の違

いはピッチ成分を有しているか否かであるため、ケプストラム法では、ケプストラムの高ケ

フレンシ領域におけるピークの有無を判定する。高ケフレンシ領域におけるピークは、図

3.4のように、ケプストラムの最大ピーク値と閾値とを比較することにより検出することが

できる。有声/無声を判定する閾値は、テスト音声において判定結果が正解に最も近くなる

14

よう事前に定める。

図 3.4: 閾値によるピークの検出

例として、図 3.5に示す気導音/aiueo/を用いて、閾値の設定を行う。まず、図 3.5のスペ

クトログラムを元に、手動により有声/無声の判定を行う。ここでは、0.6secから 2.6secま

図 3.5: 気導音/aiueo/

でを有声音区間と判定し、残りを無声音区間とする。次に、図 3.5の気導音/aiueo/ におい

てケプストラム法による有声/無声の判定を閾値を 0.01刻みで変えながら行う。それぞれの

閾値における判定結果と手動により行った判定結果とを比較し、その正解率を求め、正解率

の最も高い閾値を採用する。各閾値における正解率の推移を図 3.6に示す。

図 3.6: 正解率の推移

15

以上により有声/無声の判定を行った後、各フレームのケプストラムをベクトル空間に投

影する。有声/無声のラベルづけは、ベクトル次数にさらに 1次元を付加し、有声であれば

十分大きな値を、無声であれば 0を格納することで行う。照合および出力には音韻、すなわ

ちスペクトル包絡の情報のみが必要であるため、ケプストラムの低ケフレンシ領域をモデル

ベクトルとして用いる。最後に、LBGアルゴリズムによりコードブックを作成する。骨導音

コードブックと気導音コードブックの対応付けには、同時録音による時間的対応を用いる。

なお、スペクトル包絡置換による音質改善では音声の個人性情報も置換されるため、コード

ブックを作成する音声と入力音声は同一人物のものでなくてはならない。したがって、シス

テムの使用者は逐一事前にコードブックを作成する必要がある。

3.3.2 スペクトル包絡置換

本研究で用いるコードブックマッピングを図 3.7に示す。

図 3.7: 本研究で用いるコードブックマッピング

まず、入力骨導音の各フレームにおける有声/無声を判定し、次に、ケプストラムの低ケ

フレンシ領域と骨導音コードブックとを照合する。対応する気導音コードブックのコードベ

クトル、すなわち気導音ケプストラムの低ケフレンシ領域により、入力骨導音ケプストラム

の低ケフレンシ領域を置換する。したがって、入力骨導音のスペクトル包絡成分のみが置換

され、ピッチ成分は残される。

以上より、本研究で提案した音質改善アルゴリズムのデータフローを図 3.8に示す。

16

図 3.8: 提案手法のデータフロー

17

第4章骨導音の音質改善

本章では、提案したシステムを試作し、提案手法の評価を行う。

4.1 システムの実装

使用した骨導音マイクロフォンを図 4.1に、気導音マイクロフォンを図 4.2に示す。骨導音

マイクロフォンには、簡便に頬骨からの骨導音の取得が可能なワイズギア社製 QQ1–YSK–

001–007を用いた。気導音マイクロフォンには、マイクロフォン位置の固定が可能で骨導音マ

イクロフォンとの位置の重なりがない片耳ヘッドセット型のBUFFALO社製BMHH02KSVA

を用いた。

図 4.1: 骨導音マイクロフォン図 4.2: 気導音マイクロフォン

両者の装着の様子を図 4.3、図 4.4に示す。

図 4.3: 気導音マイクロフォン装着の様子図 4.4: 骨導音マイクロフォン装着の様子

骨導音マイクロフォンおよび気導音マイクロフォンを PCに接続し、骨導音を左チャネル、

18

気導音を右チャネルとすることで、ステレオ録音により同時録音を行った。システムの模式

図を図 4.5に示す。

図 4.5: 実装システムの模式図

4.2 コードブックの作成

コードブックは、50個の音素バランス文を骨導音マイクロフォンおよび気導音マイクロ

フォンにより同時に録音し、有声音判定を行い、LBGアルゴリズムによりベクトル量子化

を行うことで作成した。録音は量子化レベル 16ビット、サンプリング周波数 16000Hzにて

行い、フレームサイズを 512データ点 (32msec)、フレーム周期を 128データ点 (8msec)と

し、窓関数には周波数分解能の高いハミング窓を用いた。コードブックのコードベクトル数

は 512とし [18]、コードベクトルにはケプストラムにおける 0–19データ点 (0–0.6msec)を

用い [14]、さらに有声/無声のラベルとして 1次元を加えて 21次ベクトルとした。気導音お

よび骨導音の有声音判定における最適な閾値はともに 0.11であった。

4.3 骨導音の音質改善

以上により作成したコードブックを用いて、スペクトル包絡置換による骨導音の音質改善

を行った。入力骨導音/a/のスペクトログラムを図 4.6に、改善音声/a/のスペクトログラム

を図 4.7に、比較対象として気導音/a/のスペクトログラムを図 4.8に示す。

図 4.6: 入力骨導音/a/ 図 4.7: 改善音声/a/ 図 4.8: 気導音/a/

19

4.4 評価

試作システムを評価するために、ケプストラム距離を用いた客観評価と、聴取実験による

主観評価を行った。

4.4.1 ケプストラム距離

音声スペクトルのひずみを客観的に評価する手法として、ケプストラム距離による評価法

が一般的に用いられる。ケプストラム距離 CDは、二つの音声の各フレームにおけるケプ

ストラム c[i]を用いて、式 (4.1)により求めることができる。

CD =

√√√√ L∑i=1

(c[i] − c′[i])2 (4.1)

ケプストラム距離が小さいほど両者のスペクトルはより近いものであるといえる。図 4.8の

気導音/a/と図 4.6の骨導音/a/、および、図 4.8の気導音/a/と図 4.7の改善音声/a/とのケ

プストラム距離を図 4.9に示す。実線が改善音声と気導音、点線が骨導音と気導音のケプス

トラム距離をそれぞれ表す。図 4.9より、音声区間において改善音声は骨導音よりも気導音

に対するケプストラム距離が小さく、気導音に近づいているといえる。

図 4.9: ケプストラム距離

4.4.2 聴取実験

骨導音と気導音、および改善音声において聴取実験を行い、一対比較法 [24]によって提

案手法を評価した。一対比較法は、数個の刺激を二つずつ対にして判断を求める方法であ

り、判断がやさしく信頼性も高いために、広く用いられている評価法である。本実験では、

20

聴取する二つの音声の順序関係および被験者の違いを考慮するために、一対比較法の浦の変

法 [25]を用いた。

二種類の文

• 突拍子もないと言われたが、採用されたのは斬新さのためだ

• 天気が不安定なので、気をつけて外出した方がいい

をそれぞれ読み上げた気導音、骨導音、および改善音声の計六つの音声データを用意した。

六つの音声データから二つを無作為に選んで再生し、スピーカにより聴取した被験者が

• 問 A「どちらがより聴き取りやすいと感じられたか」

• 問 B「どちらがより実音声に近いと感じられたか」

に関して 7段階で解答する形で実験を行った。6人の被験者から 432の解答が得られ、解答

結果の分散分析を行ったところ、F検定において主効果の 5%水準における有意性が示され

た。問 A、問 Bの解答結果の分散分析表をそれぞれ表 4.1、表 4.2に示す。

表 4.1: 問 Aにおける分散分析表要因平方和自由度不偏分散 F F (0.05)主効果 469.78 5 93.96 106.43* 2.29

主効果 × 個人 86.72 25 3.47 3.93* 1.61組合せ効果 7.97 10 0.80 0.90 1.91順序効果 5.34 1 5.34 6.05* 3.92順序 × 個人 6.89 5 1.38 1.56 2.29誤差 118.29 134 0.88総計 695.00 180

*は 5 % 有意性を表す

表 4.2: 問 Bにおける分散分析表要因平方和自由度不偏分散 F F (0.05)主効果 332.33 5 66.47 50.13* 2.29

主効果 × 個人 37.58 25 1.50 1.13 1.61組合せ効果 12.08 10 1.21 0.91 1.91順序効果 7.20 1 7.20 5.43* 3.92順序 × 個人 7.13 5 1.43 1.08 2.29誤差 177.67 134 1.33総計 574.00 180

21

実験によって得られた各音声の評価値を図 4.10、図 4.11に示す。

図 4.10: 聴き取りやすさ図 4.11: 実音声との近さ

骨導音と改善音声との間で評価値の 5 % 水準における有意差は見られなかった。

4.5 考察

4.5.1 ノイズの問題

試作システムによって骨導音の音質を改善することが可能となったものの、聴取実験にお

いては改善音声は必ずしも骨導音を上回る印象を与えるには至らなかった。この原因の一つ

として、音質改善によって生じた非音声区間のノイズの問題が挙げられる。提案手法では、

コードブック作成の際に有声音と無声音および非音声区間の区別を行っているが、無声音と

非音声区間は区別していない。したがって、本来非音声区間にあたる気導音コードベクトル

が、クラスタリングの際に無声音による影響を受け、ノイズの発生の原因となっていると考

えられる。この問題を解決するためには無声音と非音声区間とを区別しなければならない

が、無声音は有声音と異なりスペクトル上での一定の特徴を有していないために、統計的な

知識を用いた処理が必要となる。一般に音声認識などに用いられる隠れマルコフモデル [26]

などの統計モデルを利用することで、この問題は解決することができると考えられる。

4.5.2 コードブックの個人性

提案手法では、スペクトル包絡全体を置換することにより骨導音の高周波成分を修復す

る。しかし、スペクトル包絡には音声の個人性情報も含まれるため、提案システムでは個人

性情報も共に置換される。したがって、入力骨導音の個人性情報を維持するために、各使用

者ごとのコードブックの作成が必要となる。各使用者ごとのコードブック作成は、使用者に

煩わしさを感じさせる。この問題は、スペクトル包絡全体を置換する手法ではなく、スペク

トル包絡の高周波成分のみを部分的に置換する手法を適用することで、いくらか解決するこ

22

とができると考えられる。後者の手法では、低周波成分における個人性情報は維持されるた

めに、各使用者ごとのコードブックの作成を必要としないためである。しかし、後者の手法

では、低周波成分における個人性情報は維持されるものの高周波成分における個人性情報は

置換されるため、完全に個人性情報を維持することはできない。また、入力骨導音とコード

ブックとの照合の精度も提案手法に比べ下がると考えられる。

23

第5章結論

本研究では、骨導音の高周波成分を修復し、外部騒音に強くかつ高音質な音声を取得する

システムを提案し実装した。

骨導音は、外部騒音に強いという特徴を有している一方で、高周波成分が減衰し音質が劣

化する。したがって、骨導音の高周波成分を修復することで、外部騒音に強くかつ高音質な

音声コミュニケーションシステムを提供することができる。本研究では、信号処理によって

骨導音の高周波成分を修復し、骨導音の音質を改善する手法を提案した。

骨導音のスペクトル分析およびケプストラム分析から、骨導音スペクトル包絡の高周波成

分を修復することで骨導音の音質を改善できることを明らかにした。骨導音スペクトル包絡

の高周波成分の減衰が著しいことから、まずコードブックマッピングにより骨導音を各音韻

に振り分け、次に気導音のスペクトル包絡により骨導音のスペクトル包絡を置換することに

よって骨導音の高周波成分を修復した。

試作システムについて評価を行った結果、ケプストラム距離による客観評価において音質

が改善されていることが確認された。一方、聴取実験による主観評価においては、音質改善

による有意な差異が指摘されなかった。これは、試作システムによるノイズの発生が原因で

あると考えられる。この問題は、有声音、無声音、非音声区間を正確に区別する手法を導入

することで解決することができると考えられる。

本システムを利用することで、例えば人混みのような高騒音下においても音声情報を取得

できるようになる。ユビキタス情報社会において、「いつでもどこでも」使うことのできる

情報機器の開発に本システムが役立てば幸いである。

24

謝辞

本研究は大阪大学基礎工学部で行ったものである。

本研究において、研究環境を提供し、親身になって御指導、御助言等を頂きました大阪大

学大学院基礎工学研究科大城理教授に心から深く感謝するとともに、篤く御礼申し上げま

す。本研究を完成するにあたり、御指導頂きました大阪大学大学院基礎工学研究科野村泰伸

教授に心から深く感謝します。本研究を通じて、様々な視点から多くの有益な御指導、御助

言を頂きました大阪大学大学院基礎工学研究科黒田知宏准教授に篤く御礼申し上げます。

また様々な助言を賜わりました黒田嘉宏助教に篤く御礼申し上げます。日常の研究生活や

研究に関して様々な相談にのって頂き、親身になって教えてくださいました亀井俊智氏、

谷本達昭氏、荒井良祐氏、村東孝信氏、山崎直継氏の大城研究室の方々に深く感謝致しま

す。最後に、研究生活を共に過ごし助け合ってきた同研究室の浅田和宏氏、芦田洋敏氏、

金守恒志氏、陣内孝輔氏、瀧寛文氏、福塚大介氏に感謝します。

25

参考文献

[1] 森和, 池見酉次郎, 中川哲也, 吾郷晋浩, 秋山和儀 : ソナグラムパターンの心身医学

への応用, 心身医学, vol.23, pp.115, 1983

[2] 井口征士 : 感性情報の抽出と表現, 電気情報通信学会誌, vol.89, No.1, pp.7-12, 2006

[3] 鹿野清宏 : 音声認識システム, オーム社, 東京, 2001

[4] 坂村健 : ユビキタスとは何か情報 ·技術 ·人間, 岩波書店, 東京, 2007

[5] I.Cohen, B.Berdugo : Speech enhancement for non-stationary noise environments,

Signal Processing vol.81, pp.2403-2418, 2001

[6] 北守進, 滝沢正浩 : 明りょう度試験による骨導音声の分析, 電子情報通信学会論文誌

A, vol.72-A, No.11, pp.1764-1771, 1989

[7] 金井孝幸, 粥川大祐, 降旗建治, 柳沢武三郎 : 骨導音の外耳道内音圧特性からみた

頭部内伝搬, 電気情報通信学会技術研究報告.EA, 応用音響, vol.102, No.398, pp.45-50,

2002

[8] 伊藤毅 : 音響工学, 電気書院, 東京, 1977

[9] 柳沢武三郎, 降旗建治 : 高騒音下の音声通信における振動ピックアップの利用, 日本

音響学会誌, vol.31, No.3, pp.213-220, 1975

[10] 山田芳靖, 土方啓暢, 川原伸章, 藤坂洋一, 中川誠司 : 骨伝導音による音声認識の

検討, 電気学会論文誌.E,センサ ·マイクロマシン準部門誌, vol.124, No.8, pp.272-277,

2004

[11] 萩原将文 : ディジタル信号処理, 森北出版, 東京, 2005

[12] W.H.Press, B.P.Flannery, S.A.Teukolsky, W.T.Vetterling : NUMERICAL RECIPES

in C, 技術評論社, 東京, 1993

26

[13] 斎藤収三, 中田和男 : 音声情報処理の基礎, オーム社, 東京, 1985

[14] 小林隆夫 : 音声のケプストラム分析、メルケプストラム分析, 電子情報通信学会技術

研究報告.SP,音声, vol.98, No.263, pp.33-40, 1998

[15] 中田和男 : 改訂音声, コロナ社, 東京, 1995

[16] 城戸健一 : ディジタルフーリエ解析 (II), コロナ社, 東京, 2007

[17] 北守進, 今井保志 : 骨導母音のケプストラム分析, 電子情報通信学会論文誌 A, vol.J72-

A, No.10, pp.1497-1502, 1989

[18] 吉田由紀, 阿部匡伸 : コードブックマッピングによる狭帯域音声から広帯域音声の生

成法, 電子情報通信学会論文誌 D-II No.3, pp.391-399, 1995

[19] E.Zavarehei, S.Vaseghi, Q.Yan : Noisy Speech Enhancement Using Harmonic-Noise

Model and Codebook-Based Post-Processing, IEEE TRANSACTIONS ON AUDIO,

SPEECH, AND LANGUAGE PROCESSING, vol.15, No.4, pp.1194-1203, 2007

[20] 守谷健弘 : 音声符号化, 電子情報通信学会, 東京, 1998

[21] Linde.Y, Buzo.A, Gray.R.M : An algorithm for vector quatizer design, IEEE TRANS-

ACTIONS ON COMMUNICATIONS, vol.28, No.1, pp.84-95, 1980

[22] 関高浩, 岩野公司, 古井貞煕 : ハフ変換による雑音に頑強な基本周波数抽出法, 情報

処理学会研究報告.SLP,音声言語情報処理, vol.2001, No.100, pp.9-14, 2001

[23] 河口信夫, 松原茂樹, 岩博之, 梶田将司, 武田一哉, 板倉文忠 : 実走行車内におけ

る音声データベースの構築, 情報処理学会研究報告. SLP 音声言語情報処理, vol.2000,

No.15, pp.57-62, 2000

[24] 難波精一郎, 桑野園子 : 音の評価のための心理学的測定法, 日本音響学会, 東京, 2002

[25] 天坂格郎, 長沢伸也 : 官能評価の基礎と応用, 日本規格協会, 東京, 2000

[26] 徳田恵一 : 隠れマルコフモデルの音声合成への応用, 電子情報通信学会技術研究報

告.SP,音声, vol.99, No.255, pp.47-54, 1999

27

年度卒業論文...

Documents