音でものを見る - ml.seikei.ac.jp · 音でどこまで認識できるか壁穴、くぼみ...

BME�特別講座�

�視覚に障害のある人に対し、音声により情報を提示する方法について考える。�

音でものを見る

視覚障害者の事故

�全日本視覚障害者協議会などによると、視覚障害者が駅ホームから転落する事故は全国で相次いでおり、重傷以上のけがを負った事故は1994年以降、35件発生。 2008年10月24日、午前9時55分頃大阪市平野区、市営地下鉄谷町線、喜連瓜破(きれうりわり)駅70歳ぐらいの女性がホームから線路脇に転落。電車とは接触せずにすんだものの、頭の骨を折る重傷。（2008/10/24�読売新聞）�

なぜ事故は起きるのか

例被害者は目標物に沿って歩いているが、事務室を通り過ぎた後に方向をわずかに間違ってしまった。この後1，目標物がないため修正できない。2，点字ブロックを見つけそこなった。�ため、プラットホームの端を通り過ぎてしまった。�

視覚補助

白杖：最も多く使われている。確実に障害を見つけられる。しかし近くのものしか分からない。�

盲導犬：あらゆる危険を察知できる。理想的な補助者。しかし訓練に時間がかかるため、数が少ない。�

遠隔認識が必要　白杖は信頼できる認識手段だが、近くのものしか見つけることはできない。

　日常生活で我々は遠くの目標物を見て、方向や位置を知る。また、あらかじめ動作を予測して準備する。　遠隔的な認識ができないと、位置と方向が分からないため、非常に危険な事態に陥ることがある。　　例えばスクランブル交差点のまん中で目隠しされ、スイカ割りの時のようにぐるぐると回されたらどうなるだろうか？信号が変わるまでに歩道にたどり着くことは難しいだろう。　遠隔的な認識は、安全な通行に欠かせない要素なのである。このような遠隔的情報を中距離情報と呼ぶことにする。視覚も及ばない範囲の情報は遠距離情報と呼ぶことにする。

ヒトはどうやって中距離情報を得ているのか。

　健常者は、手の届く範囲の外の情報を、主に視覚と聴覚で得ている。視覚情報は情報量が多く、精度も高い。聴覚情報は方向が限定されないが、情報量が少なく精度が低い。　ヒトはこれら2種類の情報を総合して、脳内に自分の周囲の近中距離情報マップを作っている。実際、目をつぶっていても部屋の扉はどっち？と聞かれれば多くの人は指さすことが出来る。このマップは大脳後頭葉の視覚野に存在することが知られている。マップはヒトの移動に伴って更新され続け、それに基づいてヒトは次の行動を決める。　では、視覚情報がなくなったらどうなるだろうか。やはりマップは存在するが、対象は音を出すものに限定され、精度もあまり良くない。危険な対象があっても気づかない場合もある。そこで、視覚情報を聴覚情報に変換し、情報量を増やすのが、視覚聴覚変換の考え方である。

Sonic Pathfinder

対象物超音波

反射

うなり音

うなり音

超音波メガネ

vOICe

周波数

時間

2次元音提示装置

自然な認識が分かりやすい

右56度、上方30度距離3.4mから鳥の声が聞こえます。�

情報が正確でも、感覚としては理解できなかったり、対応しきれない。�

日常で自然に対応しているのと同じやり方で対処できる。�

コウモリ

超音波

イルカ

音波

動物のエコーロケーション

�人のローカライゼーション（音源探知）能力とエコーロケーション（反射音探知）能力はどこまで高められるか。�修行を積めば本当に回りのすべてを把握できるようになるのか？�

音でどこまで認識できるか

壁�

穴、くぼみ �

イメージを表示できません。メモリ不足のためにイメージを開くことができないか、イメージが破損している可能性があります。コンピューターを再起動して再度ファイルを開いてください。それでも赤い x が表示される場合は、イメージを削除して挿入してください。

イメージ

交通信号�

自動車�

視覚による情報認識

速度�

音による情報認識に代える

壁�

穴、くぼみ �

イメージを表示できません。メモリ不足のためにイメージを開くことができないか、イメージが破損している可能性があります。コンピューターを再起動して再度ファイルを開いてください。それでも赤い x が表示される場合は、イメージを削除して挿入してください。

イメージ

交通信号�

自動車�

音�速い�

赤信号�近い�

段差�

コンピュータ処理イメージを表示できません。メモリ不足のためにイメージを開くことができないか、イメージが破損している可能性があります。コンピューターを再起動して再度ファイルを開いてください。それでも赤い x が表示される場合は、イメージを削除して挿入してください。

視覚情報�

音声�付加情報�

へこみ�

速度�

視覚情報から音声情報への変換

実際の音情報�

合成音と実際の物体の齟齬

どちらが本当だろうか？？？間違うと非常に危険！！！�

合成音の情報�

正しく音源定位できる合成音

�安全で実用的な、音声による情報提示装置を作るためには、ヘッドホンで提示しても音源定位できるような、位置情報を持った音を合成する必要がある。�では、音の位置情報はどのように与えられているのだろうか？�

y

x

dd

音源�

rlrr

rr = x 2 + y + d( )2 tr =rrc

rl = x2 + y −d( )2 tl =rlc

音源からの距離到達時間

Pr =A

4πrr2 sin(2πf t − t r( ))

Pl =A4πrl

2 sin(2πf t − t l( ))左右の合成音の振幅

A:音源の振幅、　c:音速、　f:周波数

左右の識別、ILD、 ITD

ILD, Interaural Level DifferenceITD, Interaural Time Difference �

32.6度38.2度

0%0%

角度誤差

（平均）

左右の誤り

率

6kHz440Hz周波数

左右の判断と角度の誤り

�高周波、低周波で左右の誤りはほとんど起こらず、30度程度の精度で音源位置が識別できる。�

r

h遅れた�反響音�krP0

直接音P0

kr: 反射率

g(t):矩形インパルス波形

Δt =r2 + 4h2

c遅れ時間

P t( ) = P0 t( ) + kP0 t −Δt( )= g t( )sin(2π ft)+ krg t −Δt( )sin(2πf t − Δt( ))

反響を含む合成音

p0( t) = g t( )sin(2π ft)元波形

反響による距離の認識、Echo

0 1 2 3 4 5 [m]合成音の設定距離�

頭内�<10cm<30cm<1m<3m3m以上�

感じ

られ

た距

離�

75-100% 50-75% 25-50% 0-25%

設定距離と感じられた距離

反射音による距離判断は線形ではない。脳内では、音の大きさを含めて複雑な判断がなされているらしい。�

イメージを表示できません。メ

イメージ

仮想的音源�

実際の音源�

�両耳の穴だけを前提とした音源定位の限界��両耳で聞こえる音の差と反響だけでは、両耳を結ぶ軸を中心とした円周上の任意の点が同じ音源となり得る。�それ以外にも方向判断のための情報が必要だ。�

両耳による認識の限界

音像

スピーカーの配置が距離や前後情報を与える。

スピーカーによる音像定位

単純な録音では音像が両耳の間にあるような気がする。このため、距離感、方向性が分からない。�

ヘッドホンによる音像定位

Binaural録音による立体音

SONY　VPT解説www.sony.co.jp/Products/ vpt/tech/index.html

ヒトと同じ形状を持つ録音装置を用いることで、ヘッドフォンでも方向を感じることができる。�

前方からの音は周波数に関わりなく全て届く。�

後方からの音は、低周波音は回折して到達し、高周波音は反射されて届かない。�

耳介�

低周波音�

高周波音�

低周波音�

高周波音�

回折�

反射�

耳介による周波数特性の違い

低周波音の比率を上げると、

後方低周波音の比率� X2� X5� X10�

前後誤り率� 51.1% 44.9% 33.2%

低周波の比率を変えると前後の感覚が得られる。しかし、正確さは不十分。�

耳に聞こえる音Y(ω)

元の音X(ω)

HRTF は頭や周辺の形状により、音が干渉して

102

103

104

0 45

90135

180225

270315

3600

10

20

30

40

50

60

70

80

周波数[Hz]角度[度]

頭部音響伝達関数のスペクトルの大きさ

Y(ω) = H(ω)X(ω)H(ω)

Fig. 各方向のHRTF

High freq.Low freq.

頭部音響伝達関数(HRTF) HRTF:Head Related Transfer Function

水平面内のHRTF

Interference �

Incident angle �

MicrophoneAmplifier

High SpeedAmplifier

OscillatorOscilloscope

1m

PC

Inner EarMicrophone

Square Wave

SoundData

Square Wave

Averaged Single Cycle Wave form

Differentiate

Recorded Response

Fourier Transform

原音� Convolution 立体音�Y (t) = G(t − τ )∫ X(τ )dτ Y(t)X(t)

計算によるHRTFの重畳

Source Movement

Front-Back Confusion [%]

Subject A BStationary 25 12.5

30 deg. 50 090 deg. 12.5 0

360 deg. 50 12.5

前後錯誤率

音源の位置、移動

Y (t) = G(t − τ )∫ X(τ )dτ

G(t) : Implse Responce

HRTF による前後判断

Source Movement

Angular Error [deg.]

Subjects A BStationary 11.3 22.5

30 deg. 8.6 18.390 deg. 5.6 20.5360 deg. 22.5 5.1Average 12 16.6

Table2 HRTFを重畳した音での角度誤差

12 16.6

ca. 15 deg.

HRTFを加えた音での方向精度

HRTFの個人特性

SubjectsHRTF A B C D E

A 62.5 31.9 33.3 40.3 36.1

B 51.4 23.6 36.1 40.3 26.4

C 36.1 30.6 18.0 25.0 23.6

F 40.3 38.9 33.3 45.8 45.8

Table3 F-B confusion rates for different HRTF.

HRTF of oneself

HRTF with best results

HRTFの違い

a) HRTF of subject C b) HRTF of subject A

Frequency [Hz]

1Cyc

le

Ang

le [d

eg.]

Frequency [Hz]

1Cyc

le

Ang

le [d

eg.]

Fig.　被験者C と AのHRTFの違い。色は相対的な強度を示す。Cは音源の認識率が高い。

周波数帯域の削除による認識率の違い

Fig.9 Deleted frequency areas and confusion rate

Control �

ヒトは音の前後をどのように認識するのか？

ヒトは現実に、目をつぶっていても音の位置をかなり正確に判断できる。（できない場合もある。）できる例・人の声・時計のチクタクできない例・救急車のサイレン・蝉の声�

音の種類によっても判別の精度は変わってくる。周波数成分、トランジェントによって、総合的な判断がされているのか？�

音源の種類の違い

Human voice

yes ( short female voice )　　 no ( slow female vice ) no ( acute male child voice ) danger ( slow male voice ) dan-sa ( acute male voice )

Sound effect　　 pi ( short electric sound ) Hyuuu ( long falling

sound )　

Investigation of suitable sound source for licalization

音源は10度おきの13点の内の1カ所に設定された。被験者A,B,C,Eについて測定を行った。

音源の種類ごとの角度誤差

[deg] A B C H Averageyes(Female voice) 17.3 27.7 20.2 23.4 22.2

no(Slow female voice)) 23.0 22.5 21.1 21.6 22.0 no(Acute child voice) 19.7 18.3 21.1 24.4 20.9 danger(Child voice) 22.3 23.0 21.1 22.0 22.1

dan-sa(Female voice) 18.8 18.8 27.7 18.3 20.9 pi(electric sound ) 25.0 27.7 17.3 25.8 24.0

hyuu(falling sound) 32.8 28.6 20.2 22.5 26.0

Table 4 Angular error with different sound source �

合成音より人の声の方が認識精度が高い。また、同じ人の声でも、トランジェントの入った音の方が良い結果を出した。�

結局、音の位置は分からない？

音の種類

反射HRTF��頭の��動き�

１，首の動きによって、音圧が左右対称となる方向。　首の動きで正面を知ることができる。２，角度変化でHRTFが明確に分かる。ヒトは絶対値に鈍感で変化に敏感。

頭部運動による位置情報の獲得

ステレオ画像 �

オブジェクト抽出 �

立体音合成�

CCDカメラ �

ビデオ信号 �

ステレオ音声 �

画像処理�

音声提示装置のシステム

装置の写真

対象抽出アルゴリズム

Fig. 11 Object extraction

画像を10x10ピクセルのブロックに分け、左右の画像でブロックをマッチングさせる

て視差を求める。

ブロックの視差から距離を計算し、隣接し0.1m以内の距離にあるブロックを同じグ

ループに分類していく。

10以上のブロックを含むグループをオブジェクトとして登録、ブロック全体の重心

の位置までを距離とする。

0° +15-15

+30-30 • 300 x 400 [mm]2 の大きさの箱を図の各点にランダムに設置。

• HRTFを用いず、444 と 150k [Hz] の周波数成分の割合で前後を提示。

1.4m

Fig.　視覚情報の音への変換実験

実験の方法

Subject A B C D E Average

With Head Motion 7.7 4.6 4.5 5.3 6.3 5.7(deg.)

Without Head Motion 12.0 4.8 9.3 4.6 5.9 7.4(deg.)

HRTFを加えた音での頭部運動の効果

ただし、対象を前方のみに限定している。�

段差の認識

Fig. ステレオカメラBamblebee2 を搭載した視覚聴覚変換装置

Bamblebee2 was mounted on the head with 15 deg. lower offset.

段差認識のアルゴリズム

上下のブロックの距離差 z[x,y]-z[x,y-1] を求める

↓

距離差が-2以上のブロックのペアを登録していく

↓

水平方向に4 ペア以上の登録ブロックが連続すれば、そ

こを段差と判断する。上下のずれは連続と判定。

縦に並んだ2ブロックで距離差が極端に大きい場合、段差である可能性が高い。�

dif[a]=Z[a]-Z[b]<-2.0 �

アルゴリズムの試験

赤い四角部分を段差として認識した。

��

��

��

��

��

�

�

�

�

�

� � � � � � � ��

��

��

a) Extracted step(rectangle) b) z difference graph

斜めの画像での段差認識結果

a) Subject A 1.8[m] tall b) Subject H 1.6[m] tall

横方向に傾いた画像での段差認識の結果。

反射光による眩惑効果

Fig.反射光による、間違った段差の認識

Reflection causes false recognition for it shows further parallax.Delusion steps are found on smooth reflecting surfaces.

誰でも座頭市になれる！

そんなメガネができるのも、もうすぐ？？？�

音でものを見る - ml.seikei.ac.jp · 音でどこまで認識できるか 壁 穴、くぼみ...

Documents

音でものを見る - ml.seikei.ac.jp · 音でどこまで認識できるか壁穴、くぼみ...