音でものを見る - ml.seikei.ac.jp · 音でどこまで認識できるか 壁 穴、くぼみ...
TRANSCRIPT
視覚障害者の事故
�全日本視覚障害者協議会などによると、視覚障害者が駅ホームから転落する事故は全国で相次いでおり、重傷以上のけがを負った事故は1994年以降、35件発生。 2008年10月24日、午前9時55分頃大阪市平野区、市営地下鉄谷町線、喜連瓜破(きれうりわり)駅70歳ぐらいの女性がホームから線路脇に転落。電車とは接触せずにすんだものの、頭の骨を折る重傷。(2008/10/24�読売新聞)�
なぜ事故は起きるのか
例被害者は目標物に沿って歩いているが、事務室を通り過ぎた後に方向をわずかに間違ってしまった。この後1,目標物がないため修正できない。2,点字ブロックを見つけそこなった。�ため、プラットホームの端を通り過ぎてしまった。�
遠隔認識が必要 白杖は信頼できる認識手段だが、近くのものしか見つけることはできない。
日常生活で我々は遠くの目標物を見て、方向や位置を知る。また、あらかじめ動作を予測して準備する。 遠隔的な認識ができないと、位置と方向が分からないため、非常に危険な事態に陥ることがある。 例えばスクランブル交差点のまん中で目隠しされ、スイカ割りの時のようにぐるぐると回されたらどうなるだろうか?信号が変わるまでに歩道にたどり着くことは難しいだろう。 遠隔的な認識は、安全な通行に欠かせない要素なのである。このような遠隔的情報を中距離情報と呼ぶことにする。視覚も及ばない範囲の情報は遠距離情報と呼ぶことにする。
ヒトはどうやって中距離情報を得ているのか。
健常者は、手の届く範囲の外の情報を、主に視覚と聴覚で得ている。視覚情報は情報量が多く、精度も高い。聴覚情報は方向が限定されないが、情報量が少なく精度が低い。 ヒトはこれら2種類の情報を総合して、脳内に自分の周囲の近中距離情報マップを作っている。実際、目をつぶっていても部屋の扉はどっち?と聞かれれば多くの人は指さすことが出来る。このマップは大脳後頭葉の視覚野に存在することが知られている。マップはヒトの移動に伴って更新され続け、それに基づいてヒトは次の行動を決める。 では、視覚情報がなくなったらどうなるだろうか。やはりマップは存在するが、対象は音を出すものに限定され、精度もあまり良くない。危険な対象があっても気づかない場合もある。そこで、視覚情報を聴覚情報に変換し、情報量を増やすのが、視覚聴覚変換の考え方である。
自然な認識が分かりやすい
右56度、上方30度距離3.4mから鳥の声が聞こえます。�
情報が正確でも、感覚としては理解できなかったり、対応しきれない。�
日常で自然に対応しているのと同じやり方で対処できる。�
壁�
穴、くぼみ �
イメージを表示できません。メモリ不足のためにイメージを開くことができないか、イメージが破損している可能性があります。コンピューターを再起動して再度ファイルを開いてください。それでも赤い x が表示される場合は、イメージを削除して挿入してください。
イメージ
交通信号�
自動車�
視覚による情報認識
速度�
音による情報認識に代える
壁�
穴、くぼみ �
イメージを表示できません。メモリ不足のためにイメージを開くことができないか、イメージが破損している可能性があります。コンピューターを再起動して再度ファイルを開いてください。それでも赤い x が表示される場合は、イメージを削除して挿入してください。
イメージ
交通信号�
自動車�
音�速い�
赤信号�近い�
段差�
コンピュータ処理イメージを表示できません。メモリ不足のためにイメージを開くことができないか、イメージが破損している可能性があります。コンピューターを再起動して再度ファイルを開いてください。それでも赤い x が表示される場合は、イメージを削除して挿入してください。
視覚情報�
音声�付加情報�
へこみ�
速度�
視覚情報から音声情報への変換
正しく音源定位できる合成音
�安全で実用的な、音声による情報提示装置を作るためには、ヘッドホンで提示しても音源定位できるような、位置情報を持った音を合成する必要がある。�では、音の位置情報はどのように与えられているのだろうか?�
y
x
dd
音源�
rlrr
rr = x 2 + y + d( )2 tr =rrc
rl = x2 + y −d( )2 tl =rlc
音源からの距離 到達時間
Pr =A
4πrr2 sin(2πf t − t r( ))
Pl =A4πrl
2 sin(2πf t − t l( ))左右の合成音の振幅
A:音源の振幅、 c:音速、 f:周波数
左右の識別、ILD、 ITD
ILD, Interaural Level DifferenceITD, Interaural Time Difference �
32.6度38.2度
0%0%
角度誤差
(平均)
左右の誤り
率
6kHz440Hz周波数
左右の判断と角度の誤り
�高周波、低周波で左右の誤りはほとんど起こらず、30度程度の精度で音源位置が識別できる。�
r
h遅れた�反響音�krP0
直接音P0
kr: 反射率
g(t):矩形インパルス波形
Δt =r2 + 4h2
c遅れ時間
P t( ) = P0 t( ) + kP0 t −Δt( )= g t( )sin(2π ft)+ krg t −Δt( )sin(2πf t − Δt( ))
反響を含む合成音
p0( t) = g t( )sin(2π ft)元波形
反響による距離の認識、Echo
0 1 2 3 4 5 [m]合成音の設定距離�
頭内�<10cm<30cm<1m<3m3m以上�
感じ
られ
た距
離�
75-100% 50-75% 25-50% 0-25%
設定距離と感じられた距離
反射音による距離判断は線形ではない。脳内では、音の大きさを含めて複雑な判断がなされているらしい。�
イメージを表示できません。メ
イメージ
仮想的音源�
実際の音源�
�両耳の穴だけを前提とした音源定位の限界��両耳で聞こえる音の差と反響だけでは、両耳を結ぶ軸を中心とした円周上の任意の点が同じ音源となり得る。�それ以外にも方向判断のための情報が必要だ。�
両耳による認識の限界
Binaural録音による立体音
SONY VPT解説www.sony.co.jp/Products/ vpt/tech/index.html
ヒトと同じ形状を持つ録音装置を用いることで、ヘッドフォンでも方向を感じることができる。�
前方からの音は周波数に関わりなく全て届く。�
後方からの音は、低周波音は回折して到達し、高周波音は反射されて届かない。�
耳介�
低周波音�
高周波音�
低周波音�
高周波音�
回折�
反射�
耳介による周波数特性の違い
耳に聞こえる音Y(ω)
元の音X(ω)
HRTF は頭や周辺の形状により、音が干渉して
102
103
104
0 45
90135
180225
270315
3600
10
20
30
40
50
60
70
80
周波数[Hz]角度[度]
頭部音響伝達関数のスペクトルの大きさ
Y(ω) = H(ω)X(ω)H(ω)
Fig. 各方向のHRTF
High freq.Low freq.
頭部音響伝達関数(HRTF) HRTF:Head Related Transfer Function
MicrophoneAmplifier
High SpeedAmplifier
OscillatorOscilloscope
1m
PC
Inner EarMicrophone
Square Wave
SoundData
Square Wave
Averaged Single Cycle Wave form
Differentiate
Recorded Response
Fourier Transform
原音� Convolution 立体音�Y (t) = G(t − τ )∫ X(τ )dτ Y(t)X(t)
計算によるHRTFの重畳
Source Movement
Front-Back Confusion [%]
Subject A BStationary 25 12.5
30 deg. 50 090 deg. 12.5 0
360 deg. 50 12.5
前後錯誤率
音源の位置、移動
Y (t) = G(t − τ )∫ X(τ )dτ
G(t) : Implse Responce
HRTF による前後判断
Source Movement
Angular Error [deg.]
Subjects A BStationary 11.3 22.5
30 deg. 8.6 18.390 deg. 5.6 20.5360 deg. 22.5 5.1Average 12 16.6
Table2 HRTFを重畳した音での角度誤差
12 16.6
ca. 15 deg.
HRTFを加えた音での方向精度
HRTFの個人特性
SubjectsHRTF A B C D E
A 62.5 31.9 33.3 40.3 36.1
B 51.4 23.6 36.1 40.3 26.4
C 36.1 30.6 18.0 25.0 23.6
F 40.3 38.9 33.3 45.8 45.8
Table3 F-B confusion rates for different HRTF.
HRTF of oneself
HRTF with best results
HRTFの違い
a) HRTF of subject C b) HRTF of subject A
Frequency [Hz]
1Cyc
le
Ang
le [d
eg.]
Frequency [Hz]
1Cyc
le
Ang
le [d
eg.]
Fig. 被験者C と AのHRTFの違い。色は相対的な強度を示す。Cは音源の認識率が高い。
ヒトは音の前後をどのように認識するのか?
ヒトは現実に、目をつぶっていても音の位置をかなり正確に判断できる。(できない場合もある。)できる例・人の声・時計のチクタクできない例・救急車のサイレン・蝉の声�
音の種類によっても判別の精度は変わってくる。周波数成分、トランジェントによって、総合的な判断がされているのか?�
音源の種類の違い
Human voice
yes ( short female voice ) no ( slow female vice ) no ( acute male child voice ) danger ( slow male voice ) dan-sa ( acute male voice )
Sound effect pi ( short electric sound ) Hyuuu ( long falling
sound )
Investigation of suitable sound source for licalization
音源は10度おきの13点の内の1カ所に設定された。被験者A,B,C,Eについて測定を行った。
音源の種類ごとの角度誤差
[deg] A B C H Averageyes(Female voice) 17.3 27.7 20.2 23.4 22.2
no(Slow female voice)) 23.0 22.5 21.1 21.6 22.0 no(Acute child voice) 19.7 18.3 21.1 24.4 20.9 danger(Child voice) 22.3 23.0 21.1 22.0 22.1
dan-sa(Female voice) 18.8 18.8 27.7 18.3 20.9 pi(electric sound ) 25.0 27.7 17.3 25.8 24.0
hyuu(falling sound) 32.8 28.6 20.2 22.5 26.0
Table 4 Angular error with different sound source �
合成音より人の声の方が認識精度が高い。また、同じ人の声でも、トランジェントの入った音の方が良い結果を出した。�
対象抽出アルゴリズム
Fig. 11 Object extraction
画像を10x10ピクセルのブロックに分け、左右の画像でブロックをマッチングさせる
て視差を求める。
ブロックの視差から距離を計算し、隣接し0.1m以内の距離にあるブロックを同じグ
ループに分類していく。
10以上のブロックを含むグループをオブジェクトとして登録、ブロック全体の重心
の位置までを距離とする。
0° +15-15
+30-30 • 300 x 400 [mm]2 の大きさの箱を図の各点にランダムに設置。
• HRTFを用いず、444 と 150k [Hz] の周波数成分の割合で前後を提示。
1.4m
Fig. 視覚情報の音への変換実験
実験の方法
Subject A B C D E Average
With Head Motion 7.7 4.6 4.5 5.3 6.3 5.7(deg.)
Without Head Motion 12.0 4.8 9.3 4.6 5.9 7.4(deg.)
HRTFを加えた音での 頭部運動の効果
ただし、対象を前方のみに限定している。�
段差の認識
Fig. ステレオカメラBamblebee2 を搭載した視覚聴覚変換装置
Bamblebee2 was mounted on the head with 15 deg. lower offset.
段差認識のアルゴリズム
上下のブロックの距離差 z[x,y]-z[x,y-1] を求める
↓
距離差が-2以上のブロックのペアを登録していく
↓
水平方向に4 ペア以上の登録ブロックが連続すれば、そ
こを段差と判断する。 上下のずれは連続と判定。
縦に並んだ2ブロックで距離差が極端に大きい場合、段差である可能性が高い。�
dif[a]=Z[a]-Z[b]<-2.0 �
アルゴリズムの試験
赤い四角部分を段差として認識した。
������������������������������������
��
��
��
��
�
�
�
�
�
� � � � � � � ��
�����������������
����������������������
a) Extracted step(rectangle) b) z difference graph
反射光による眩惑効果
Fig.反射光による、間違った段差の認識
Reflection causes false recognition for it shows further parallax.Delusion steps are found on smooth reflecting surfaces.