一般に,音声は,時間的・場所的空間を共有する人間同士のコミュニケーショ ンメディアとして,根源的な役割を果たしており,我々は様々な環境で音声を 通じて情報のやり取りを行っている.しかし,いろいろな音を聴き逃している ことも多く,また,録音を高忠実に再生しても,そのような聞き逃しを回避す ることは難しい.これは,人生のすべてを記録しようというライフログで,音 の再生上大きな問題となろう.このような問題の原因の1つは,録音からは音 の気づき (アウエアネス) が得られない,すなわち聴覚的アウエアネスの欠如 であると考えられる.
高忠実再生技術は,聴覚的アウエアネスを現実世界以上に改善するわけではな い.現実世界で聞き分けられないものが,高忠実再生になったから解決できる とは考えられない.実際,心理物理学の観点から人は2つ以上の音を同時に認識 することは難しい[20]とされており,複数話者など同時に複数の 音が発生する時には,音を聞き分けて提示する等の施策が不可欠である.
我々は,聴覚的アウエアネス (音の気づき) の改善にするために,HARK を応用して,音環境理解の支援を行う3次元音環境可視化システムを設計し,実 装を行った [18, 19]. GUI には Schneiderman が提唱した情報視覚化の指針 “overview first,zoom and filter,then details on demand” (図1.7) を音情報提示に解釈し 直し,以下のような機能を設計した.
Overview first: まず概観を見せる.
Zoom: ある特定の時間帯を詳しく見せる.
Filter: ある方向の音だけを抽出して,聞かせる.
Details on Demand: 特定の音だけ聞かせる.
このような GUI により,従来音情報を取り扱う上での課題であった 時間的一覧性の支援と音の弁別性の支援の解決を図った. また,実装に関しては,Model-View-Control (MVC) モデルに基づいた 設計 (図1.8) をした. HARKから得られる情報は,まず AuditoryScene XML に変換される.次に, AuditoryScene XML 表現に対して,3D可視化システムが表示を行う.
図1.9 に表示画面を示す. 3次元空間情報表示では,拡大・縮小,回転が行える. 音の再生時には,音源方向を示すビームがID とともに表示される. また,矢印の大きさは音量の大きさに対応している. 言語情報表示部には,音声認識結果が表示される.音声の再生時には 対応する字幕がカラオケ風に表示される. タイムラインには,音源の定位の変化のoverview 情報が表示され, 音の再生時には,再生位置が表示される. 表示と音響データとは対応付けが行われているので,ビームあるいは タイムラインの音源をマウスでクリックすると,対応する分離音が 再生される.また,再生については早送りモードも提供されている. このように,音情報を見せることにより,聴覚的アウエアネスの改善を 試みた.
HARK 出力の可視化のさらなる応用として次のようなシステムも試作されている.
上記で説明したGUIは,3D音環境を鳥瞰する外部観察者のモードである.それに 対して,1番目の応用は,3D音環境の満真中にいる没入モードの提供である. この2つの表示法は,Google Map のアナロジーをとると,鳥瞰モード と street view モードに相当する.没入モードでは,顔を近づけると音量が 大きくなり,顔を遠ざけるとすべての音が聞こえてくる.また,顔を上下左右 に移動すると,そちらから聞こえる音が聞こえてくる,等の機能が提供されている.
2番目の応用は,CASA 3D Visualizer を HMD に表示することで,音源方向を実 時間で表示するとともに,その下部には,字幕を表示している.字幕の作成は 音声認識ではなく,iptalkという字幕作成用ソフトウエアを使用している.聴 覚障害者が字幕を頼りに講義を受ける場合,視線は字幕と黒板の板書をいった りきたりすることになる.これは,非常に負担が大きい上に,話が進んでいる ことに気がつかずに重要なことを見逃したりする場合が少なからず生ずる.本 システムを利用すると,ディスプレイに音源の方向が表示されるので,話題の 切り替えへの聴覚的アウエアネスが補強されると期待される.