ロボット聴覚機能が充実しても,それは,個々の信号処理モジュールの 統合であり,それからどのような応用が見えてくるのかは明らかでない. 実際,音声認識はIT事業の中でも非常に低い地位しか与えられていない. そのような現状から,本当に不可欠な応用を見つけるためには, まず,使えるシステムを構築し,経験を積んでいく必要があろう.
インタラクションの基本原理として,対人距離に基づく近接学 (Proxemics) が 知られている.すなわち,親密距離 (〜0.5 m),個人距離 (0.5 m〜1.2 m), 社会距離 (1.2 m〜3.6 m),公共距離 (3.6 m〜) に分け,各距離ごとに インタラクションの質が変っている.
近接学に対するロボット聴覚の課題は,マイクロフォンのダイナミックレンジ が拡大することである.複数人インタラクションにおいて,個々の話者が同じ 音量で話すとすると,遠方の話者の声は逆2乗則に従って小さくなる.従来 の16ビット入力では不足し,24ビット入力で対応することが不可欠である. システム全体を24ビット化するのは,計算資源や既存ソフトウェアとの整合性か ら難しい.荒井らは,情報欠損の少ない16ビットへのダウンサンプリング法を 提案している[12].また,マルチチャネルA/D 装置や 携帯電話用MEMSマイクロフォンなど,新しい装置の出現にも対応していく 必要もある.
音楽を聴けば自然と体が動き,インタラクションが円滑になるので, 音楽インタラクションへの期待は大きい.ロボットが音楽を扱える ようになるには,「聞き分ける」機能が不可欠である. テストベッドとして開発した音楽ロボット処理の流れを示す.
自己生成音を入力音(混合音)から抑制あるいは分離,
分離音のビート追跡からテンポ認識と次テンポ推定,
テンポに合わせて挙動(歌を歌う,動作)を実行.
ロボットは,スピーカから音楽が鳴るとすぐにテンポに合わせて 足踏みを始め,音楽がなり終わると足踏みを終える.
自分の歌声を残響の影響を含めて入力混合音から分離するのために自己生成 音抑制機能を使用している.ビート追跡やテンポ推定では誤りが避けられない. 音楽ロボットでは,テンポ推定誤りから生ずる楽譜追跡時の迷子からいかに早く, かつ,スマートに合奏や合唱に復帰するかが重要であり,人との インタラクションで不可欠な機能となっている.
佐々木・加賀美(産総研)らは,32 チャネルマイクロフォンアレイを装着した 移動ロボットを開発し,室内の音環境理解の研究開発に取り組んでいる.事前 に与えられたマップを使い,いくつかのランドマークをたどりながら定位とマ ップ作成を同時に行う SLAM (Simultaneous Localization And Mapping) の音 響版である[1].従来のSLAMでは,画像センサ,レーザレンジセンサ, 超音波センサなどが使われるものの,マイクロフォン,つまり,可聴帯域の音 響信号は使用されてこなかった.佐々木らの仕事は,従来のSLAMでは扱えてい なかった音響信号をSLAMに組み込む研究であり,重要な先駆的な研究である. これにより,見えないけれども音がする場合にも,SLAMあるいは音源探索が可 能となり,真の情景理解 (Scene anaysis) や環境理解への道筋が開かれたこ とになると考えられる.