2.5 視聴覚情報統合による曖昧性解消

ロボット聴覚は要素技術ではなく，プロセスであり，複数のシステムから構成される．構成部品となる要素技術は多数あり，しかも，構成部品の性能にはばらつきがあるので，プロセスではすべてがうまくかみ合って機能する必要がある．しかも，このかみ合わせがしっかりするほど，プロセスはうまく機能する．音響処理だけでは曖昧性が解消できないので，視聴覚情報統合がかみ合わせの重要な鍵となる．

情報統合のレベルには，時間的，空間的，メディア間，システム間があり，さらに，各レベル内でも，レベル間でも階層的な情報統合が必要である．中臺らは次のような視聴覚情報統合を提案している．最下位レベルでは音声信号と唇の動きから話者を検出する．その上のレベルでは，音素 (phoneme) 認識と口形素 (viseme) 認識とを統合する．その上位レベルは，話者位置と顔の3D位置との統合である．最上位は，話者同定・検証と顔同定・検証との統合である．もちろん，同一レベルの情報統合だけでなく，ボトムアップ処理やトップダウン処理の相互作用が考えられる．

一般に混合音処理は不良設定問題であり，より完全な解を得るためには，何らかの前提，例えばスパースネスの仮定が必要となる．時間領域でのスパースネス，周波数領域でのスパースネス，3D空間でのスパースネス，さらには特徴空間でのスパースネスなどが考えられる．情報統合の成否は，スパースネスの設計だけでなく，個々の要素技術の性能にも依存することに注意する必要がある．