ロボット聴覚は要素技術ではなく,プロセスであり,複数のシステムから 構成される.構成部品となる要素技術は多数あり,しかも,構成部品の性能 にはばらつきがあるので,プロセスではすべてがうまくかみ合って機能する必 要がある.しかも,このかみ合わせがしっかりするほど,プロセスはうま く機能する.音響処理だけでは曖昧性が解消できないので,視聴覚情報統合が かみ合わせの重要な鍵となる.
情報統合のレベルには,時間的,空間的,メディア間,システム間があり,さ らに,各レベル内でも,レベル間でも階層的な情報統合が必要である.中臺ら は次のような視聴覚情報統合を提案している.最下位レベルでは音声信号と唇 の動きから話者を検出する.その上のレベルでは,音素 (phoneme) 認識 と口 形素 (viseme) 認識とを統合する.その上位レベルは,話者位置と顔の3D位置 との統合である.最上位は,話者同定・検証と顔同定・検証との統合である. もちろん,同一レベルの情報統合だけでなく,ボトムアップ処理やトップダウ ン処理の相互作用が考えられる.
一般に混合音処理は不良設定問題であり,より完全な解を得るためには,何ら かの前提,例えばスパースネスの仮定が必要となる.時間領域でのスパースネ ス,周波数領域でのスパースネス,3D空間でのスパースネス,さらには特徴空 間でのスパースネスなどが考えられる.情報統合の成否は,スパースネスの設 計だけでなく,個々の要素技術の性能にも依存することに注意する必要がある.