音声に加えて音楽や環境音さらには混合音を含めた音一般を扱う必要があると いう立場から,音環境理解 (Computational Auditory Scene Analysis) [9] 研究を進めてきた.音環境理解研究での重要な課題は,混 合音の処理である.話者の口元に設置した接話型マイクロフォンを使用して混 合音の問題を回避するのではなく,入力は混合音との立場から,混合音処理に 直球で立ち向うのが音環境理解である.
音環境理解の主たる課題は,音源方向認識の音源定位 (sound source localization),音源分離 (sound source separation),分離音の 音声認識 (automatic speech recognition) の3つである.個々の課題に対 してはこれまでに多種多様な技術が研究開発されている.しかし,いずれの技 術もその能力を最大限発揮するためには何らかの条件を前提としている.ロボッ ト聴覚でこれらの技術を組合せ,能力を最大限発揮させるためには,個別技術 のインタフェース,すなわち,前提条件をうまく揃えて,システム化すること が不可欠である.このためには,ドべネックの桶 (リービッヒの最小律) では ないが,バランスの良い組合せを効率よく提供できるミドルウエアも重要とな る.
ロボット聴覚ソフトウエア HARK は,FlowDesigner というミドルウエアの上に構築されて おり,8本のマイクロフォンを前提として,音環境理解の機能を提供している. HARKは,事前知識を極力減らすという原則で設計されおり,“音響処理 のOpenCV”を目指したシステムである.実際,3人の料理の注文を聞き分ける ロボットや口によるじゃんけんの審判ロボットなどが複数のロボットで実現さ れている.
一般には画像や映像が主たる環境センサとなっているものの,見え隠れや暗い 場所には対応できず,必ずしも万能というわけではない.音情報を使って, 画像や映像での曖昧性を解消し,逆に,音響情報での曖昧性を画像情報を使って 解消する必要がある.例えば,2本のマイクロフォンによる音源定位では, 音源が前か後ろかの判断は極めて難しい.