アクティブオーディションでは,モータが動くことにより発生するモータ自身 の音に加えてロボット自身の体の軋みから音が発生することがある.ロボット の動きに伴って発生する音は,小さい音であっても音源がマイクロフォンの近 くにあるので,逆2乗則から外部の音源と比較して相対的に大きな音となる.
中臺らはロボットSIGの頭部内部にマイクロフォンを2本設置し,自己生成音の 抑制を試みている.モータ音や機械音について簡単なテンプレートを持ち, モータの稼働中でテンプレートに合うような音が発生すると,ヒューリスティクス を用いて破壊されやすいサブバンドを破棄する.本手法を用いた理由は, FIRフィルタに基づくアクティブノイズキャンセラでは,左右の耳が別々に処理 されるので両耳間位相差を正しく求めることができないからであり,さらに, バースト性雑音の抑制にFIRフィルタがあまり効果がなかったからである.なお, SIG2では,マイクロフォンが人の外耳道モデルに埋め込まれており,モータも 静音型かなので,雑音抑制処理は行っていない.ソニーのQRIOでも体内に1本マ イクロフォンを設置し,外部を向いた6本のマイクロフォンを使用して自分の出 す雑音を抑制している.
Ince らは,自分の動きから生じる自己生成雑音を,関節角の情報から予測し, スペクトルサブトラクション法により削減する方法を開発してい る[12].中臺らは,特定の方向からのモータ雑音を棄却する機 能をHARKに組み込んでいる[12].Evenらは,体内に設置し た3個の振動センサを使って,体表から放射される音の方向を 推定し,その放射音方向と話者方向が一致しないように線形マイクロフォンア レイの角度を調節し,自己生成音の抑制を行っている[12].
ロボットが人とインタラクションを取るときには,自己生成音の影響,環境 による音への影響を勘案して,最もよく聞こえる位置に移動したり,体の 向きを変えるといった「よりよく聞くための戦略」の開発が不可欠である.
ロボット聴覚では,自己発話信号がロボット自身に既知である点を活用した自 己生成音抑制が可能である.武田らは,図2.3 に示した状況において,自己発話を既知として,その残響成分を推定し,入力 混合音から自己発話を抑制し,相手の発話を抽出する自己生成音抑制機能を独 立成分分析 (ICA) に基づいたセミブラインド分離技術より開発してい る[12]. 本技術の応用のプロトタイプとしてバージイン許容発話認識と音楽ロボッ ト(後述)が開発されている.
バージイン許容発話とは,ロボットの発話中でも人が自由に発話ができ る機能である.ロボットが項目を列挙して情報提供を行っているときに, ユーザが割り込んで「それ」「2番目の」「アトム」と発話すると,本技術を応用して, 発話内容や発話タイミングからどの項目が指定されたか従来よりは高性能で 判定することができる. 人とロボットが共生していくためには,交互に話すのではなく,いついかなる 時でもお互いに自由に話すことができる混合主導型のインタラクションが不可 欠であり,本自己生成音抑制機能によってそのような機能が容易に実現できる.
セミブラインド分離技術は,自己生成音が耳まで入るが,分離されると捨てら れ,高次処理の対象となっていない.本庄の『言葉をきく脳しゃべる脳』によ ると,成人では自分の声が側頭葉の一次聴覚野までは入るが,大脳皮質の連合 聴覚野には送られず,聞き流していることが観測されている.上述のセミブラ インド分離による自己生成音抑制は一次聴覚野止まりの処理の工学的実現とと らえることもできよう.