a) Robovieが注文をたずねる.
b) 3人が同時に料理の注文を行う.
c) 1.9秒後にRobovieが注文を反復し,合計金額を答える.
3話者同時発話認識は,マイクロフォン入力,音源定位,音源分離,ミッシン グフィーチャマスク生成,および,自動音声認識の一連の処理により,話者そ れぞれの発話認識結果を返す.このFlowDesigner でのモジュールネットワーク は図1.2に示したものである.対話管理モジュールは,
ユーザの発話を聞き,注文依頼だと判定すると,次の処理を行う.
ロボット聴覚の一連の処理 – 音源定位・音源分離・ポストフィルタ処理・ 音響特徴量の抽出・ミッシングフィーチャマスク生成 – を行う.
発話人数分の 音響特徴量とミッシングフィーチャマスクを音声認識エンジンに 送り,音声認識結果を受け取る.
音声認識結果を分析し,料理の注文である場合には,注文を復唱し, 料理の金額の合計額を答える.
さらに注文を受け付ける.
音声認識での音響モデルは,不特定話者対象としている. 言語モデルは文脈自由文法で記述しているので, 文法を工夫すれば, 「ラーメン 大盛り」や「ラーメン ピリ辛 大盛り」,「ラーメン ライス大盛り」 なども可能である.
3人の実話者全員が話し終えてから認識終了までに従来のファイル経由ベースの 処理では,約7.9秒を要していたが,HARK の使用により,応答が約1.9秒に短縮 された1.応答が速 いため,全員の注文終了後,直ちにロボットがそれぞれの注文を復唱し,合計 金額を答えるように感じられる.なお,モジュールの設定にも依存するが,ファイル 入力の場合には,発話終了時が明確であるので,発話終了から認識を終え, ロボットが応答を始めるまでの遅延時間は0.4秒程度である.
また,復唱の時に,ロボットが発話者の方へ顔を振り向けることも可能である. HRP-2では挙動付きの応答を行っている.ただし,身振り手振りを入れると その準備のためにどうしても応答が遅れ,間の抜けた挙動となってしまうので, 注意が必要である.
Footnotes