Problem
このレシピでは音声認識で用いる音響モデルの構築法を解説する.ロボット にHARKを導入した後に音声認識性能を向上させるために有用である.
Solution
音響モデルは,音素と音響特徴量の関係を統計的なモデルで表現した もので,音声認識の性能を大きく左右するデータである.通常,隠れマルコフモデル (Hidden Malkov Model, HMM) を用いることが多い. ロボット搭載マイクロホンのレイアウトを変更したり,分離や音声強調のアルゴリズムや パラメータを変更する場合には,音声認識に入力される 音響特徴量の性質が全体的に変わることが多いため, 音響モデルをその条件に適応させたり,新規にその条件に合わせて 作成したりすることによって音声認識性能を向上することができる.
ここでは,HARK で用いている音声認識エンジン Julius の音響モデルを作成す る際に用いられるHidden Malkov Model ToolKit (HTK) を使って,次の3通りの音響モデ ル(HMM) 構築方法を解説する.
マルチコンディション学習
追加学習
MLLR/MAP 適応
なお,実際には音響モデルには様々なパラメータがあるが,ここでは 3 状態,16 混合の triphone HMM の学習を例に 挙げる.各パラメータの詳細については,『HTK Book』, 『IT Text 音声認識 システム』他,多数の教科書が出版されているので,そちらを参考にされた い.