Problem
MFMGeneration モジュールのパラメータをどのように設定したら良いか 分からないときに読む.
Solution
MFMGeneration には THRESHOLD というパラメータがあり,このパラメータが 音声認識の性能を左右する.閾値を0.0に設定すると,ミッシングフィーチャー 理論を使わない音声認識を行う.一方で閾値を1.0に設定すると,すべての特徴 量にマスクをかけるため,まったく特徴量を使わないで認識を行う.
適した値を求めるには,例えば0.1刻みで変化させるなどしながら実際に音声 認識を行い,実験的に求めると良い.
Discussion
MFMGeneration は次の式で表され,信頼度を THRESHOLD でしきい値処理し,0.0(信頼しない)または1.0(信頼する)の2値をとるマスク (ハードマスク)を生成する.
$\displaystyle m(f,p) = \left\{ \begin{array}{cc} 1.0, & r(p) > THRESHOLD \nonumber \\ 0.0, & r(p) \leq THRESHOLD \nonumber \end{array} \right. $ | (1) |
ただし,$m(f,p)$は$f$フレームの$p$次元目の特徴量に対するマスクの値を表し, $r(p)$は$p$次元目の特徴量の信頼度を表す.
See Also
HARK ドキュメントの MFMGeneration の節