本ノードは,ミッシングフィーチャー理論に基く音声認識のための ミッシングフィーチャーマスク (Missing-Feature-Mask:MFM) を生成する.
無し.
どんなときに使うのか
ミッシングフィーチャー理論に基く音声認識するために使用する. MFMGeneration は,PostFilter と GHDSS の出力からミッシングフィーチャー マスクを生成する.そのため PostFilter と GHDSS の利用が前提条件である.
典型的な接続例
パラメータ名 |
型 |
デフォルト値 |
単位 |
説明 |
FBANK_COUNT |
13 |
音響特徴量の次元数 |
||
THRESHOLD |
0.2 |
0.0 から 1.0 の間の連続値を 0.0 (信頼しない) または 1.0 (信頼する) に量子化するためのしきい値 |
入力
: Map<int, ObjectRef> 型.音源 ID と PostFilter の出力から求めた メルフィルタバンク出力エネルギーから構成されるベクトルの Vector<float> 型のデータのペア.
: Map<int, ObjectRef> 型.音源 ID と GHDSS の出力から求めた メルフィルタバンク出力エネルギーから構成されるベクトルの Vector<float> 型のデータのペア.
: Map<int, ObjectRef> 型.音源 ID と BGNEstimator の出力から求めた メルフィルタバンク出力エネルギーから構成されるベクトルの Vector<float> 型のデータのペア.
出力
: Map<int, ObjectRef> 型.音源 ID と ミッシングフィーチャーマスクベクトルから 構成されるベクトルの Vector<float> 型のデータのペア.ベクトルの要素は 0.0 (信頼しない) または 1.0 (信頼する) である.出力ベクトルは,2*FBANK_COUNT 次元ベクトルで, FBANK_COUNT 以上の次元要素は,全て 0 である.動的特徴量用のミッシングフィーチャーマスクのプレースホルダ である.
パラメータ
: int 型である.音響特徴量の次元数である.
: float 型である.ノード内部で計算する 0.0(信頼しない) から 1.0(信頼する)までの信頼度を量子化するためのしきい値である.しきい値に 0.0 を設定すると,すべての信頼度がしきい値以上になり,すべてのマスク値が 1.0 になる.このときの処理は,通常の音声認識処理と等価になる.
ミッシングフィーチャー理論に基く音声認識のためのミッシングフィーチャーマスクを生成する.
信頼度 $r(p)$ をしきい値 THRESHOLD でしきい値処理し,マスク値を 0.0 (信頼しない) また 1.0 (信頼する) に量子化する.信頼度は,PostFilter , GHDSS , BGNEstimator の出力から求めたメルフィルタバンクの出力エネルギー $f(p),$ $b(p),$ $g(p),$ から求める.このときフレーム番号 $f$ のマスクベク トルは,
$\displaystyle \boldsymbol {m}(f) $ | $\displaystyle = $ | $\displaystyle [ m(f,0),m(f,1), \dots ,m(f,P-1)]^ T $ | (117) | ||
$\displaystyle m(f,p) $ | $\displaystyle = $ | $\displaystyle \left\{ \begin{array}{ll} 1.0, & r(p) > {THRESHOLD} \\ 0.0, & r(p) \leq {THRESHOLD} \\ \end{array} \right. , $ | (118) | ||
$\displaystyle r(p) $ | $\displaystyle = $ | $\displaystyle \min ( 1.0, (f(p) + 1.4 * b(p))/(fg(p) + 1.0)), $ | (119) |
である.ただし,$P$ は,入力特徴ベクトルの次元数で,FBANK_COUNT で指定する正の整数である.実際に出力するベクトルの次元数は, 2*FBANK_COUNT 次のベクトルである.FBANK_COUNT 以上の次元要素は, 0 で埋められる.これは,動的特徴量マスク値を入れるためのプレースホルダである.図 6.72 に出力ベクトル列の模式図を示す.