本ノードは,静的特徴のミッシングフィーチャーマスクベクトルから 動的特徴量のミッシングフィーチャーマスクベクトルを求め,静的特徴と 動的特徴のミッシングフィーチャーマスクから構成されるマスクベクトルを生成する.
無し.
どんなときに使うのか
ミッシングフィーチャー理論に基づき,特徴量を信頼度に応じてマスクして 音声認識を行うために用いる.通常,MFMGeneration の後段に用いる.
典型的な接続例
入力
: Map<int, ObjectRef> 型.音源 ID と特徴量のマスクベクトルの Vector<float> 型のデータのペア.マスク値は,0.0 から 1.0 の実数で, 0.0 が特徴量を信頼しない, 1.0 が信頼する状態を表す.
出力
: Map<int, ObjectRef> 型.音源 ID と特徴量のマスクベクトルの Vector<float> 型のデータのペア.マスク値は,0.0 から 1.0 の実数で, 0.0 が特徴量を信頼しない状態, 1.0 が信頼する状態を表す.
パラメータ
: int 型である.処理する特徴量の次元数. 値域は,正の整数.
本ノードは,静的特徴のマスクベクトルから動的特徴量のマスク ベクトルを求め,静的特徴と動的特徴のミッシングフィーチャーマスク から構成されるマスクベクトルを生成する.
フレーム時刻 f における,入力マスクベクトルを,
m(f) | = | [m(f,0),m(f,1),…,m(f,2P−1)]T | (138) |
と表す.ただし,P は,入力マスクベクトルのうち,静的特徴を表わす 次元数を表わし,FBANK_COUNT で与える.静的特徴のマスク値を用い, 動的特徴のマスク値を求め, P から 2P−1 次元の要素に入れて出力 ベクトルを生成する.出力ベクトル m′(f) は,
y′(f) | = | [m′(f,0),m′(f,1),…,m′(f,2P−1)]T | (139) | ||
m′(f,p) | = | {m(f,p),if p=0,…,P−1,2∏τ=−2m(f+τ,p),if p=P,…,2P−1, | (140) |
である.図 6.77 に DeltaMask の入出力フローを示す.