本ノードは,静的特徴のミッシングフィーチャーマスクベクトルから 動的特徴量のミッシングフィーチャーマスクベクトルを求め,静的特徴と 動的特徴のミッシングフィーチャーマスクから構成されるマスクベクトルを生成する.
無し.
どんなときに使うのか
ミッシングフィーチャー理論に基づき,特徴量を信頼度に応じてマスクして 音声認識を行うために用いる.通常,MFMGeneration の後段に用いる.
典型的な接続例
パラメータ名 |
型 |
デフォルト値 |
単位 |
説明 |
FBANK_COUNT |
静的特徴の次元数 |
入力
: Map<int, ObjectRef> 型.音源 ID と特徴量のマスクベクトルの Vector<float> 型のデータのペア.マスク値は,0.0 から 1.0 の実数で, 0.0 が特徴量を信頼しない, 1.0 が信頼する状態を表す.
出力
: Map<int, ObjectRef> 型.音源 ID と特徴量のマスクベクトルの Vector<float> 型のデータのペア.マスク値は,0.0 から 1.0 の実数で, 0.0 が特徴量を信頼しない状態, 1.0 が信頼する状態を表す.
パラメータ
: int 型である.処理する特徴量の次元数. 値域は,正の整数.
本ノードは,静的特徴のマスクベクトルから動的特徴量のマスク ベクトルを求め,静的特徴と動的特徴のミッシングフィーチャーマスク から構成されるマスクベクトルを生成する.
フレーム時刻 $f$ における,入力マスクベクトルを,
$\displaystyle \boldsymbol {m}(f) $ | $\displaystyle = $ | $\displaystyle [m(f,0),m(f,1),\dots ,m(f,2P-1)]^{T} $ | (138) |
と表す.ただし,$P$ は,入力マスクベクトルのうち,静的特徴を表わす 次元数を表わし,FBANK_COUNT で与える.静的特徴のマスク値を用い, 動的特徴のマスク値を求め, $P$ から $2P-1$ 次元の要素に入れて出力 ベクトルを生成する.出力ベクトル $\boldsymbol {m}’(f)$ は,
$\displaystyle \boldsymbol {y}’(f) $ | $\displaystyle = $ | $\displaystyle [m’(f,0),m’(f,1),\dots ,m’(f,2P-1)]^{T} $ | (139) | ||
$\displaystyle m’(f,p) $ | $\displaystyle = $ | $\displaystyle \left\{ \begin{array}{ll} m(f,p), & {if~ ~ } p=0, \dots , P-1, \\ \displaystyle \prod _{\tau =-2}^{2} m(f+\tau ,p), & {if~ ~ } p=P, \dots , 2P-1, \end{array} \right. $ | (140) |
である.図 6.80 に DeltaMask の入出力フローを示す.