Processing math: 100%

6.5.1 DeltaMask

6.5.1.1 ノードの概要

本ノードは,静的特徴のミッシングフィーチャーマスクベクトルから 動的特徴量のミッシングフィーチャーマスクベクトルを求め,静的特徴と 動的特徴のミッシングフィーチャーマスクから構成されるマスクベクトルを生成する.

6.5.1.2 必要なファイル

無し.

6.5.1.3 使用方法

どんなときに使うのか

ミッシングフィーチャー理論に基づき,特徴量を信頼度に応じてマスクして 音声認識を行うために用いる.通常,MFMGeneration の後段に用いる.

典型的な接続例

\includegraphics[width=100mm]{fig/modules/DeltaMask}
Figure 6.79: DeltaMask の典型的な接続例

6.5.1.4 ノードの入出力とプロパティ

Table 6.73: DeltaMask パラメータ表

パラメータ名

デフォルト値

単位

説明

FBANK_COUNT

int 

   

静的特徴の次元数

入力

INPUT

: Map<int, ObjectRef> 型.音源 ID と特徴量のマスクベクトルの Vector<float> 型のデータのペア.マスク値は,0.0 から 1.0 の実数で, 0.0 が特徴量を信頼しない, 1.0 が信頼する状態を表す.

出力

OUTPUT

: Map<int, ObjectRef> 型.音源 ID と特徴量のマスクベクトルの Vector<float> 型のデータのペア.マスク値は,0.0 から 1.0 の実数で, 0.0 が特徴量を信頼しない状態, 1.0 が信頼する状態を表す.

パラメータ

FBANK_COUNT

: int 型である.処理する特徴量の次元数. 値域は,正の整数.

6.5.1.5 ノードの詳細

本ノードは,静的特徴のマスクベクトルから動的特徴量のマスク ベクトルを求め,静的特徴と動的特徴のミッシングフィーチャーマスク から構成されるマスクベクトルを生成する.

フレーム時刻 f における,入力マスクベクトルを,

  m(f) = [m(f,0),m(f,1),,m(f,2P1)]T   (138)

と表す.ただし,P は,入力マスクベクトルのうち,静的特徴を表わす 次元数を表わし,FBANK_COUNT で与える.静的特徴のマスク値を用い, 動的特徴のマスク値を求め, P から 2P1 次元の要素に入れて出力 ベクトルを生成する.出力ベクトル m(f) は,

  y(f) = [m(f,0),m(f,1),,m(f,2P1)]T   (139)
  m(f,p) = {m(f,p),if  p=0,,P1,2τ=2m(f+τ,p),if  p=P,,2P1,   (140)

である.図 6.77DeltaMask の入出力フローを示す.

\includegraphics[width=120mm]{fig/modules/DeltaMaskIO.eps}
Figure 6.80: DeltaMask の入出力フロー.