6.5.1 DeltaMask

6.5.1.1 ノードの概要

本ノードは,静的特徴のミッシングフィーチャーマスクベクトルから 動的特徴量のミッシングフィーチャーマスクベクトルを求め,静的特徴と 動的特徴のミッシングフィーチャーマスクから構成されるマスクベクトルを生成する.

6.5.1.2 必要なファイル

無し.

6.5.1.3 使用方法

どんなときに使うのか

ミッシングフィーチャー理論に基づき,特徴量を信頼度に応じてマスクして 音声認識を行うために用いる.通常,MFMGeneration の後段に用いる.

典型的な接続例

\includegraphics[width=100mm]{fig/modules/DeltaMask}
Figure 6.77: DeltaMask の典型的な接続例

6.5.1.4 ノードの入出力とプロパティ

Table 6.70: DeltaMask パラメータ表

パラメータ名

デフォルト値

単位

説明

FBANK_COUNT

int 

   

静的特徴の次元数

入力

INPUT

: Map<int, ObjectRef> 型.音源 ID と特徴量のマスクベクトルの Vector<float> 型のデータのペア.マスク値は,0.0 から 1.0 の実数で, 0.0 が特徴量を信頼しない, 1.0 が信頼する状態を表す.

出力

OUTPUT

: Map<int, ObjectRef> 型.音源 ID と特徴量のマスクベクトルの Vector<float> 型のデータのペア.マスク値は,0.0 から 1.0 の実数で, 0.0 が特徴量を信頼しない状態, 1.0 が信頼する状態を表す.

パラメータ

FBANK_COUNT

: int 型である.処理する特徴量の次元数. 値域は,正の整数.

6.5.1.5 ノードの詳細

本ノードは,静的特徴のマスクベクトルから動的特徴量のマスク ベクトルを求め,静的特徴と動的特徴のミッシングフィーチャーマスク から構成されるマスクベクトルを生成する.

フレーム時刻 $f$ における,入力マスクベクトルを,

  $\displaystyle \boldsymbol {m}(f) $ $\displaystyle = $ $\displaystyle [m(f,0),m(f,1),\dots ,m(f,2P-1)]^{T} $   (133)

と表す.ただし,$P$ は,入力マスクベクトルのうち,静的特徴を表わす 次元数を表わし,FBANK_COUNT で与える.静的特徴のマスク値を用い, 動的特徴のマスク値を求め, $P$ から $2P-1$ 次元の要素に入れて出力 ベクトルを生成する.出力ベクトル $\boldsymbol {m}’(f)$ は,

  $\displaystyle \boldsymbol {y}’(f) $ $\displaystyle = $ $\displaystyle [m’(f,0),m’(f,1),\dots ,m’(f,2P-1)]^{T} $   (134)
  $\displaystyle m’(f,p) $ $\displaystyle = $ $\displaystyle \left\{ \begin{array}{ll} m(f,p), & {if~ ~ } p=0, \dots , P-1, \\ \displaystyle \prod _{\tau =-2}^{2} m(f+\tau ,p), & {if~ ~ } p=P, \dots , 2P-1, \end{array} \right. $   (135)

である.図 6.75DeltaMask の入出力フローを示す.

\includegraphics[width=120mm]{fig/modules/DeltaMaskIO.eps}
Figure 6.78: DeltaMask の入出力フロー.