本ノードは,音響特徴量の1つであるメルスケール対数スペクトル (MSLS : Mel-Scale Log-Spectrum) と対数パワーを求める. メルスケール対数スペクトル係数と対数スペクトルパワーを 要素とする音響特徴量ベクトルを生成する.
無し.
どんなときに使うのか
メルスケール対数スペクトル係数と対数パワーを次元要素とする. 音響特徴量ベクトルを生成するために用いる. 例えば,音響特徴量ベクトルを音声認識ノードに入力し,音韻や話者を識別する.
典型的な接続例
パラメータ名 |
型 |
デフォルト値 |
単位 |
説明 |
FBANK_COUNT |
13 |
入力スペクトルにかけるフィルタバンク数.実装は 13 に最適化されている. |
||
NORMALIZATION_MODE |
CEPSTRAL |
特徴量の正規化手法 |
||
USE_POWER |
false |
対数パワーを特徴量に含めるか含めないかの選択 |
入力
: Map<int, ObjectRef> 型.音源 ID とフィルタバンクの 出力エネルギーから構成されるベクトルの
Vector<float> 型のデータのペア.
: Map<int, ObjectRef> 型.音源 ID と複素スペクトルから構成される ベクトルの
Vector<complex<float> > 型のデータのペア.
出力
: Map<int, ObjectRef> 型.である.音源 ID と MSLS と対数パワー項から構成されるベクトルの Vector<float> 型のデータのペア.本ノードは, MSLS の静的特徴を求めるノードであるが,出力には,動的特徴量部を含んだベクトルを出力する.動的特徴量部分には, 0 が設定される.その様子を図 6.85 に示す.
パラメータ
: int 型.入力スペクトルにかけるフィルタバンク数. 値域は,正の整数. 値を大きくすると 1 バンク当りの担当周波数帯域が狭くなり, 周波数分解能の高い音響特徴量が求まる. 典型的な設定値は,13 から 24 である. ただし,現在の実装では,この値が 13 に固定されるよう最適化されているので, デフォルト値の利用を強く推奨する. より大きな FBANK_COUNT を設定すると,音響特徴をより精細に表現する. 音声認識には,必ずしも精細な表現が最適ではなく,発声する音響環境に依存する.
: string 型.CEPSTRAL または SPECTRAL を指定可能. 正規化をケプストラムドメイン/スペクトラムドメインで行うかを選択.
: trueにすると音響特徴量に対数パワー項を追加. falseにすると省略.音響特徴量にパワー項を利用することは稀であるが, 音声認識には,デルタ対数パワーが有効であるとされる.trueにし,後段で デルタ対数パワーを計算し,それを音響特徴量として用いる.
本ノードは,音響特徴量の1つであるメルスケール対数 スペクトル (MSLS : Mel-Scale Log-Spectrum) と対数パワーを求める. メルスケール対数スペクトル係数と対数スペクトルパワーを 次元要素とする音響特徴量を生成する.
本ノードの FBANK 入力端子には, 各フィルタバンクの出力対数エネルギーを 入力する.指定する正規化手法によって,出力する MSLS の計算方法が異なる.
以下で,正規化手法ごとに本ノードの出力ベクトルの計算方法を示す.
: FBANK 端子への入力を,
$\displaystyle \boldsymbol {x} $ | $\displaystyle = $ | $\displaystyle [ x(0),x(1), \cdots , x(P-1) ]^ T $ | (141) |
と表す.ただし,$P$ は,入力特徴ベクトルの次元数で,FBANK_COUNT である. 出力されるベクトルは,$P+1$ 次元ベクトルで, MSLS 係数と パワー項から構成される.1 次元目から $P$ 次元目までは, MSLS で,$P+1$ 次元目は,パワー項である. 本ノードの出力ベクトルは,
$\displaystyle \boldsymbol {y} $ | $\displaystyle = $ | $\displaystyle [y(0),y(1),\dots ,y(P-1), E]^ T $ | (142) | ||
$\displaystyle y(p) $ | $\displaystyle = $ | $\displaystyle \displaystyle \frac{1}{P} \sum _{q=0}^{P-1} \Bigl \{ L(q) \cdot \sum _{r=0}^{P-1} \Bigl \{ \log (x(r)) \cos \Bigl ( \frac{ \pi q (r+0.5)}{P} \Bigr ) \Bigr \} \cos \Bigl ( \frac{\pi q (p+0.5) }{P} \Bigr ) \bigr \} $ | (143) |
である.ただし,リフタリング係数は,
$\displaystyle L(p) $ | $\displaystyle = $ | $\displaystyle \left\{ \begin{array}{ll} 1.0, & (p=0, \dots ,P-1), \\ 0.0, & (p=P, \dots ,2P-1), \\ \end{array} \right. $ | (144) |
とする.ただし,$Q=22$ である.
: FBANK 部の入力を
$\displaystyle \boldsymbol {x} $ | $\displaystyle = $ | $\displaystyle [ x(0),x(1), \cdots , x(P-1) ]^ T $ | (145) |
と表す.ただし,$P$ は,入力特徴ベクトルの次元数で,FBANK_COUNT である. 出力されるベクトルは,$P+1$ 次元ベクトルで, MSLS 係数と パワー項から構成される.1 次元目から $P$ 次元目までは, MSLS で,$P+1$ 次元目は,パワー項である. 本ノードの出力ベクトルは,
$\displaystyle \boldsymbol {y} $ | $\displaystyle = $ | $\displaystyle [y(0),y(1),\dots ,y(P-1), E]^ T $ | (146) | ||
$\displaystyle y(p) $ | $\displaystyle = $ | $\displaystyle \left\{ \begin{array}{ll} ( \log (x(p)) - \mu ) - 0.9 ( \log (x(p-1)) - \mu ), & if~ ~ p=1,\dots ,P-1 \\ \log (x(p), & if ~ ~ p=0, \\ \end{array} \right. $ | (147) | ||
$\displaystyle \mu $ | $\displaystyle = $ | $\displaystyle \frac{1}{P} \sum _{q=0}^{P-1} \log (x(q)), $ | (148) |
である.周波数方向の平均除去と,ピーク強調処理を適用ている.
対数パワー項は,SPECTRUM 端子の入力を
$\displaystyle \boldsymbol {s} $ | $\displaystyle = $ | $\displaystyle [ s(0),s(1), \dots , s(N-1) ]^ T $ | (149) |
と表す.ただし,$N$ は,SPECTRUM 端子に接続された Map のサイズによって決る. Map は,0 から $\pi $ までのスペクトル表現を $B$ 個のビンに格納しているとすると, $N = 2(B-1)$ である.この時,パワー項は,
$\displaystyle p $ | $\displaystyle = $ | $\displaystyle \log \Bigl ( \frac{1}{N} \sum _{n=0}^{N-1} s(n) \Bigr ) $ | (150) |
である.