本ノードは,音響特徴量の1つであるメルスケール対数スペクトル (MSLS : Mel-Scale Log-Spectrum) と対数パワーを求める. メルスケール対数スペクトル係数と対数スペクトルパワーを 要素とする音響特徴量ベクトルを生成する.
無し.
どんなときに使うのか
メルスケール対数スペクトル係数と対数パワーを次元要素とする. 音響特徴量ベクトルを生成するために用いる. 例えば,音響特徴量ベクトルを音声認識ノードに入力し,音韻や話者を識別する.
典型的な接続例
パラメータ名 |
型 |
デフォルト値 |
単位 |
説明 |
FBANK_COUNT |
13 |
入力スペクトルにかけるフィルタバンク数.実装は 13 に最適化されている. |
||
NORMALIZATION_MODE |
CEPSTRAL |
特徴量の正規化手法 |
||
USE_POWER |
false |
対数パワーを特徴量に含めるか含めないかの選択 |
入力
: Map<int, ObjectRef> 型.音源 ID とフィルタバンクの 出力エネルギーから構成されるベクトルの
Vector<float> 型のデータのペア.
: Map<int, ObjectRef> 型.音源 ID と複素スペクトルから構成される ベクトルの
Vector<complex<float> > 型のデータのペア.
出力
: Map<int, ObjectRef> 型.である.音源 ID と MSLS と対数パワー項から構成されるベクトルの Vector<float> 型のデータのペア.本ノードは, MSLS の静的特徴を求めるノードであるが,出力には,動的特徴量部を含んだベクトルを出力する.動的特徴量部分には, 0 が設定される.その様子を図 6.92 に示す.
パラメータ
: int 型.入力スペクトルにかけるフィルタバンク数. 値域は,正の整数. 値を大きくすると 1 バンク当りの担当周波数帯域が狭くなり, 周波数分解能の高い音響特徴量が求まる. 典型的な設定値は,13 から 24 である. ただし,現在の実装では,この値が 13 に固定されるよう最適化されているので, デフォルト値の利用を強く推奨する. より大きな FBANK_COUNT を設定すると,音響特徴をより精細に表現する. 音声認識には,必ずしも精細な表現が最適ではなく,発声する音響環境に依存する.
: string 型.CEPSTRAL または SPECTRAL を指定可能. 正規化をケプストラムドメイン/スペクトラムドメインで行うかを選択.
: trueにすると音響特徴量に対数パワー項を追加. falseにすると省略.音響特徴量にパワー項を利用することは稀であるが, 音声認識には,デルタ対数パワーが有効であるとされる.trueにし,後段で デルタ対数パワーを計算し,それを音響特徴量として用いる.
本ノードは,音響特徴量の1つであるメルスケール対数 スペクトル (MSLS : Mel-Scale Log-Spectrum) と対数パワーを求める. メルスケール対数スペクトル係数と対数スペクトルパワーを 次元要素とする音響特徴量を生成する.
本ノードの FBANK 入力端子には, 各フィルタバンクの出力対数エネルギーを 入力する.指定する正規化手法によって,出力する MSLS の計算方法が異なる.
以下で,正規化手法ごとに本ノードの出力ベクトルの計算方法を示す.
: FBANK 端子への入力を,
x | = | [x(0),x(1),⋯,x(P−1)]T | (146) |
と表す.ただし,P は,入力特徴ベクトルの次元数で,FBANK_COUNT である. 出力されるベクトルは,P+1 次元ベクトルで, MSLS 係数と パワー項から構成される.1 次元目から P 次元目までは, MSLS で,P+1 次元目は,パワー項である. 本ノードの出力ベクトルは,
y | = | [y(0),y(1),…,y(P−1),E]T | (147) | ||
y(p) | = | 1PP−1∑q=0{L(q)⋅P−1∑r=0{log(x(r))cos(πq(r+0.5)P)}cos(πq(p+0.5)P)} | (148) |
である.ただし,リフタリング係数は,
L(p) | = | {1.0,(p=0,…,P−1),0.0,(p=P,…,2P−1), | (149) |
とする.ただし,Q=22 である.
: FBANK 部の入力を
x | = | [x(0),x(1),⋯,x(P−1)]T | (150) |
と表す.ただし,P は,入力特徴ベクトルの次元数で,FBANK_COUNT である. 出力されるベクトルは,P+1 次元ベクトルで, MSLS 係数と パワー項から構成される.1 次元目から P 次元目までは, MSLS で,P+1 次元目は,パワー項である. 本ノードの出力ベクトルは,
y | = | [y(0),y(1),…,y(P−1),E]T | (151) | ||
y(p) | = | {(log(x(p))−μ)−0.9(log(x(p−1))−μ),if p=1,…,P−1log(x(p),if p=0, | (152) | ||
μ | = | 1PP−1∑q=0log(x(q)), | (153) |
である.周波数方向の平均除去と,ピーク強調処理を適用ている.
対数パワー項は,SPECTRUM 端子の入力を
s | = | [s(0),s(1),…,s(N−1)]T | (154) |
と表す.ただし,N は,SPECTRUM 端子に接続された Map のサイズによって決る. Map は,0 から π までのスペクトル表現を B 個のビンに格納しているとすると, N=2(B−1) である.この時,パワー項は,
p | = | log(1NN−1∑n=0s(n)) | (155) |
である.