HARKでは,MSLSExtraction や MFCCExtraction で計算できる静的特徴量に加えて, 次の4種類の特徴量や処理の追加ができる.
動的特徴量 (デルタ項): 静的特徴量の変化. 表 14.12 では $\Delta $MSLSと表記. Delta で計算する.
パワー: 入力音声の音量. 表 14.12 では Power と表記. PowerCalcForMap で計算する.
デルタパワー: 入力音声の音量の変化. 表 14.12 では $\Delta $ Power と表記. Delta で計算する.
前処理: 高周波領域の強調 (PreEmphasis ),平均除去 など. 表 14.12 では 前処理 と表記.
本節では 表 14.12 に示す6種類のサンプルを提供する. 左列から順に, ネットワークファイル名, 生成する特徴量の種類や表記, 生成されるファイル名を示している. これらの実行は demo.sh に引数を与えることで行える. たとえば demo1.n を実行したいなら, 次のコマンドを実行すればよい.
> ./demo.sh 1
本節で提供するサンプルは, すべて 13次元の MSLS をオフラインで生成するネットワークを元にしている. オンラインで特徴量抽出を行うには AudioStreamFromWave を AudioStreamFromMic に差し替えればよい. MFCC を特徴量に使うには, MFCCExtraction の代わりに MSLSExtraction を使えばよい. また, 次元数を変えたければ MSLSExtraction のプロパティを設定すればよい. 詳しくは HARK Document の各ノードの説明を参照.
特徴量 |
|||||||
ネットワーク |
MSLS |
$\Delta $ MSLS |
Power |
$\Delta $Power |
前処理 |
対応する節 |
生成されるファイル |
ファイル名 |
13次元 |
13次元 |
1次元 |
1次元 |
次元なし |
||
demo1.n |
Yes |
MFBANK13_0.spec |
|||||
demo2.n |
Yes |
Yes |
MFBANK26_0.spec |
||||
demo3.n |
Yes |
Yes |
MFBANK14_0.spec |
||||
demo4.n |
Yes |
Yes |
Yes |
Yes |
MFBANK28_0.spec |
||
demo5.n |
Yes |
Yes |
Yes |
MFBANK27_0.spec |
|||
demo6.n |
Yes |
Yes |
Yes |
Yes |
MFBANK27p_0.spec |