14.5.1 はじめに

HARKでは,MSLSExtraction や MFCCExtraction で計算できる静的特徴量に加えて, 次の4種類の特徴量や処理の追加ができる.

  1. 動的特徴量 (デルタ項): 静的特徴量の変化. 表 14.12 では $\Delta $MSLSと表記. Delta で計算する.

  2. パワー: 入力音声の音量. 表 14.12 では Power と表記. PowerCalcForMap で計算する.

  3. デルタパワー: 入力音声の音量の変化. 表 14.12 では $\Delta $ Power と表記. Delta で計算する.

  4. 前処理: 高周波領域の強調 (PreEmphasis ),平均除去 など. 表 14.12 では 前処理 と表記.

本節では 表 14.12 に示す6種類のサンプルを提供する. 左列から順に, ネットワークファイル名, 生成する特徴量の種類や表記, 生成されるファイル名を示している. これらの実行は demo.sh に引数を与えることで行える. たとえば demo1.n を実行したいなら, 次のコマンドを実行すればよい.

> ./demo.sh 1

本節で提供するサンプルは, すべて 13次元の MSLS をオフラインで生成するネットワークを元にしている. オンラインで特徴量抽出を行うには AudioStreamFromWave を AudioStreamFromMic に差し替えればよい. MFCC を特徴量に使うには, MFCCExtraction の代わりに MSLSExtraction を使えばよい. また, 次元数を変えたければ MSLSExtraction のプロパティを設定すればよい. 詳しくは HARK Document の各ノードの説明を参照.

Table 14.13: 音響特徴量抽出ネットワーク一覧.
 

特徴量

 

ネットワーク

MSLS  

$\Delta $ MSLS

Power

$\Delta $Power

前処理

対応する節

生成されるファイル

ファイル名

13次元

13次元

1次元

1次元

次元なし

   

demo1.n

Yes

       

14.5.2

MFBANK13_0.spec

demo2.n

Yes

Yes

     

14.5.3

MFBANK26_0.spec

demo3.n

Yes

 

Yes

   

14.5.4

MFBANK14_0.spec

demo4.n

Yes

Yes

Yes

Yes

 

14.5.5

MFBANK28_0.spec

demo5.n

Yes

Yes

 

Yes

 

14.5.6

MFBANK27_0.spec

demo6.n

Yes

Yes

 

Yes

Yes

14.5.7

MFBANK27p_0.spec