HARK Document Version 3.1.0. (Revision: 9278) : SpectralMeanNormalization

6.4.9 SpectralMeanNormalization

6.4.9.1 ノードの概要

入力音響特徴量から特徴量の平均を除去することを意図したノードである．ただし，実時間処理を実現するためには，当該発話の平均を除去することができない問題がある．当該発話の平均値をなんらかの値を用いてい推定あるいは，近似する必要がある．

6.4.9.2 必要なファイル

無し．

6.4.9.3 使用方法

どんなときに使うのか

音響特徴量の平均を除去したい時に使用する．音響モデル学習用音声データと認識用音声データの収録環境の平均値のミスマッチを除去できる．

音声収録環境においてマイクロホンの特性は，統一できないことが多い．特に，音響モデル学習時と認識時の音声収録環境は，必ずしも等しくない．通常，学習用の音声コーパス作成者と，認識用音声データの収録者が異なるから環境を揃えることは困難である．従って，音声の収録環境に依存しない特徴量を用いる必要がある．

例えば，学習データ収録に使用するマイクロホンと認識時に使用するマイクロフォンは通常異なる．マイクロホンの特性の違いが，収録音の音響特徴のミスマッチとして現れ，認識性能の低下を招く．マイクロホンの特性の違いは，時不変であり，平均スペクトルの差となって現れる．従って，平均スペクトルを除去することで，簡易的に収録環境に依存した成分を特徴量から除去できる．

典型的な接続例

$\includegraphics[width=100mm]{fig/modules/SpectralMeanNormalization}$

Figure 6.89: SpectralMeanNormalization の接続例

6.4.9.4 ノードの入出力とプロパティ

Table 6.80: SpectralMeanNormalization のパラメータ表

パラメータ名	型	デフォルト値	単位	説明
FBANK_COUNT	`int`	13		入力特徴パラメータの次元数

入力

FBANK: : Map<int, ObjectRef> 型．音源 ID と特徴量ベクトルの Vector<float> 型のデータのペア．
SOURCES: : Vector<ObjectRef> 型である．音源位置．

出力

OUTPUT: : Map<int, ObjectRef> 型．音源 ID と特徴量ベクトルの Vector<float> 型のデータのペア．

パラメータ

FBANK_COUNT: : int 型である．値域は 0 または正の整数である．

6.4.9.5 ノードの詳細

当該発話の平均を除去する替りに，前発話の平均を近似値とし，除去することで実時間平均除去を実現する．この方法では，更に音源方向を考慮しなければならない．音源方向によって伝達関数が異なるため，当該発話と前発話が異なる方向から受音された場合には，前発話の平均は，当該発話の平均の近似として不適当である．この場合，当該発話の平均の近似として，当該発話よりも前に発話されかつ，同方向からの発話の平均を用いる．

最後に以後の平均除去に備え，当該発話の平均を計算し，当該発話方向の平均値としてメモリ内に保持する．発話中に音源が10 [deg] 以上移動する場合は，別音源として，平均を計算する．