6.4.9 SpectralMeanNormalization

6.4.9.1 ノードの概要

入力音響特徴量から特徴量の平均を除去することを意図した ノードである.ただし,実時間処理を実現するためには, 当該発話の平均を除去することができない問題がある. 当該発話の平均値をなんらかの値を用いてい推定あるいは,近似する必要がある.

6.4.9.2 必要なファイル

無し.

6.4.9.3 使用方法

どんなときに使うのか

音響特徴量の平均を除去したい時に使用する.音響モデル学習用音声データと 認識用音声データの収録環境の平均値のミスマッチを除去できる.

音声収録環境においてマイクロホンの特性は,統一できないことが多い. 特に,音響モデル学習時と認識時の音声収録環境は,必ずしも等しくない. 通常,学習用の音声コーパス作成者と,認識用音声データの収録者が異なる から環境を揃えることは困難である.従って,音声の収録環境に依存しない 特徴量を用いる必要がある.

例えば,学習データ収録に使用するマイクロホンと認識時に使用するマイクロ フォンは通常異なる.マイクロホンの特性の違いが,収録音の音響特徴のミス マッチとして現れ,認識性能の低下を招く.マイクロホンの特性の違いは,時 不変であり,平均スペクトルの差となって現れる.従って,平均スペクトルを除 去することで,簡易的に収録環境に依存した成分を特徴量から除去できる.

典型的な接続例

\includegraphics[width=100mm]{fig/modules/SpectralMeanNormalization}
Figure 6.78: SpectralMeanNormalization の接続例

6.4.9.4 ノードの入出力とプロパティ

Table 6.72: SpectralMeanNormalization のパラメータ表

パラメータ名

デフォルト値

単位

説明

FBANK_COUNT

int 

13

 

入力特徴パラメータの次元数

入力

FBANK

: Map<int, ObjectRef> 型.音源 ID と特徴量ベクトルの Vector<float> 型のデータのペア.

SOURCES

: Vector<ObjectRef> 型である.音源位置.

出力

OUTPUT

: Map<int, ObjectRef> 型.音源 ID と特徴量ベクトルの Vector<float> 型のデータのペア.

パラメータ

FBANK_COUNT

: int 型である.値域は 0 または正の整数である.

6.4.9.5 ノードの詳細

入力音響特徴量から特徴量の平均を除去することを意図した ノードである.ただし,実時間処理を実現するためには, 当該発話の平均を除去することができない問題がある. 当該発話の平均値をなんらかの値を用いてい推定あるいは,近似する必要がある.

当該発話の平均を除去する替りに,前発話の平均を近似値とし,除去することで 実時間平均除去を実現する.この方法では,更に音源方向を考慮しなければならない. 音源方向によって伝達関数が異なるため,当該発話と前発話が異なる方向から 受音された場合には,前発話の平均は,当該発話の平均の近似として 不適当である.この場合,当該発話の平均の近似として,当該発話よりも 前に発話されかつ,同方向からの発話の平均を用いる.

最後に以後の平均除去に備え,当該発話の平均を計算し,当該発話方向の 平均値としてメモリ内に保持する. 発話中に音源が10 [deg] 以上移動する場合は,別音源として,平均を計算する.