入力音響特徴量から特徴量の平均を除去することを意図した ノードである.ただし,実時間処理を実現するためには, 当該発話の平均を除去することができない問題がある. 当該発話の平均値をなんらかの値を用いてい推定あるいは,近似する必要がある.
無し.
どんなときに使うのか
音響特徴量の平均を除去したい時に使用する.音響モデル学習用音声データと 認識用音声データの収録環境の平均値のミスマッチを除去できる.
音声収録環境においてマイクロホンの特性は,統一できないことが多い. 特に,音響モデル学習時と認識時の音声収録環境は,必ずしも等しくない. 通常,学習用の音声コーパス作成者と,認識用音声データの収録者が異なる から環境を揃えることは困難である.従って,音声の収録環境に依存しない 特徴量を用いる必要がある.
例えば,学習データ収録に使用するマイクロホンと認識時に使用するマイクロ フォンは通常異なる.マイクロホンの特性の違いが,収録音の音響特徴のミス マッチとして現れ,認識性能の低下を招く.マイクロホンの特性の違いは,時 不変であり,平均スペクトルの差となって現れる.従って,平均スペクトルを除 去することで,簡易的に収録環境に依存した成分を特徴量から除去できる.
典型的な接続例
パラメータ名 |
型 |
デフォルト値 |
単位 |
説明 |
FBANK_COUNT |
13 |
入力特徴パラメータの次元数 |
入力
: Map<int, ObjectRef> 型.音源 ID と特徴量ベクトルの Vector<float> 型のデータのペア.
: Vector<ObjectRef> 型である.音源位置.
出力
: Map<int, ObjectRef> 型.音源 ID と特徴量ベクトルの Vector<float> 型のデータのペア.
パラメータ
: int 型である.値域は 0 または正の整数である.
入力音響特徴量から特徴量の平均を除去することを意図した ノードである.ただし,実時間処理を実現するためには, 当該発話の平均を除去することができない問題がある. 当該発話の平均値をなんらかの値を用いてい推定あるいは,近似する必要がある.
当該発話の平均を除去する替りに,前発話の平均を近似値とし,除去することで 実時間平均除去を実現する.この方法では,更に音源方向を考慮しなければならない. 音源方向によって伝達関数が異なるため,当該発話と前発話が異なる方向から 受音された場合には,前発話の平均は,当該発話の平均の近似として 不適当である.この場合,当該発話の平均の近似として,当該発話よりも 前に発話されかつ,同方向からの発話の平均を用いる.
最後に以後の平均除去に備え,当該発話の平均を計算し,当該発話方向の 平均値としてメモリ内に保持する. 発話中に音源が10 [deg] 以上移動する場合は,別音源として,平均を計算する.