Processing math: 0%

6.3.11 PostFilter

6.3.11.1 ノードの概要

このノードは,音源分離ノード GHDSS によって分離された複素スペクトルに対し, 音声認識精度を向上するための後処理を行う. 同時に,ミッシングフィーチャーマスクを生成するための,ノイズパワースペクトルの生成も行う.

6.3.11.2 必要なファイル

無し.

6.3.11.3 使用方法

どんなときに使うのか

このノードは,GHDSS ノードによって分離されたスペクトルの整形と, ミッシングフィーチャーマスクを生成するために必要なノイズスペクトルを生成する時に用いる.

典型的な接続例

PostFilter ノードの接続例は図 6.75 の通り. 入力の接続として,INPUT_SPEC は GHDSS ノードの出力, INIT_NOISE_POWER は BGNEstimator ノードの出力と接続する.

出力について,図 6.75 では

  1. 分離音 (OUTPUT_SPEC) の音声特徴抽出 (MSLSExtraction ノード),

  2. 分離音と分離音に含まれるノイズのパワー (EST_NOISE_POWER) から音声認識時のミッシングフィーチャーマスク生成 (MFMGeneration ノード)

の接続例を示している.

\includegraphics[width=.9\textwidth ]{fig/modules/PostFilter}
Figure 6.75: PostFilter の接続例

6.3.11.4 ノードの入出力とプロパティ

入力

INPUT_SPEC

: Map<int, ObjectRef> 型. GHDSS ノードからの出力と同じ型. 音源 ID と,分離音の複素スペクトルである Vector<complex<float> > 型データのペア.

INPUT_NOISE_POWER

: Matrix<float> 型. BGNEstimator ノードによって推定された定常ノイズのパワースペクトル.

出力

OUTPUT_SPEC

: Map<int, ObjectRef> 型. 入力 INPUT_SPEC から,ノイズ除去がされた分離音の複素スペクトル. Object 部分は Vector<complex<float> > 型.

EST_NOISE_POWER

: Map<int, ObjectRef> 型. OUTPUT_SPEC の各分離音に対して,含まれていると推定されたノイズのパワーが, Vector<float> 型データとして ID とペアになっている.

パラメータ

Table 6.63: PostFilter のパラメータ表 (前半)

パラメータ名

デフォルト値

単位

説明

MCRA_SETTING

bool 

false

 

ノイズ除去手法である,MCRA推定に関するパラメータ設定項目を表示する時,trueにする.

MCRA_SETTING

     

以下,MCRA_SETTING が trueの時に表示される

STATIONARY_NOISE_FACTOR

float 

1.2

 

定常ノイズ推定時の係数.

SPEC_SMOOTH_FACTOR

float 

0.5

 

入力パワースペクトルの平滑化係数.

AMP_LEAK_FACTOR

float 

1.5

 

漏れ係数.

STATIONARY_NOISE_MIXTURE_FACTOR

float 

0.98

 

定常ノイズの混合比.

LEAK_FLOOR

float 

0.1

 

漏れノイズの最小値.

BLOCK_LENGTH

int 

80

 

検出時間幅.

VOICEP_THRESHOLD

int 

3

 

音声存在判定の閾値.

EST_LEAK_SETTING

bool 

false

 

漏れ率推定に関するパラメータ設定項目を表示する時,trueにする.

EST_LEAK_SETTING

     

以下,EST_LEAK_SETTING が trueの時に表示される.

LEAK_FACTOR

float 

0.25

 

漏れ率.

OVER_CANCEL_FACTOR

float 

1

 

漏れ率重み係数.

EST_REV_SETTING

bool 

false

 

残響成分推定に関するパラメータ設定項目を表示する時,trueにする.

EST_REV_SETTING

     

以下,EST_REV_SETTING が trueの時に表示される.

REVERB_DECAY_FACTOR

float 

0.5

 

残響パワーの減衰係数.

DIRECT_DECAY_FACTOR

float 

0.2

 

分離スペクトルの減衰係数.

EST_SN_SETTING

bool 

false

 

SN 比推定に関するパラメータ設定項目を表示する時,trueにする.

EST_SN_SETTING

     

以下,EST_SN_SETTING が trueの時に表示される.

PRIOR_SNR_FACTOR

float 

0.8

 

事前 SNR と事後 SNR の比率.

VOICEP_PROB_FACTOR

float 

0.9

 

音声存在確率の振幅係数.

MIN_VOICEP_PROB

float 

0.05

 

最小音声存在確率.

MAX_PRIOR_SNR

float 

100

 

事前 SNR の最大値.

MAX_OPT_GAIN

float 

20

 

最適ゲイン中間変数 v の最大値.

MIN_OPT_GAIN

float 

6

 

最適ゲイン中間変数 v の最小値.

Table 6.64: PostFilter のパラメータ表 (後半)

パラメータ名

デフォルト値

単位

説明

EST_VOICEP_SETTING

bool 

false

 

音声確率推定に関するパラメータを設定する時,trueにする.

EST_VOICEP_SETTING

     

以下,EST_VOICEP_SETTING が trueの時に有効.

PRIOR_SNR_SMOOTH_FACTOR

float 

0.7

 

時間平滑化係数.

MIN_FRAME_SMOOTH_SNR

float 

0.1

 

周波数平滑化 SNR の最小値 (frame).

MAX_FRAME_SMOOTH_SNR

float 

0.316

 

周波数平滑化 SNR の最大値 (frame).

MIN_GLOBAL_SMOOTH_SNR

float 

0.1

 

周波数平滑化 SNR の最小値 (global).

MAX_GLOBAL_SMOOTH_SNR

float 

0.316

 

周波数平滑化 SNR の最大値 (global).

MIN_LOCAL_SMOOTH_SNR

float 

0.1

 

周波数平滑化 SNR の最小値 (local).

MAX_LOCAL_SMOOTH_SNR

float 

0.316

 

周波数平滑化 SNR の最大値 (local).

UPPER_SMOOTH_FREQ_INDEX

int 

99

 

周波数平滑化上限ビンインデックス.

LOWER_SMOOTH_FREQ_INDEX

int 

8

 

周波数平滑化下限ビンインデックス.

GLOBAL_SMOOTH_BANDWIDTH

int 

29

 

周波数平滑化バンド幅(global).

LOCAL_SMOOTH_BANDWIDTH

int 

5

 

周波数平滑化バンド幅(local).

FRAME_SMOOTH_SNR_THRESH

float 

1.5

 

周波数平滑化 SNR の閾値.

MIN_SMOOTH_PEAK_SNR

float 

1.0

 

周波数平滑化 SNR ピークの最小値.

MAX_SMOOTH_PEAK_SNR

float 

10.0

 

周波数平滑化 SNR ピークの最大値.

FRAME_VOICEP_PROB_FACTOR

float 

0.7

 

音声確率平滑化係数 (frame).

GLOBAL_VOICEP_PROB_FACTOR

float 

0.9

 

音声確率平滑化係数 (global).

LOCAL_VOICEP_PROB_FACTOR

float 

0.9

 

音声確率平滑化係数 (local).

MIN_VOICE_PAUSE_PROB

float 

0.02

 

音声休止確率の最小値.

MAX_VOICE_PAUSE_PROB

float 

0.98

 

音声休止確率の最大値.

6.3.11.5 ノードの詳細

\includegraphics[width=0.7\textwidth ]{fig/modules/PF-fc-overview.eps}
Figure 6.76: PostFilter の流れ図

式で用いられる添字は,表 6.1 で定義されているものに準拠する. また,以降の式では,特に必要のない場合は,時間フレームインデックス f を省略して表記する.

6.76 は,PostFilter ノードの流れ図である. 入力としては,GHDSS ノードからの分離音スペクトルと, BGNEstimator ノードの定常ノイズパワースペクトルが得られる. 出力には,音声が強調された分離音スペクトルと,分離音に混入しているノイズのパワースペクトルである.

処理の流れは

  1. ノイズ推定

  2. SNR 推定

  3. 音声存在確率推定

  4. ノイズ除去

となっている.

1) ノイズ推定:

\includegraphics[width=0.7\textwidth ]{fig/modules/PF-fc-noise.eps}
Figure 6.77: ノイズ推定の手順

ノイズ推定処理の流れを図 6.77 に示す. PostFilter ノードが対処するノイズは,
a) マイクロホンの接点などが要因となる定常ノイズ ,
b) 除去しきれなかった別の音源の音 (漏れノイズ),
c) 前フレームの残響,
の3つである.

最終的な分離音に含まれるノイズ \boldsymbol {\lambda }(f,k_ i) は,

  \displaystyle \boldsymbol {\lambda }(f, k_ i) \displaystyle = \displaystyle \boldsymbol {\lambda }^{sta}(f, k_ i) + \boldsymbol {\lambda }^{leak}(f, k_ i) + \boldsymbol {\lambda }^{rev}(f-1, k_ i)   (91)

として求められる. ただし,\boldsymbol {\lambda }^{sta}(f, k_ i),\boldsymbol {\lambda }^{leak}(f, k_ i),\boldsymbol {\lambda }^{rev}(f-1, k_ i) はそれぞれ, 定常ノイズ,漏れノイズ,前フレームの残響を表す.

6.3.11.5.1 1-a) MCRA 法による定常ノイズ推定

1-a) で用いる変数は 表6.65 に基づく.

Table 6.65: 変数の定義

変数

説明,対応するパラメータ

\boldsymbol {Y}(k_ i) = \left[Y_1(k_ i),\dots , Y_ N(k_ i) \right]^ T

周波数ビン k_ i に対応する分離音複素スペクトル

\boldsymbol {\lambda }^{init}(k_ i) = \left[\lambda ^{init}_{1}(k_ i),\dots , \lambda ^{init}_ N(k_ i)\right]^ T

定常ノイズ推定に用いる初期値パワースペクトル

\boldsymbol {\lambda }^{sta}(k_ i) = \left[\lambda ^{sta}_{1}(k_ i),\dots , \lambda ^{sta}_ N(k_ i) \right]^ T

推定された定常ノイズパワースペクトル.

\alpha _ s

入力パワースペクトルの平滑化係数.パラメータ SPEC_SMOOTH_FACTOR,デフォルト 0.5

\boldsymbol {S}^{tmp}(k_ i) = \left[S^{tmp}_1(k_ i), \dots , S^{tmp}_ N(k_ i) \right]

最小パワー計算用のテンポラリ変数.

\boldsymbol {S}^{min}(k_ i) = \left[S^{min}_1(k_ i), \dots , S^{min}_ N(k_ i) \right]

最小パワーを保持する変数.

L

\boldsymbol {S}_{tmp} の保持フレーム数.パラメータ BLOCK_LENGTH,デフォルト 80

\delta

音声存在判定の閾値.パラメータ VOICEP_THRESHOLD,デフォルト 3.0

\alpha _ d

推定定常ノイズの混合比.パラメータ STATIONARY_NOISE_MIXTURE_FACTOR,デフォルト 0.98

\boldsymbol {Y}^{leak}(k_ i)

分離音に含まれると推定される漏れノイズのパワースペクトル

q

入力分離音パワーから漏れノイズを除くときの係数.パラメータ AMP_LEAK_FACTOR, デフォルト 1.5

S_{floor}

漏れノイズ最小値.パラメータ LEAK_FLOOR, デフォルト 0.1

r

定常ノイズ推定時の係数.パラメータ STATIONARY_NOISE_FACTOR, デフォルト 1.2

まず,入力スペクトルを1フレーム前のパワーと平滑化したパワースペクトル \boldsymbol {S}(f,k_ i) = \left[S_1(f,k_ i),\dots , S_ N(f,k_ i)\right] を求める.

  \displaystyle S_ n(f,k_ i) \displaystyle = \displaystyle \alpha _ s S_ n(f-1,k_ i) + (1 - \alpha _ s) |Y_ n(k_ i)|^2 \label{eq:MCRA-smooth}   (92)

次に,\boldsymbol {S}^{tmp}\boldsymbol {S}^{min} を更新する.

  \displaystyle S^{min}_ n(f,k_ i) \displaystyle = \displaystyle \left\{ \begin{array}{cr} \min \{ S^{min}_ n(f-1,k_ i),S_ n(f,k_ i)\} & \mathrm{if}\ \ f \neq nL\\ \min \{ S^{tmp}_ n(f-1,k_ i),S_ n(f,k_ i)\} & \mathrm{if}\ \ f = nL \end{array}\right.,   (93)
  \displaystyle S^{min}_ n(f,k_ i) \displaystyle = \displaystyle \left\{ \begin{array}{cr} \min \{ S^{tmp}_ n(f-1,k_ i),S_ n(f,k_ i)\} & \mathrm{if}\ \ f \neq nL\\ S_ n(f,k_ i) & \mathrm{if}\ \ f = nL \end{array}\right.,   (94)

ただし,n は任意の整数である. \boldsymbol {S}^{min} はノイズ推定を始めてからの最小パワーを保持し, \boldsymbol {S}^{tmp} は最近の L フレームの極小パワーを保持している. L フレームごとに \boldsymbol {S}^{tmp} は更新される.

続いて,最小パワーと入力分離音のパワーの比から,音声が含まれるかどうかを判定する.

  \displaystyle S_ n^{r}(k_ i) \displaystyle = \displaystyle \frac{S_ n(k_ i)}{S^{min}(k_ i)},   (95)
  \displaystyle I_ n(k_ i) \displaystyle = \displaystyle \left\{ \begin{array}{cr} 1 & \mathrm{if}\ \ S_ n^ r(k_ i) > \delta \\ 0 & \mathrm{if}\ \ S_ n^ r(k_ i) \leq \delta \end{array} \right.   (96)

I_ n(k_ i) に音声が含まれる場合 1,含まれない場合 0となる. この判定結果をもとに,前フレーム定常ノイズと, 現在のフレームのパワーとの混合比 \alpha _{d,n}^ C(k_ i) を決める.

  \displaystyle \alpha _{d,n}^ C(k_ i) \displaystyle = \displaystyle (\alpha _ d - 1)I_ n(k_ i) + 1.   (97)

次に,分離音のパワースペクトルに含まれる漏れノイズを除去する.

  \displaystyle S^{leak}_ n(k_ i) \displaystyle = \displaystyle \sum _{p=1}^{N}|Y_ p(k_ i)|^2 - |Y_ n(k_ i)|^2,\label{eq:MCRA-leak}   (98)
  \displaystyle S_ n^0(k_ i) \displaystyle = \displaystyle |Y_ n(k_ i)|^2 - q S^{leak}_ n(k_ i),   (99)

ただし,S_ n^0(k_ i) < S_{floor} のとき,

  \displaystyle S_ n^0(k_ i) \displaystyle = \displaystyle S_{floor}   (100)

に値が変更される.

漏れノイズを除いたパワースペクトル S_ n^0(f,k_ i) と, 前フレームの推定定常ノイズ \boldsymbol {\lambda }^{sta}(f-1,k_ i) または, BGNEstimator からの出力である {bf \lambda }^{init}(f,k_ i) を混合することで, 現在のフレームの定常ノイズを求める.

  \displaystyle \lambda ^{sta}_ n(f,k_ i) \displaystyle = \displaystyle \left\{ \begin{array}{cr} \alpha _{d,n}^ C(k_ i) \lambda ^{sta}_ n(f-1,k_ i) + (1-\alpha _{d,n}^ C(k_ i) r S_ n^0(f,k_ i) & \mathrm{if }{音源位置に変更なし}\\ \alpha _{d,n}^ C(k_ i) \lambda ^{init}_ n(f,k_ i) + (1-\alpha _{d,n}^ C(k_ i) r S_ n^0(f,k_ i) & \mathrm{if }{音源位置に変更あり} \end{array} \right.   (101)

6.3.11.5.2 1-b) 漏れノイズ推定

1-b) で用いる変数は 表6.66 に基づく.

Table 6.66: 変数の定義

変数

説明,対応するパラメータ

\boldsymbol {\lambda }^{leak}(k_ i)

漏れノイズのパワースペクトル,各分離音の要素から成るベクトル.

\alpha ^{leak}

全分離音パワーの合計に対する漏れ率. LEAK_FACTOR \times OVER_CANCEL_FACTOR

S_ n(f,k_ i)

式 (92) で求める平滑化パワースペクトル

いくつかのパラメータを次のように計算する.

  \displaystyle \beta \displaystyle = \displaystyle -\frac{\alpha ^{leak}}{1-(\alpha ^{leak})^2+\alpha ^{leak}(1-\alpha ^{leak})(N-2)}   (102)
  \displaystyle \alpha \displaystyle = \displaystyle 1 - (N-1)\alpha ^{leak}\beta   (103)

このパラメータを用いて,平滑化されたスペクトル \boldsymbol {S}(k_ i) と, 式 (98) で求められた,他の分離音のパワーから自分の分離音のパワーを除いた パワースペクトル S^{leak}_ n(k_ i) を混合する.

  \displaystyle Z_ n(k_ i) \displaystyle = \displaystyle \alpha S_ n(k_ i) + \beta S^{leak}_ n(k_ i),   (104)

ただし,Z_ n(k_ i) < 1 になる場合は,Z_ n(k_ i) = 1 とする.

最終的な漏れノイズのパワースペクトル \boldsymbol {\lambda }^{leak}(k_ i) は,

  \displaystyle \lambda ^{leak}_ n \displaystyle = \displaystyle \alpha ^{leak} \left(\sum _{n' \neq n}Z_{n'}(k_ i) \right)   (105)

として求める.

6.3.11.5.3 1-c) 残響推定

1-c) で用いる変数は 表6.67 に基づく.

Table 6.67: 変数の定義

変数

説明,対応するパラメータ

\boldsymbol {\lambda }^{rev}(f,k_ i)

時間フレーム f での残響のパワースペクトル

\boldsymbol {\hat S}(f-1,k_ i)

前フレームの PostFilter の出力したノイズ除去後分離音スペクトル

\gamma

前フレーム残響パワーの減衰係数.パラメータ REVERB_DECAY_FACTOR,デフォルト 0.5

\Delta

前フレーム分離音の減衰係数.パラメータ DIRECT_DECAY_FACTOR,デフォルト 0.2

残響のパワーは,前フレームの推定残響パワー \boldsymbol {\lambda }^{rev}(f-1,k_ i) = [\lambda _1^{rev}(f-1,k_ i),\dots ,\lambda _ N^{rev}(f-1,k_ i)]^ T と, 前フレームの分離スペクトル {\boldsymbol {\hat S}}(f-1,k_ i) = [{\hat S}_1(f-1,k_ i),\dots , {\hat S}_ N(f-1,k_ i)]^ T から次のように計算される. {\hat S}_ n(f-1,k_ i) は複素数であることに注意.

  \displaystyle \lambda _ n^{rev}(f,k_ i) \displaystyle = \displaystyle \gamma \left(\lambda _ n^{rev}(f-1,k_ i) + \Delta |{\hat S}_ n(f-1,k_ i)|^2 \right)   (106)

2) SNR 推定:

\includegraphics[width=0.7\textwidth ]{fig/modules/PF-fc-SNR.eps}
Figure 6.78: SNR 推定の手順

SNR 推定の流れを図 6.78 に示す. SNR 推定は,
a) SNR の計算
b) ノイズ混入前の事前 SNR 推定
c) 音声含有率の推定
d) 最適ゲインの推定
から成る.

Table 6.68: 主な変数の定義

変数

説明,対応するパラメータ

\boldsymbol {Y}(k_ i)

PostFilter ノードの入力である分離音の複素スペクトル

{\boldsymbol {\hat S}}(k_ i)

PostFilter ノードの出力となる,整形された分離音複素スペクトル

\boldsymbol {\lambda }(k_ i)

前段で推定されたノイズのパワースペクトル

\gamma _ n(k_ i)

分離音 n の SNR

\alpha _ n^ p(k_ i)

音声含有率

\xi _ n(k_ i)

事前 SNR

\boldsymbol {G}^{H1}(k_ i)

分離音の SNR を向上させるための最適ゲイン

6.68 のベクトルの要素は,各分離音の値に対応する.

6.3.11.5.4 2-a) SNR の計算

2-a) で用いる変数は,表6.68 に従う. ここでは,入力の複素スペクトル \boldsymbol {Y}(k_ i) と, 前段で推定されたノイズのパワースペクトル \boldsymbol {\lambda }(k_ i) を元に, SNR \gamma _ n(k_ i) が計算される.

  \displaystyle \gamma _ n(k_ i) \displaystyle = \displaystyle \frac{|Y_ n(k_ i)|^2}{\lambda _ n(k_ i)}   (107)
  \displaystyle \gamma _ n^ C(k_ i) \displaystyle = \displaystyle \left\{ \begin{array}{cr} \gamma _ n(k_ i) & \mathrm{if}\ \ \gamma _ n(k_ i) > 0\\ 0 & \mathrm{otherwise} \end{array} \right.   (108)

6.3.11.5.5 2-b) 音声含有率の推定

2-b) で用いる変数は,表6.69 に従う.

Table 6.69: 変数の定義

変数

説明,対応するパラメータ

\alpha ^ p_{mag}

事前SNR係数.パラメータ VOICEP_PROB_FACTOR,デフォルト 0.9

\alpha ^ p_{min}

最小音声含有率.パラメータ MIN_VOICEP_PROB,デフォルト 0.05

音声含有率 \alpha _ n^ p(f,k_ i) は,前フレームの事前 SNR \xi _ n(f-1,k_ i) を用いて次のように計算される.

  \displaystyle \alpha _ n^ p(f,k_ i) \displaystyle = \displaystyle \alpha ^ p_{mag} \left(\frac{\xi _ n(f-1,k_ i)}{\xi _ n(f-1,k_ i)+1}\right)^2 + \alpha ^ p_{min}   (109)

6.3.11.5.6 2-c) ノイズ混入前の事前 SNR 推定

2-c) で用いる変数は,表6.70 に従う.

Table 6.70: 変数の定義

変数

説明,対応するパラメータ

a

前フレーム SNR の内分比.パラメータ PRIOR_SNR_FACTOR,デフォルト 0.8

\xi ^{max}

事前SNR の上限.パラメータ MAX_PRIOR_SNR,デフォルト 100

事前 SNR \xi _ n(k_ i) は,次のようにして計算する.

  \displaystyle \xi _ n(k_ i) \displaystyle = \displaystyle \left(1-\alpha _ n^ p(k_ i)\right) \xi _{tmp} + \alpha _ n^ p(k_ i) \gamma _ n^ C(k_ i) \label{eq:prior-SNR}   (110)
  \displaystyle \xi _{tmp} \displaystyle = \displaystyle a \frac{|{\hat S}_ n(f-1,k_ i)|^2}{\lambda _ n(f-1,k_ i)} + (1-a) \xi _ n(f-1,k_ i)   (111)

ただし,\xi _{tmp} は計算上の一時的な変数で,前フレームの推定 SNR\gamma _ n(k_ i) と,事前 SNR \xi _ n(k_ i) の内分値である. また,\xi _ n(k_ i) > \xi ^{max} となる場合,\xi _ n(k_ i) = \xi ^{max} と値を変更する.

6.3.11.5.7 2-d) 最適ゲインの推定

2-d) で用いる変数は,表6.71 に従う.

Table 6.71: 変数の定義

変数

説明,対応するパラメータ

\theta ^{max}

中間変数 v_ n(k_ i) 最大値.パラメータ MAX_OPT_GAIN,デフォルト 20

\theta ^{min}

中間変数 v_ n(k_ i) 最小値.パラメータ MIN_OPT_GAIN,デフォルト 6

最適ゲイン計算の前に,上で求めた事前 SNR\xi _ n(k_ i) と,推定 SNR\gamma _ n(k_ i) を 用いて,以下の中間変数 v_ n(k_ i) を計算する.

  \displaystyle v_ n(k_ i) \displaystyle = \displaystyle \frac{\xi _ n(k_ i)}{1+\xi _ n(k_ i)} \gamma _ n(k_ i) \label{eq:prior-SNR-temp-v}   (112)

v_ n(k_ i) > \theta ^{max} の場合,v_ n(k_ i) = \theta ^{max} とする.

音声がある場合の最適ゲイン \boldsymbol {G}^{H1}(k_ i) = [G^{H1}_1(k_ i),\dots , G^{H1}_ N(k_ i)] は,

  \displaystyle G^{H1}_ n(k_ i) \displaystyle = \displaystyle \frac{\xi _ n(k_ i)}{1+\xi _ n(k_ i)}\exp \left\{ \frac{1}{2}\int _{v_ n(k_ i)}^{\inf }\frac{e^{-t}}{t}\mathrm{d}t \right\}   (113)

として求める. ただし,

  \displaystyle \begin{array}{cr} G^{H1}_ n(k_ i) = 1 & \mathrm{if} v_ n(k_ i) < \theta ^{min} \\ G^{H1}_ n(k_ i) = 1 & \mathrm{if} G^{H1}_ n(k_ i) > 1. \end{array}   (114)

3) 音声存在確率推定:

\includegraphics[width=0.7\textwidth ]{fig/modules/PF-fc-VP.eps}
Figure 6.79: 音声存在確率推定の手順

音声存在確率推定の流れを図 6.79 に示す. 音声存在確率推定は,
a) 3種類の帯域ごとに事前 SNR の平滑化
b) 各帯域で,平滑化した SNR を元に,暫定的な音声確率を推定
c) 3つの暫定確率をもとに音声休止確率を推定
d) 最終的な音声存在確率を推定
から成る.

6.3.11.5.8 3-a) 事前 SNR の平滑化

3-a) で用いる変数を表6.72 にまとめる.

Table 6.72: 変数の定義

変数

説明,対応するパラメータ

\zeta _ n(k_ i)

時間平滑化した事前 SNR

\xi _ n(k_ i)

事前 SNR

\zeta ^{f}_ n(k_ i)

周波数平滑化 SNR (frame)

\zeta ^{g}_ n(k_ i)

周波数平滑化 SNR (global)

\zeta ^{l}_ n(k_ i)

周波数平滑化 SNR (local)

b

パラメータ PRIOR_SNR_SMOOTH_FACTOR,デフォルト 0.7

F_{st}

パラメータ LOWER_SMOOTH_FREQ_INDEX,デフォルト 8

F_{en}

パラメータ UPPER_SMOOTH_FREQ_INDEX,デフォルト 99

G

パラメータ GLOBAL_SMOOTH_BANDWIDTH,デフォルト 29

L

パラメータ LOCAL_SMOOTH_BANDWIDTH,デフォルト 5

まず,式(110) で計算された事前 SNR \xi _ n(f,k_ i) と,前フレームの時間平滑化事前 SNR \zeta _ n(f-1,k_ i) で, 時間平滑化を行う.

  \displaystyle \zeta _ n(f,k_ i) \displaystyle = \displaystyle b \zeta _ n(f-1,k_ i) + (1-b) \xi _ n(f,k_ i)   (115)

周波数方向の平滑化は,その窓の大きさによって,frame,global,local の順に小さくなっていく.

6.3.11.5.9 3-b) 暫定音声確率を推定

3-b) で用いる変数を表6.73 に示す.

Table 6.73: 変数の定義

変数

説明,対応するパラメータ

\zeta ^{f,g,l}_ n(k_ i)

各帯域で平滑化された SNR

P^{f,g,l}_ n(k_ i)

各帯域での暫定音声確率

\zeta ^{peak}_ n(k_ i)

平滑化 SNR のピーク

Z^{peak}_{min}

パラメータ MIN_SMOOTH_PEAK_SNR,デフォルト値 1

Z^{peak}_{max}

パラメータ MAX_SMOOTH_PEAK_SNR,デフォルト値 10

Z_{thres}

FRAME_SMOOTH_SNR_THRESH,デフォルト値 1.5

Z_{min}^{f,g,l}

パラメータ MIN_FRAME_SMOOTH_SNR,

 

MIN_GLOBAL_SMOOTH_SNR,

 

MIN_LOCAL_SMOOTH_SNR,デフォルト値 0.1

Z_{max}^{f,g,l}

パラメータ MAX_FRAME_SMOOTH_SNRF,

 

MAX_GLOBAL_SMOOTH_SNR,

 

MAX_LOCAL_SMOOTH_SNR,デフォルト値 0.316

6.3.11.5.10 3-c) 音声休止確率推定

3-c) で用いる変数を表6.74 に示す.

Table 6.74: 変数の定義

変数

説明,対応するパラメータ

q_ n(k_ i)

音声休止確率

a^{f}

FRAME_VOICEP_PROB_FACTOR,デフォルト,0.7

a^{g}

GLOBAL_VOICEP_PROB_FACTOR,デフォルト,0.9

a^{l}

LOCAL_VOICEP_PROB_FACTOR,デフォルト,0.9

q_{min}

MIN_VOICE_PAUSE_PROB,デフォルト,0.02

q_{max}

MAX_VOICE_PAUSE_PROB,デフォルト,0.98

音声休止確率 q_ n(k_ i) は,3つの周波数帯域の平滑化結果を元にして計算した暫定の音声確率 P^{f,g,l}_ n(k_ i) を次のように統合して得られる.

  \displaystyle q_ n(k_ i) \displaystyle = \displaystyle 1 - \left( 1-a^ l+a^ l P^ l_ n(k_ i) \right) \left( 1-a^ g +a^ g P^ g_ n(k_ i) \right) \left( 1-a^ f+ a^ f P^ f_ n(k_ i) \right),   (125)

ただし,q_ n(k_ i) < q_{min} のとき,q_ n(k_ i) = q_{min} とし, q_ n(k_ i) > q_{max} のとき,q_ n(k_ i) = q_{max} とする.

6.3.11.5.11 3-d) 音声存在確率推定

音声存在確率 p_ n(k_ i) は,音声休止確率 q_ n(k_ i),事前 SNR \zeta _ n(k_ i), 式 (112) により導出された中間変数 v_ n(k_ i) を用いて次のように導出する.

  \displaystyle p_ n(k_ i) \displaystyle = \displaystyle \left\{ 1 + \frac{q_ n(k_ i)}{1-q_ n(k_ i)} \left( 1+\zeta _ n(k_ i)\right) \exp \left(-v_ n(k_ i)\right)\right\} ^{-1}   (126)

4) ノイズ除去: 出力である音声強調された分離音 {\hat S}_ n(k_ i) は, 入力である分離音スペクトル Y_ n(k_ i) に対して,最適ゲイン G^{H1}_ n(k_ i),音声存在確率 p_ n(k_ i) を次のように作用させることで 導出する.

  \displaystyle {\hat S}_ n(k_ i) \displaystyle = \displaystyle Y_ n(k_ i) G^{H1}_ n(k_ i) p_ n(k_ i)   (127)