HARK Document Version 3.4.0. (Revision: 9509) : MSNR

6.3.9 MSNR

6.3.9.1 ノードの概要

最大 SNR 法 (Maximum Signal-to-Noise Ratio)を用いた音源分離を行う．本アルゴリズムでは目的音源方向のゲインと既知雑音方向のゲインの比が最大となるように，分離行列を更新し音源分離を行う．音源からマイクロホンまでの伝達関数情報を事前に与える必要はないが、音源の区間情報（発話区間の検出結果）が必要となる．

ノードの入力は，

混合音のマルチチャネル複素スペクトル
目的音源の方向データ

である．また，出力は分離音ごとの複素スペクトルである．

6.3.9.2 必要なファイル

無し.

6.3.9.3 使用方法

どんなときに使うのか

所与の音源方向に対して，マイクロホンアレーを用いて当該方向の音源分離を行う．なお，音源方向として，音源定位部での推定結果，あるいは，定数値を使用することができる．目的音源のゲインと既知雑音のゲインの比を利用するため，既知雑音の発生区間情報が必要となる. 本ノードでは音源方向のデータ入力がない時間区間を雑音発生区間として扱うものとする．

$\includegraphics[width=.5\textwidth ]{fig/modules/MSNR_NoisePeriod.png}$

Figure 6.72: 雑音発生区間の扱い

典型的な接続例

MSNR ノードの接続例を図 6.73に示す．入力は以下である．

INPUT_FRAMES : MultiFFT 等から得られる混合音の多チャネル複素スペクトル
INPUT_SOURCES : LocalizeMUSIC や ConstantLocalization 等から得られる目的音源方向

出力は分離音声となる．

$\includegraphics[width=.8\textwidth ]{fig/modules/MSNR.png}$

Figure 6.73: MSNR の接続例

6.3.9.4 ノードの入出力とプロパティ

入力

INPUT_FRAMES: : Matrix<complex<float> > 型．マルチチャネル複素スペクトル．行がチャネル，つまり，各マイクロホンから入力された波形の複素スペクトルに対応し，列が周波数ビンに対応する．
INPUT_SOURCES: : Vector<ObjectRef> 型．目的音源の方向情報が格納された Source 型オブジェクトの Vector 配列である．典型的には， SourceTracker ノード，SourceIntervalExtender ノードと繋げ，その出力を用いる．

出力

OUTPUT: : Map<int, ObjectRef> 型．分離音の音源 ID と，分離音の1チャネル複素スペクトル (Vector<complex<float> > 型) のペア．分離音の数だけ出力される．

パラメータ

LENGTH: : int 型．分析フレーム長[samples]．前段階のノード(AudioStreamFromMic ， MultiFFT など)における値と一致している必要がある．デフォルト値は 512．
ADVANCE: : int 型．フレームのシフト長[samples]．前段階のノード(AudioStreamFromMic ， MultiFFT など)における値と一致している必要がある．デフォルト値は 160．
SAMPLING_RATE: : int 型．入力音源波形のサンプリング周波数[Hz]．デフォルト値は 16000．
LOWER_BOUND_FREQUENCY: : int 型．分離処理を行う際に利用する最小周波数値であり，これより下の周波数に対しては処理を行わず，出力スペクトルの値は 0 となる． 0 以上サンプリング周波数値の半分までの範囲で指定する．
UPPER_BOUND_FREQUENCY: : int 型．分離処理を行う際に利用する最大周波数値であり，これより上の周波数に対しては処理を行わず，出力スペクトルの値は 0 となる． LOWER_BOUND_FREQUENCY $<$ UPPER_BOUND_FREQUENCY である必要がある．
DECOMPOSITION_ALGORITHM: : string 型．音源分離で用いる演算アルゴリズムの選択． GEVD は一般化固有値分解を，GSVD は一般化特異値分解を表す． GEVD は GSVD に比べて雑音抑制性能が良好だが計算時間がかかる．使用目的や計算機環境に応じて演算アルゴリズムの使い分けができる．
ALPHA: : float 型．フィルタ更新係数．デフォルト値は 0.99．
ENABLE_DEBUG: : bool 型．デフォルトは false． trueが与えられると, 分離状況が標準出力に出力される．

Table 6.58: MSNR で利用するパラメータ

パラメータ名	型	デフォルト値	単位	説明
LENGTH	`int`	512	[pt]	分析フレーム長.
ADVANCE	`int`	160	[pt]	フレームのシフト長.
SAMPLING_RATE	`int`	16000	[Hz]	サンプリング周波数.
LOWER_BOUND_FREQUENCY	`int`	0	[Hz]	分離処理で用いる周波数の最小値.
UPPER_BOUND_FREQUENCY	`int`	8000	[Hz]	分離処理で用いる周波数の最大値.
DECOMPOSITION_ALGORITHM	`string`	GEVD		演算アルゴリズム.
ALPHA	`float`	0.99		フィルタ更新係数.
ENABLE_DEBUG	`bool`	`false`		デバッグ出力の可否.

6.3.9.5 ノードの詳細

技術的な詳細: 基本的に詳細は下記の参考文献を参照されたい．

音源分離概要: 音源分離問題で用いる記号を表 6.48 にまとめる．演算はフレーム毎に周波数領域において行われるため，各記号は周波数領域での，一般には複素数の値を表す．音源分離は $K$ 個の周波数ビン($1 \leq k \leq K$)それぞれに対して演算が行われるが，本節ではそれを略記する． $N$, $M$, $f$ をそれぞれ，音源数，マイク数，フレームインデックスとする．

Table 6.59: 変数の定義

変数	説明
$\boldsymbol {S}(f) = \left[S_1(f), \dots , S_ N(f)\right]^ T$	$f$フレーム目の音源の複素スペクトル
$\boldsymbol {X}(f) = \left[X_1(f), \dots , X_ M(f)\right]^ T$	マイクロホン観測複素スペクトルのベクトル．INPUT_FRAMES 入力に対応
$\boldsymbol {N}(f) = \left[N_1(f), \dots , N_ M(f)\right]^ T$	加法性雑音
$\boldsymbol {H} = \left[ \boldsymbol {H}_1, \dots , \boldsymbol {H}_ N \right] \in \mathbb {C}^{M \times N}$	$1 \leq n \leq N$番目の音源から$1 \leq m \leq M$番目のマイクまでの伝達関数行列
$\boldsymbol {K}(f) \in \mathbb {C}^{M \times M}$	既知雑音相関行列
$\boldsymbol {W}(f) = \left[ \boldsymbol {W}_1, \dots , \boldsymbol {W}_ M \right] \in \mathbb {C}^{N \times M}$	分離行列
$\boldsymbol {Y}(f) = \left[Y_1(f), \dots , Y_ N(f)\right]^ T$	分離音複素スペクトル

音のモデルは以下の一般的な線形モデルを扱う．

$\displaystyle \boldsymbol {X}(f) $

$\displaystyle = $

$\displaystyle \boldsymbol {H}\boldsymbol {S}(f) + \boldsymbol {N}(f) \label{eq:beamforming-observation} $

(82)

分離の目的は，

$\displaystyle \boldsymbol {Y}(f) $

$\displaystyle = $

$\displaystyle \boldsymbol {W}(f)\boldsymbol {X}(f) \label{eq:Beamforming-separation} $

(83)

として，$\boldsymbol {Y}(f)$ が $\boldsymbol {S}(f)$ に近づくように，$\boldsymbol {W}(f)$ を推定することである．

目的音信号の相関行列を $\boldsymbol {R}_{ss}(f)$ ，雑音信号の相関行列を $\boldsymbol {R}_{nn}(f)$とすると，分離行列更新のための評価関数$J_{\textrm{MSNR}}(\boldsymbol {W}(f))$は，以下のように表される．

$\displaystyle J_{\textrm{MSNR}}(\boldsymbol {W}(f)) $

$\displaystyle = $

$\displaystyle \frac{\boldsymbol {W}(f))\boldsymbol {R}_{ss}(f)\boldsymbol {W}(f))^ H}{\boldsymbol {W}(f))\boldsymbol {R}_{nn}(f)\boldsymbol {W}(f))^ H} \label{eq:MSNR} $

(84)

MSNR では，$J_{\textrm{MSNR}}(\boldsymbol {W}(f))$を最大とする$\boldsymbol {W}(f)$を一般化固有値分解または一般化特異値分解を用いて求めている．

ここで，目的音信号の相関行列 $\boldsymbol {R}_{ss}(f)$ は， INPUT_SOURCES 入力端子に目的音源の方向データ入力がある時間区間の信号から得た相関行列 $\boldsymbol {R}_{xx}(f)$ を使って，以下のように更新される．

$\displaystyle \boldsymbol {R}_{ss}(f+1) $

$\displaystyle = $

$\displaystyle \alpha \boldsymbol {R}_{ss}(f) + (1-\alpha )\boldsymbol {R}_{xx}(f) \label{eq:MSNR-Rss} $

(85)

一方，雑音信号の相関行列 $\boldsymbol {R}_{nn}(f)$ は， INPUT_SOURCES 入力端子に目的音源の方向データ入力がない時間区間（雑音発生区間）の信号から得た相関行列 $\boldsymbol {R}_{xx}(f)$ を使って，以下のように更新される．

$\displaystyle \boldsymbol {R}_{nn}(f+1) $

$\displaystyle = $

$\displaystyle \alpha \boldsymbol {R}_{nn}(f) + (1-\alpha )\boldsymbol {R}_{xx}(f) \label{eq:MSNR-Rnn} $

(86)

式(85)と式(86)の $\alpha $ がプロパティ ALPHA で指定可能である．

$\boldsymbol {R}_{ss}(f)$ と $\boldsymbol {R}_{nn}(f)$ から $\boldsymbol {W}(f)$ が更新される．

トラブルシューティング: 基本的には GHDSS ノードのトラブルシューティングと同じ．

6.3.9.6 参考文献

P. W. Howells, ’Intermediate Frequency Sidelobe Canceller’, U.S. Patent No.3202990, 1965.