4.4.3 TransferFunction

伝達関数データを表す型であり,HARK  では,EstimateTF (出力),LocalizeMUSIC (入力),GHDSS (入力)の流れのように 伝達関数推定結果を音源定位処理や音源分離処理に反映するために用いられる.

TransferFunction 型は,次のような情報を持っている.

  1. 情報タイプ: string 型.伝達関数ファイルの種類を示す文字列."transfer function"または"partial transfer function"が入力されている.

  2. 計測位置: Vector$<$Position$>$ 型.伝達関数の計測位置."partial transfer function"の場合は入力されない.

  3. 計測位置のneighbor情報: Vector$<$Neighbor$>$ 型.計測位置のneighbor情報."partial transfer function"の場合は入力されない.

  4. マイクロホン位置: Vector$<$Position$>$ 型.伝達関数に対応するマイク位置."partial transfer function"の場合は入力されない.

  5. config 情報: Config 型. 伝達関数データの config 情報."partial transfer function"の場合は入力されない.

  6. 定位用伝達関数: Map$<$ID,Matrix$<$complex$<$float$>$$>$$>$ 型. 計測位置IDに対応する定位用伝達関数. "partial transfer function"の場合,更新する計測位置IDに対応する伝達関数のみが入力される.

  7. 分離用伝達関数: Map$<$ID,Matrix$<$complex$<$float$>$$>$$>$ 型. 計測位置IDに対応する分離用伝達関数. "partial transfer function"の場合,更新する計測位置IDに対応する伝達関数のみが入力される.

4.4.3.1 Position 型

伝達関数の計測位置やマイクロホン位置を示す Position 型は,次のような情報を持っている.

  1. ID: int 型.位置のID.

  2. 座標系: Coordinate 型.座標系.

  3. 座標: float 型の長さ3の配列.

  4. ファイルパス: string 型.TSP録音ファイルなどのパス.

  5. 行列データ: Matrix$<$complex$<$float$>$$>$ 型.行列データ.現在このパラメータは使用されていない.

  6. チャンネルセット情報の有効性: int 型.チャンネルセット情報の有効性.現在このパラメータは使用されていない.

  7. チャンネルセット情報: Vector<int> 型.チャンネルセット情報.現在このパラメータは使用されていない.

4.4.3.2 Neighbor 型

neighbor 情報を示す Neighbor 型は,次のような情報を持っている.

  1. 隣接関係を表すID: Vector<int> 型.隣接関係を表したい音源位置IDのリスト.

  2. 隣接関係( ID ): Vector$<$ Vector<int> $>$ 型.隣接関係を音源位置 ID で示したもの.

  3. 隣接関係(座標): Vector$<$ Vector$<$ Position $>$ $>$ 型.隣接関係を Position 型で示したもの.

  4. アルゴリズム: NeighborAlgorithm 型.隣接関係を求めるアルゴリズム.

4.4.3.3 Config 型

config 情報を示す Config 型は,次のような情報を持っている.

  1. コメント: string 型.伝達関数データの説明.

  2. 同期加算回数: int 型.伝達関数計測用の信号 (TSP 信号) の再生回数.

  3. ファイルパス: string 型.伝達関数計測用の信号 (TSP 信号) のパス.

  4. オフセット: int 型.伝達関数を計算する際のオフセット.

  5. TSP信号長: int 型.伝達関数計測用の信号 (TSP 信号) の 1 回分のサンプル数.

  6. ピーク検索開始位置: int 型.伝達関数を計算する際の直接音のピークを検索する範囲の開始位置.

  7. ピーク検索終了位置: int 型.伝達関数を計算する際の直接音のピークを検索する範囲の終了位置.

  8. FFT長: int 型.伝達関数を計算する際に行うフーリエ変換の解析長.

  9. サンプリング周波数: int 型.サンプリング周波数.

  10. 振幅最大値: int 型.収録された伝達関数計測用の信号の振幅の最大値.

Problem

MFCCExtraction や SpeechRecognitionClient などのノードの 入出力に使われているデータ型「Map $<\cdot $,$\cdot >$」について知りたいときに読む.

Solution

Map 型は,キーとそのキーに対応するデータの組からなる型である. 例えば3話者同時認識を行う場合,音声認識に用いる特徴量は話者毎に区別する必要がある.そのため, 特徴量がどの話者の何番目の発話に対応するのかを表したIDをキーとし,そのキーとデータをセットに して扱うことで話者・発話を区別する.