HARK Document Version 2.0.0. (Revision: 6357) : HarkDataStreamSender

6.1.5 HarkDataStreamSender

6.1.5.1 ノードの概要

以下の音響信号処理結果をソケット通信で送信するノードである．

音響信号
STFT後の周波数スペクトル
音源定位結果のソース情報
音響特徴量
ミッシングフィーチャーマスク

6.1.5.2 必要なファイル

無し．

6.1.5.3 使用方法

どんなときに使うのか

上記のデータの中で必要な情報を TCP/IP 通信を用いて，HARK 外のシステムに送信するために用いる．

典型的な接続例

図6.10の例では全ての入力端子に接続している．送信したいデータに合わせて入力端子を開放することも可能である．入力端子の接続と送信されるデータの関係については「ノードの詳細」を参照．

$\includegraphics[width=150mm]{fig/modules/HarkDataStreamSender}$

Figure 6.10: HarkDataStreamSender の接続例

6.1.5.4 ノードの入出力とプロパティ

Table 6.6: HarkDataStreamSender のパラメータ表

パラメータ名	型	デフォルト値	単位	説明
HOST	`string`	localhost		データの送信先サーバのホスト名/IPアドレス
PORT	`int`	5530		ネットワーク送出用ポート番号
ADVANCE	`int`	160	[pt]	フレームのシフト長
BUFFER_SIZE	`int`	512		ソケット通信のために確保する float 配列のサイズ
FRAMES_PER_SEND	`int`	1	[frm]	ソケット通信を何フレームに一回行うか
TIMESTAMP_TYPE	`string`	GETTIMEOGDAY		送信されるタイムスタンプ
SAMPLING_RATE	`int`	16000	[Hz]	サンプリング周波数
DEBUG_PRINT	`bool`	`false`		デバッグ情報出力のON/OFF
SOCKET_ENABLE	`bool`	`true`		ソケット出力をするかどうかを決めるフラグ

入力

MIC_WAVE: : Matrix<float> 型．音響信号（チャンネル数 $\times $ 各チャンネルのSTFTの窓長サイズの音響信号）
MIC_FFT: : Matrix<complex<float> > 型．周波数スペクトル（チャンネル数 $\times $ 各チャンネルのスペクトル）
SRC_INFO: : Vector<ObjectRef> 型．音源数個の音源定位結果のソース情報
SRC_WAVE: : Map<int, ObjectRef> 型．音源 ID と音響信号の Vector<float> 型のデータのペア．
SRC_FFT: : Map<int, ObjectRef> 型．音源 ID と周波数スペクトルの Vector<complex<float> > 型のデータのペア．
SRC_FEATURE: : Map<int, ObjectRef> 型．音源 ID と音響特徴量の Vector<float> 型のデータのペア．
SRC_RELIABILITY: : Map<int, ObjectRef> 型．音源 ID とマスクベクトルの Vector<float> 型のデータのペア．

出力

OUTPUT: : ObjectRef 型．入力と同じものが出力される．

パラメータ

HOST: : string 型．データ送信先ホストの IP アドレス．SOCKET_ENABLED が falseの場合は無効．
PORT: : int 型．ソケット番号． SOCKET_ENABLED が falseの場合は無効．
ADVANCE: : int 型．フレームのシフト長．前段処理と同じ値にする．
BUFFER_SIZE: : int 型．ソケット通信のために確保するバッファサイズ．
FRAMES_PER_SEND: : int 型．ソケット通信を何フレームに一回行うかを指定する．デフォルトは1．
TIMESTAMP_TYPE: : string 型．送信データにスタンプされる時刻の設定． TIMESTAMP_TYPE=GETTIMEOFDAY なら gettimeofday で得た時刻， TIMESTAMP_TYPE=CONSTANT_INCREMENT なら SAMPLING_RATE から計算されるフレーム時間を毎フレーム加算した時刻とする．
SAMPLING_RATE: : int 型．サンプリング周波数．デフォルトは16000．TIMESTAMP_TYPE=CONSTANT_INCREMENT の時のみ有効．
DEBUG_PRINT: : bool 型．デバッグ標準出力のON/OFF
SOCKET_ENABLE: : bool 型． trueでデータをソケットに転送し，falseで転送しない．

6.1.5.5 ノードの詳細

パラメータの説明

HOST は，データを送信する外部プログラムが動作するホストのホスト名，または IP アドレスを指定する．

PORT は，データを送信するネットワークポート番号を指定する．

ADVANCE はフレームのシフト長であり，前段処理の設定値と同じにする．

BUFFER_SIZE はソケット通信のために確保するバッファサイズ． BUFFER_SIZE * 1024 の float 型の配列が初期化時に確保される．送信するデータより大きく確保する．

FRAMES_PER_SEND はソケット通信を何フレームに一回行うかを指定する．通常は1で問題ないが，通信量を削減したい時に使用できる．

TIMESTAMP_TYPE は送信データにスタンプされる時刻を設定する．

SAMPLING_RATE はサンプリング周波数を指定する．

DEBUG_PRINT はデバッグ標準出力の表示の可否である．送信データの一部と同じ情報が出力される．表示される内容については表6.13の「 Debug 」を参照．

SOCKET_ENABLED が falseのときは，データを外部システムに送信しない．これは，外部プログラムを動かさずに HARK のネットワーク動作チェックを行うために使用する．

データ送信の詳細

(B-1) データ送信用構造体

データの送信は，各フレーム毎に幾つかに分けられて行われる．データ送信のために定義されている構造体を下記にリストアップする．

HD_Header
説明 : 送信データの先頭で送信される基本情報が入ったヘッダ
データサイズ : 3 * sizeof(int) + 2 * sizeof(int64)

Table 6.7: HD_Header のメンバ

変数名	型	説明
type	int	送信データの構造を示すビットフラグ．各ビットと送信データとの関係については表6.8参照．
advance	int	フレームのシフト長
count	int	HARKのフレーム番号
tv_sec	int64	タイムスタンプ（秒）
tv_usec	int64	タイムスタンプ（マイクロ秒）

Table 6.8: HD_Header の type の各ビットと送信データ

桁数	関係入力端子	送信データ
１桁目	MIC_WAVE	音響信号
２桁目	MIC_FFT	周波数スペクトル
３桁目	SRC_INFO	音源定位結果ソース情報
４桁目	SRC_INFO, SRC_WAVE	音源定位結果ソース情報 + 音源 ID 毎の音響信号
５桁目	SRC_INFO, SRC_FFT	音源定位結果ソース情報 + 音源 ID 毎の周波数スペクトル
６桁目	SRC_INFO, SRC_FEATURE	音源定位結果ソース情報 + 音源 ID 毎の音響特徴量
７桁目	SRC_INFO, SRC_RELIABILITY	音源定位結果ソース情報 + 音源 ID 毎のミッシングフィーチャーマスク

HarkDataStreamSender は入力端子の開放の可否によって送信されるデータが異なり，データ受信側では type によって，受信データを解釈できる．以下に例を挙げる．送信されるデータの更なる詳細については(B-2)に示す．

MIC_FFT 入力端子のみが接続されている場合，type は２進数で表すと 0000010 となる．また，送信されるデータはマイク毎の周波数スペクトルのみとなる．
MIC_WAVE, SRC_INFO, SRC_FEATURE の３つの入力端子が接続されている場合， type は２進数で表すと 0100101 となる．送信されるデータはマイク毎の音響信号，音源定位結果のソース情報，音源 ID 毎の音響特徴量となる．

SRC_WAVE, SRC_FFT, SRC_FEATURE, SRC_RELIABILITY の４つの入力端子については，音源 ID ごとの情報になるため，SRC_INFO の情報が必須である．もし，SRC_INFO を接続せずに，上記４つの入力端子を接続したとしても，何も送信されない．その場合，type は２進数で 0000000 となる．

HDH_MicData
説明 : ２次元配列を送信するための，サイズに関する配列の構造情報
データサイズ : 3 * sizeof(int)

Table 6.9: HDH_MicData のメンバ

変数名	型	説明
nch	int	マイクチャネル数（送信する２次元配列の行数）
length	int	データ長（送信する２次元配列の列数）
data_bytes	int	送信データバイト数． float 型の行列の場合は `nch * length * sizeof(float)` となる．

HDH_SrcInfo
説明 : 音源定位結果のソース情報
データサイズ : 1 * sizeof(int) + 4 * sizeof(float)

Table 6.10: HDH_SrcInfo のメンバ

変数名	型	説明
src_id	int	音源 ID
x[3]	float	音源３次元位置
power	float	LocalizeMUSIC で計算される MUSIC スペクトルのパワー

HDH_SrcData
説明 : １次元配列を送信するための，サイズに関する配列の構造情報
データサイズ : 2 * sizeof(int)

Table 6.11: HDH_SrcData のメンバ

変数名	型	説明
length	int	データ長（送信する１次元配列の要素数）
data_bytes	int	送信データバイト数． float 型のベクトルの場合は `length * sizeof(float)` となる．

(B-2) 送信データ

Table 6.12: 送信順のデータリストと接続入力端子（$\circ $記号の箇所が送信されるデータ，$\circ ^*$は，SRC_INFO端子が接続されていない場合は送信されないデータ）

送信データ詳細			入力端子と送信データ
	型	サイズ	MIC_WAVE	MIC_FFT	SRC_INFO	SRC_WAVE	SRC_FFT	SRC_FEATURE	SRC_RELIABILITY
(a)	HD_Header	`sizeof(HD_Header)`	$\circ $	$\circ $	$\circ $	$\circ $	$\circ $	$\circ $	$\circ $
(b)	HDH_MicData	`sizeof(HDH_MicData)`	$\circ $
(c)	float[]	`HDH_MicData.data_bytes`	$\circ $
(d)	HDH_MicData	`sizeof(HDH_MicData)`		$\circ $
(e)	float[]	`HDH_MicData.data_bytes`		$\circ $
(f)	float[]	`HDH_MicData.data_bytes`		$\circ $
(g)	int	`1 * sizeof(int)`			$\circ $	$\circ ^*$	$\circ ^*$	$\circ ^*$	$\circ ^*$
(h)	HDH_SrcInfo	`sizeof(HDH_SrcInfo)`			$\circ $	$\circ ^*$	$\circ ^*$	$\circ ^*$	$\circ ^*$
(i)	HDH_SrcData	`sizeof(HDH_SrcData)`				$\circ ^*$
(j)	short int[]	`HDH_SrcData.data_bytes`				$\circ ^*$
(k)	HDH_SrcData	`sizeof(HD_SrcData)`					$\circ ^*$
(l)	float[]	`HDH_SrcData.data_bytes`					$\circ ^*$
(m)	float[]	`HDH_SrcData.data_bytes`					$\circ ^*$
(n)	HDH_SrcData	`sizeof(HD_SrcData)`						$\circ ^*$
(o)	float[]	`HDH_SrcData.data_bytes`						$\circ ^*$
(p)	HDH_SrcData	`sizeof(HD_SrcData)`							$\circ ^*$
(q)	float[]	`HDH_SrcData.data_bytes`							$\circ ^*$

Table 6.13: 送信データ詳細

	説明	Debug
(a)	送信データヘッダ．表6.7参照．	$\circ $
(b)	音響信号の構造（マイク数，フレーム長，送信バイト数）を表す構造体．表6.9参照．	$\circ $
(c)	音響信号（マイク数 $\times $ フレーム長の float 型の行列）
(d)	周波数スペクトルの構造（マイク数，周波数ビン数，送信バイト数）を表す構造体．表6.9参照．	$\circ $
(e)	周波数スペクトルの実部（マイク数 $\times $ 周波数ビン数の float 型の行列）
(f)	周波数スペクトルの虚部（マイク数 $\times $ 周波数ビン数の float 型の行列）
(g)	検出された音源個数	$\circ $
(h)	音源定位結果のソース．表6.10参照．	$\circ $
(i)	音源 ID 毎の音響信号の構造（フレーム長，送信バイト数）を表す構造体．表6.11参照．	$\circ $
(j)	音源 ID 毎の音響信号（フレーム長の short 型の一次元配列）
(k)	音源 ID 毎の周波数スペクトルの構造（周波数ビン数，送信バイト数）を表す構造体．表6.11参照．	$\circ $
(l)	音源 ID 毎の周波数スペクトルの実部（周波数ビン数の float 型の一次元配列）
(m)	音源 ID 毎の周波数スペクトルの虚部（周波数ビン数の float 型の一次元配列）
(n)	音源 ID 毎の音響特徴量の構造（特徴量次元数，送信バイト数）を表す構造体．表6.11参照．	$\circ $
(o)	音源 ID 毎の音響特徴量（特徴量次元数の float 型の一次元配列）
(p)	音源 ID 毎の MFM の構造（特徴量次元数，送信バイト数）を表す構造体．表6.11参照．	$\circ $
(q)	音源 ID 毎の MFM （特徴量次元数の float 型の一次元配列）

送信データは各フレーム毎に，表6.12，表6.13の(a)-(q)のように，分割されて行われる．表6.12に，送信データ(a)-(q)と，接続された入力端子の関係を，表6.13に，送信データの説明を示す．

(B-3) 送信アルゴリズム

HARKのネットワークファイルを実行する際に繰り返し演算される部分のアルゴリズムを以下に示す．

 calculate{

    Send (a)

    IF MIC_WAVE is connected
        Send (b)
        Send (c)
    ENDIF

    IF MIC_FFT is connected
        Send (d)
        Send (e)
        Send (f)
    ENDIF

    IF SRC_INFO is connected

        Send (g) (Let the number of sounds ’src_num’.)

        FOR i = 1 to src_num (This is a sound ID based routine.)

            Send (h)

            IF SRC_WAVE is connected
                Send (i)
                Send (j)
            ENDIF

            IF SRC_FFT is connected
                Send (k)
                Send (l)
                Send (m)
            ENDIF

            IF SRC_FEATURE is connected
                Send (n)
                Send (o)
            ENDIF

            IF SRC_RELIABILITY is connected
                Send (p)
                Send (q)
            ENDIF

        ENDFOR

    ENDIF

 }

ここで，コード内の(a)-(q)が，表6.12と表6.13の(a)-(q)に対応している．