音響特徴量をネットワーク経由で音声認識ノードに送信するノードである. SpeechRecognitionClient との違いは,入力特徴ベクトルの平均除去 (Spectral Mean Normalization: SMN) を行う点である. ただし,本ノードでは当該発話区間全体の平均を除去する手法を用いている. したがって,オンラインで使用する場合でも当該発話が終わるまで送信が行われず 実時間処理とならない問題がある.実時間処理を実現するためには,当該発話区間全体の特徴量を得ずに 当該発話の平均値をなんらかの値を用いてい推定あるいは,近似する必要がある. 近似処理の詳細は,ノードの詳細部分を参照のこと.
無し.
どんなときに使うのか
音響特徴量を HARK 外のソフトウェアに送信するために用いる. 例えば,大語彙連続音声認識ソフトウェア Julius $^{(1)}$ に送信し,音声認識を行う.
典型的な接続例
パラメータ名 |
型 |
デフォルト値 |
単位 |
説明 |
MFM_ENABLED |
true |
ミッシングフィーチャーマスクを送出するかしないかの選択 |
||
HOST |
127.0.0.1 |
Julius/Julian が動いているサーバのホスト名/IPアドレス |
||
PORT |
5530 |
ネットワーク送出用ポート番号 |
||
SOCKET_ENABLED |
true |
ソケット出力をするかどうかを決めるフラグ |
入力
: Map<int, ObjectRef> 型.音源 ID と特徴量ベクトルの Vector<float> 型のデータのペア.
: Map<int, ObjectRef> 型.音源 ID とマスクベクトルの Vector<float> 型のデータのペア.
: Vector<ObjectRef> 型.
出力
: Vector<ObjectRef> 型.
パラメータ
: bool 型.trueの場合, MASKS を転送する.falseの場合は,入力の MASKS を無視し,すべて 1 のマスクを転送する.
: string 型.音響パラメータを転送するホストの IP アドレスでる.SOCKET_ENABLED が falseの場合は,無効である.
: int 型.音響パラメータを転送するソケット番号である. SOCKET_ENABLED が falseの場合は,無効である.
: bool 型.trueで音響パラメータをソケットに転送し,falseで転送しない.
MFM_ENABLED が trueかつ SOCKET_ENABLED のとき, 音響特徴量ベクトルとマスクベクトルをネットワークポートを経由で音声認識ノードに 送信するノードである. MFM_ENABLED が falseのとき,ミッシングフィーチャー理論を使わない音声認識になる. 実際には,マスクベクトルの値をすべて 1 ,つまりすべての音響特徴量を信頼する状態にして マスクベクトルを送り出す.SOCKET_ENABLED が falseのときは,特徴量を音声認識 ノードに送信しない.これは,音声認識エンジンが外部プログラムに依存しているため, 外部プログラムを動かさずに HARK のネットワーク動作チェックを行うために使用する. HOST は,ベクトルを送信する外部プログラムが動作する HOST の IP アドレスを指定する. PORT は,ベクトルを送信するネットワークポート番号を指定する.
(1) http://julius.sourceforge.jp/en_index.php