2.2.1 音声ファイルの音源定位

\includegraphics[width=.5\linewidth ]{fig/recipes/LearningHARK_002_01_1.eps}
(a) メインシート \includegraphics[width=.8\linewidth ]{fig/recipes/LearningHARK_002_01_2.eps}
(b) イタレーターシート
Figure 2.4: Waveファイルを入力とした音源定位のネットワークファイル

音源定位をするための最も簡単なネットワークファイルの例として, 録音済みの音声データ(マルチチャネルのWaveファイル)を使って音源定位し, その結果を表示するシステムを図 2.4に示す.

各モジュールのプロパティの設定に関しては HARK  ドキュメントの 6.2章のモジュールリファレンスを参照されたい.

音源定位が含まれた HARK  のネットワークファイルの一例を, HARK音声認識ファイルセット の中の recog.n で提供している. HARK音声認識ファイルセット をダウンロードして解凍し,解凍先のディレクトリの中で次のコマンドを実行する.

./recog.n MultiSpeech.wav loc_tf.dat sep_tf.dat

すると,図 2.5のような音源定位結果を見ることができる. この音源定位結果を表示するウィンドウが出力されれば,音源定位は正しくできている.

\includegraphics[width=90mm]{fig/recipes/LearningHARK_002_02_1.eps}
Figure 2.5: recog.n 実行時の音源定位結果のスナップショット