同時発話が録音された音声ファイルを音源分離し,音声認識し,音声認識率を評価するサンプルを紹介する. サンプルファイルはオフライン処理であるが, AudioStreamFromWave を AudioStreamFromMic に入れ替えれば, オンラインの同時発話認識にも使える. すべてのファイルは Recognition ディレクトリにある. 各ファイルの説明は表 14.34 を参照. 以下では,サンプルの実行方法を音声認識の実行,認識率の評価の順に説明して いく.
分類 |
ファイル名 |
説明 |
データ |
MultiSpeech.wav |
本サンプルで使用する同時発話ファイル |
JuliusMFT |
julius.jconf |
JuliusMFT 設定ファイル |
hmmdefs.gz |
音響モデル |
|
allTriphones |
認識可能なトライフォン |
|
order.* |
言語モデル |
|
HARK |
MultiSpeechRecog.n |
音源分離・定位・特徴量抽出ネットワーク |
Recognition.sh |
ネットワークを実行するスクリプト |
|
loc_tf.dat |
定位用伝達関数ファイル |
|
sep_tf.tff |
分離用伝達関数ファイル |
|
wav/ |
分離音保存用ディレクトリ |
|
評価 |
score.py |
評価スクリプト |
transcription_list*.txt |
方向別正解データ |