同時発話が録音された音声ファイルを音源分離し,音声認識し,音声認識率を評価するサンプルを紹介する. サンプルファイルはオフライン処理であるが, AudioStreamFromWave を AudioStreamFromMic に入れ替えれば, オンラインの同時発話認識にも使える. すべてのファイルは Recognition ディレクトリにある. 各ファイルの説明は表 14.33 を参照. 以下では,サンプルの実行方法を音声認識の実行,認識率の評価の順に説明していく.
分類 |
ファイル名 |
説明 |
データ |
../MultiSpeech.wav |
本サンプルで使用する同時発話ファイル |
JuliusMFT |
julius.jconf |
JuliusMFT 設定ファイル |
AM/hmmdefs.gz |
音響モデル |
|
AM/allTriphones |
認識可能なトライフォン |
|
LM/order.* |
言語モデル |
|
HARK |
Recognition.n |
音源分離・定位・特徴量抽出ネットワーク |
../config/kinect_tf.zip |
伝達関数ファイル (HARK 2.1.0 以降) |
|
sep_files/ |
分離音保存用ディレクトリ |
|
評価 |
score.py |
評価スクリプト |
transcription_A.txt |
方向別正解データ |
|
transcription_B.txt |
方向別正解データ |