14.6 音声認識ネットワークサンプル

同時発話が録音された音声ファイルを音源分離し,音声認識し,音声認識率を評価するサンプルを紹介する. サンプルファイルはオフライン処理であるが, AudioStreamFromWave を AudioStreamFromMic に入れ替えれば, オンラインの同時発話認識にも使える. すべてのファイルは Recognition ディレクトリにある. 各ファイルの説明は表 14.34 を参照. 以下では,サンプルの実行方法を音声認識の実行,認識率の評価の順に説明して いく.

Table 14.21: ファイルリスト

分類

ファイル名

説明

データ

MultiSpeech.wav

本サンプルで使用する同時発話ファイル

JuliusMFT

julius.jconf

JuliusMFT 設定ファイル

 

hmmdefs.gz

音響モデル

 

allTriphones

認識可能なトライフォン

 

order.*

言語モデル

HARK

MultiSpeechRecog.n

音源分離・定位・特徴量抽出ネットワーク

 

Recognition.sh

ネットワークを実行するスクリプト

 

loc_tf.dat

定位用伝達関数ファイル

 

sep_tf.tff

分離用伝達関数ファイル

 

wav/

分離音保存用ディレクトリ

評価

score.py

評価スクリプト

 

transcription_list*.txt

方向別正解データ