認識結果が出たら,次は評価用スクリプトは score.py で音声認識率を評価しよう. 次のシェルスクリプトを実行すればよい
> 3_Evaluation.sh
score.py の引数は,前から順に音声認識結果のログ,正解データ, 正解データの音声到来方向,音声到来方向の許容誤差である.
実行すると,図14.34のような表示が 得られるはずだ. 各行は左から順に認識が成功したかどうか,認識結果,正解データを表す. 最後の行は,全発話中何発話が成功したかと,音声認識率を表す. この場合は, 20発話中 17 発話の認識に成功し,認識率は 85% である.
正解発話 |
認識結果 |
成否 |
"ペペロンチーノ" |
"お好み焼き" |
Insertion |
"ペペロンチーノ" |
"ペペロンチーノ" |
Correct |
(中略) |
||
17 / 20 (85.0 %) |
いずれの認識率も 90% 前後のはずなので, もし極端に低い場合は,正解データのファイル名と,方向の指定が正しいかを 確かめよう. それも正しければ,音源分離・認識の失敗が考えられるので, sep_files/ ディレクトリのファイルを聞いてみたり,3章 のレシピを参照しよう.