Problem
音声認識に用いられる特徴量にはどのようなものがあるのかを知りたい. そのうちで,HARKがサポートしている特徴量には何があるのかも知りたい.
Solution
一般的な音声認識に用いられる特徴量には,以下のようなものがある.
LPC(Linear Predictive Coding: 線形予測) 係数
PARCOR(PARcial CORelated: 偏自己相関)係数
MFCC(Mel-Frequency Cepstrum Coefficient)
MSLS(Mel-Scale Log Spectrum)
このうち、HARKは 3, 4 番目の2種類をサポートしている。 web 上で公開されている音響モデルを用いて音声認識を行い たい場合は MFCC を使うと良い.ミッシングフィーチャー理論 と組み合わせて性能向上を図りたい場合は MSLS を使う方が良い.
Discussion
LPC 係数はスペクトル包絡のモデルのパラメータであり,定常過程$x_ t$の時刻 $t$における値が近い過去のサンプルと相関をもつことに基づいている.図 10.1に LPC 係数の求め方を示す.過去の $M$ 個の入力信号の値から予測した値($\hat x_ t$)と実際の入力信号の値 $x_ t$の二乗平均誤差が最小となるように求めた予測係数($a_ m$)が LPC 係数 である.この LPC では比較的正確な音声のモデルが得られるため,音声の 分析合成に広く利用されてきた.しかし,LPC に基づくモデルは係数感度が 高く,わずかな係数の誤差によって不安定になることがある.そこでこの 問題に対処するため,音声の分析合成は PARCOR の形で行われる.
PARCOR 係数は,$x_{t-(m-1)},\ldots ,x_{t-1}$から予測した $x_ t$(前方予測)と$x_{t-m}$(後方予測)の予測誤差の相関係数である. 図10.2は PARCOR 係数を導出する様子を表す. このPARCORに基づくモデルは原則的に安定である[1].
MFCC はケプストラムパラメータの1つであり,メル周波数軸上で等間隔に 配置されるたフィルタバンクを用いて導出される特徴量であり[1],図 10.3はその導出処理を示す.
MSLS は MFCC 同様にフィルタバンク分析を用いて導出されるが,MFCC が時間 領域の特徴量であるのに対し, MSLS は周波数領域の特徴量である. 特定の周波数を持つノイズが音響信号に混入した場合,MSLS は その周波数を含む特定の特徴量が影響を受ける.一方 MFCC の場合は ノイズの影響が広がってしまい,複数の特徴量が影響をうける.そのため, 一般にミッシングフィーチャー理論と組み合わせて音声認識を行う場合 はMSLS の方が良い性能を示す.
今井 聖,音声信号処理,森北出版株式会社,1996.
鹿野 清宏他,IT Text音声認識システム,株式会社オーム社,2001.
See Also
HARK ドキュメントの MFCCExtraction,MSLSExtraction の節