TR-IT-0234 :1997.09.15

Satoru Tsuge, Harald Singer, Toshiaki Fukada

Comparison of Different Types of Preprocessing for HMnet Generation

Abstract:音声認識システムにおける特徴パラメータの選択は、認識性能を左右する重要な問題である。その ため、本報告において種々ある特徴パラメータの中から、現在広く使用されているLPC(メル)ケプス トラム、MFCCを選択し認識性能の比較を行った。認識性能の比較はサンプル周波数12kHz、16kHz で行い、12kHzではMFCC、16kHzではLPCメルケプストラムが次数の変動に関わらず安定した認 識性能を示した。また、ベースライン実験(TR-IT-0206の音響モデル)において無音部分の誤りが数 多く出現していた。そのため、ポーズモデルの学習条件、状態数の変更を行った。連結学習を行わず、 複数状態にした結果、音素認識率が2.9(%)向上し、74.14(%)となった。さらに、HMnet初期状態の 変動に対する認識性能の比較を行った。当該音素の共有を認めた初期経路長3、27状態を初期状態と し、最大経路長を4としたHMnetが最も高い認識性能を示した。初期状態による認識性能の変化は少 なく、むしろ初期経路長、最大経路長に認識性能の影響が大きいことが分かった。