TR-IT-0266

TR-IT-0266 :1998.07.31

柘植覚,内藤正樹,シンガー・ハラルド,深田俊明,高野優

連続音声認識用音響モデル

Abstract:本報告では、先に音声翻訳通信研究所に対して正式リリースした音響モデル(TR-IT-0241)よりも認識性能の高い新たな音響モデルを作成することを検討している。本報告では特に、ケプストラム平均減算法(Cepstrum Mean Subtraction)、VTLN(Vocal Tract Length Normalization)を用いた周波数正規化手法を用いることにより、音響モデルを作成し、音素認識率、単語認識率による比較を行った。比較の結果より、「発話毎にCMSを行った特徴量を用い学習を行った、800状態5混合の(1)性別依存、(2)非依存の音響モデル、トポロジ一学習のみに発話毎にCMSを行った特徴量を使用し、音響モデルのパラメータ学習には正規化を行わない特徴量を用い学習を行った、800状態5混合の(3)性別依存、(4)非依存の音響モデル」を音声翻訳通信研究所に対してリリースする。