TR-IT-0266 :1998.07.31

柘植覚,内藤正樹,シンガー・ハラルド,深田俊明,高野優

連続音声認識用音響モデル

Abstract:本報告では、先に音声翻訳通信研究所に対して正式リリースした音響モデル(TR-IT-0241)よりも 認識性能の高い新たな音響モデルを作成することを検討している。本報告では特に、ケプストラム平均 減算法(Cepstrum Mean Subtraction)、VTLN(Vocal Tract Length Normalization)を用いた周 波数正規化手法を用いることにより、音響モデルを作成し、音素認識率、単語認識率による比較を行っ た。比較の結果より、「発話毎にCMSを行った特徴量を用い学習を行った、800状態5混合の(1)性 別依存、(2)非依存の音響モデル、トポロジ一学習のみに発話毎にCMSを行った特徴量を使用し、音 響モデルのパラメータ学習には正規化を行わない特徴量を用い学習を行った、800状態5混合の(3)性 別依存、(4)非依存の音響モデル」を音声翻訳通信研究所に対してリリースする。