柘植覚,内藤正樹,シンガー・ハラルド,深田俊明,高野優
連続音声認識用音響モデル
Abstract:本報告では、先に音声翻訳通信研究所に対して正式リリースした音響モデル(TR-IT-0241)よりも
認識性能の高い新たな音響モデルを作成することを検討している。本報告では特に、ケプストラム平均
減算法(Cepstrum Mean Subtraction)、VTLN(Vocal Tract Length Normalization)を用いた周
波数正規化手法を用いることにより、音響モデルを作成し、音素認識率、単語認識率による比較を行っ
た。比較の結果より、「発話毎にCMSを行った特徴量を用い学習を行った、800状態5混合の(1)性
別依存、(2)非依存の音響モデル、トポロジ一学習のみに発話毎にCMSを行った特徴量を使用し、音
響モデルのパラメータ学習には正規化を行わない特徴量を用い学習を行った、800状態5混合の(3)性
別依存、(4)非依存の音響モデル」を音声翻訳通信研究所に対してリリースする。