TR-IT-0241

TR-IT-0241 :1997.10.23

深田俊明,柘植覚,シンガー・ハラルド,内藤正樹

連続音声認識用音響モデル（version 2.0)

Abstract:本報告では、先に音声翻訳通信研究所に対して正式リリースした音響モデル(TR-IT-0206)よりも認識性能の高い新たな音響モデルを作成することを検討している。種々の特徴パラメータに対する検討結果(TR-IT-0234)に基づき、LPCケプストラム、LPCメルケプストラム、MFCC(mel frequency cepstrum coefficient)の3通りのパラメータに対して、音素認識、単語認識実験を行い、音声認識率、計算時間などの観点から性能比較を行った。音声認識実験で最も良い性能を示した「標本化周波数16kHz, 12次元のMFCCをパラメータとする合計26次元の特徴ベクトル（パワー、12次元MFCCとそれぞれのデルタパラメータ）からML-SSSアルゴリズムによって作成した800状態5混合の環境依存音素 HMM(HMnet)と3状態10混合のポーズモデル」は、音声翻訳通信研究所に対して正式にリリースする。