TR-IT-0241 :1997.10.23

深田俊明,柘植覚,シンガー・ハラルド,内藤正樹

連続音声認識用音響モデル(version 2.0)

Abstract:本報告では、先に音声翻訳通信研究所に対して正式リリースした音響モデル(TR-IT-0206)よりも認 識性能の高い新たな音響モデルを作成することを検討している。種々の特徴パラメータに対する検討結 果(TR-IT-0234)に基づき、LPCケプストラム、LPCメルケプストラム、MFCC(mel frequency cepstrum coefficient)の3通りのパラメータに対して、音素認識、単語認識実験を行い、音声認識率、計 算時間などの観点から性能比較を行った。音声認識実験で最も良い性能を示した「標本化周波数16kHz, 12次元のMFCCをパラメータとする合計26次元の特徴ベクトル(パワー、12次元MFCCとそれぞ れのデルタパラメータ)からML-SSSアルゴリズムによって作成した800状態5混合の環境依存音素 HMM(HMnet)と3状態10混合のポーズモデル」は、音声翻訳通信研究所に対して正式にリリースす る。