深田俊明,柘植覚,シンガー・ハラルド,内藤正樹
連続音声認識用音響モデル(version 2.0)
Abstract:本報告では、先に音声翻訳通信研究所に対して正式リリースした音響モデル(TR-IT-0206)よりも認
識性能の高い新たな音響モデルを作成することを検討している。種々の特徴パラメータに対する検討結
果(TR-IT-0234)に基づき、LPCケプストラム、LPCメルケプストラム、MFCC(mel frequency
cepstrum coefficient)の3通りのパラメータに対して、音素認識、単語認識実験を行い、音声認識率、計
算時間などの観点から性能比較を行った。音声認識実験で最も良い性能を示した「標本化周波数16kHz,
12次元のMFCCをパラメータとする合計26次元の特徴ベクトル(パワー、12次元MFCCとそれぞ
れのデルタパラメータ)からML-SSSアルゴリズムによって作成した800状態5混合の環境依存音素
HMM(HMnet)と3状態10混合のポーズモデル」は、音声翻訳通信研究所に対して正式にリリースす
る。