TR-SLT-0058

TR-SLT-0058 :2004.02.23

Souta Hamaguchi, Takatoshi Jitsuhiro, Shigeki Matsuda, Yasunaga Nimi, Satoru Nakamura

Speech Recognition Using Context-Dependent Utterance Noise Models

Abstract:人が発声するときには，息継ぎやリップノイズなどの雑音が実際には生じる．音声認識では，周囲雑音だけでなく，こういった雑音において誤認識を起こす可能性が高い．これらの雑音をここでは「発話ノイズ」と呼ぶ．一般には，"filler model"と呼ばれるような比較的簡単なモデル化で済まされる事が多い．そこで，本研究では，視察ラベルを用い，発話ノイズの種類別に環境依存型音響モデルを作成する．さらに，音素モデル自体も発話ノイズ環境依存型に作成しなおしながら，精度向上を図るため，一連の音響モデル作成手順 (Viterbiアライメント作成，MDL-SSS法による自動状態数決定も含んだHMM状態共有構造作成，混合分布化，HMMパラメータ推定）を繰返し行う．ATR擬似旅行会話データベース(TRA)を用いた評価実験により，音素モデルのみに比べ，約1%の単語錦精度の向上が得られた．