TR-SLT-0058 :2004.02.23

Souta Hamaguchi, Takatoshi Jitsuhiro, Shigeki Matsuda, Yasunaga Nimi, Satoru Nakamura

Speech Recognition Using Context-Dependent Utterance Noise Models

Abstract:人が発声するときには,息継ぎやリップノイズなどの雑音が実際には生じる.音声認識 では,周囲雑音だけでなく,こういった雑音において誤認識を起こす可能性が高い.これ らの雑音をここでは「発話ノイズ」と呼ぶ.一般には,"filler model"と呼ばれるような比 較的簡単なモデル化で済まされる事が多い.そこで,本研究では,視察ラベルを用い,発話ノ イズの種類別に環境依存型音響モデルを作成する.さらに,音素モデル自体も発話ノイズ 環境依存型に作成しなおしながら,精度向上を図るため,一連の音響モデル作成手順 (Viterbiアライメント作成,MDL-SSS法による自動状態数決定も含んだHMM状態共有 構造作成,混合分布化,HMMパラメータ推定)を繰返し行う.ATR擬似旅行会話データ ベース(TRA)を用いた評価実験により,音素モデルのみに比べ,約1%の単語錦精度の向上 が得られた.