TR-SLT-0058 :2004.02.23

濱口早太,實廣貴敏,松田繁樹,新美康永,中村哲

環境依存型発話ノイズモデルによる音声認識

Abstract:人が発声するときには,息継ぎやリップノイズなどの雑音が実際には生じる.音声認識 では,周囲雑音だけでなく,こういった雑音において誤認識を起こす可能性が高い.これ らの雑音をここでは「発話ノイズ」と呼ぶ.一般には,"filler model"と呼ばれるような比 較的簡単なモデル化で済まされる事が多い.そこで,本研究では,視察ラベルを用い,発話ノ イズの種類別に環境依存型音響モデルを作成する.さらに,音素モデル自体も発話ノイズ 環境依存型に作成しなおしながら,精度向上を図るため,一連の音響モデル作成手順 (Viterbiアライメント作成,MDL-SSS法による自動状態数決定も含んだHMM状態共有 構造作成,混合分布化,HMMパラメータ推定)を繰返し行う.ATR擬似旅行会話データ ベース(TRA)を用いた評価実験により,音素モデルのみに比べ,約1%の単語錦精度の向上 が得られた.