Souta Hamaguchi, Takatoshi Jitsuhiro, Shigeki Matsuda, Yasunaga Nimi, Satoru Nakamura
Speech Recognition Using Context-Dependent
Utterance Noise Models
Abstract:人が発声するときには,息継ぎやリップノイズなどの雑音が実際には生じる.音声認識
では,周囲雑音だけでなく,こういった雑音において誤認識を起こす可能性が高い.これ
らの雑音をここでは「発話ノイズ」と呼ぶ.一般には,"filler model"と呼ばれるような比
較的簡単なモデル化で済まされる事が多い.そこで,本研究では,視察ラベルを用い,発話ノ
イズの種類別に環境依存型音響モデルを作成する.さらに,音素モデル自体も発話ノイズ
環境依存型に作成しなおしながら,精度向上を図るため,一連の音響モデル作成手順
(Viterbiアライメント作成,MDL-SSS法による自動状態数決定も含んだHMM状態共有
構造作成,混合分布化,HMMパラメータ推定)を繰返し行う.ATR擬似旅行会話データ
ベース(TRA)を用いた評価実験により,音素モデルのみに比べ,約1%の単語錦精度の向上
が得られた.