Kazumasa YAMAMOTO, Tetsuo KOSAKA
自由発話音声からのHMnetの構造生成による
音素認識の改善
Abstract:HMnetの構造が発話形式に依存するかどうかは不明である。そこで、スポンテニアスデータの認識における、単語データから生成されたHMnetとスポンテニアスデータから生成されたH-Mnetとの比較実験を行った。スポンテニアスデータでHMnetを生成する場合、問題になると考えられるのがスポンテニアスデータの詳細なラベル付けについてと、スポンテニアスデータの音素バランスについてである。今回は、構造はバランス単語データで作成し、パラメータだけをスポンテニアスデータで学習する方法、初期構造を単語データで作成しておき、途中からの状態分割をスポンテニアスデータを用いて行う方法、初期モデルでスポンテニアスデータに対するビタービアライメントを取ることによって、それを詳細なラベルの代替として始めから状態分割を行う方法の3通りについてそれぞれ検討を行った。