Kengo Hanai, Jun Ishii
A Study on HMnet generation Using
Speaker Normalized Speech Data
Abstract:自然発話を対象とした不特定話者音声認識では,自然発話音声データは話者毎に
発声内容が異なり,音素環境にばらつきが生じている.このような音声データを用いて
逐次状態分割法(SSS)によって隠れマルコフ網(HMnet)を作成した場合,話者の違
いの要因での状態分割と音韻コンテキストの違いによる要因の状態分割がの両方が
生じる.本来HMnetは音韻コンテキストによる変動を表現するべきものであるの
で,話者性の違いによる分割は認識率低下の原因の一つとなっていると考えられる.
本稿では重回帰写像モデルを用いた話者正規化を行ない,話者性を取り除いた音声
データによってHMnetを作成することで,音韻コンテキストの違いによる変動を正
確に表現することを検討し,音素認識実験によって評価した結果を示す.