西村公志,ニック キャンベル
音声合成のための音声データ自動ラベリング手法
Abstract:本報告では、音声合成のための音声データ自動ラベリング手法として、HMM(Hidden
Markov Model)とDTW(Dynamic Time Warpping)のアライニング手法の有効性の
比較を行うと共にHMMとDTWを用いた多段階処理手法を検討した。HMMとDTW
の有効性の比較は各手法の結果とハンドラベルとの比較で行なった。この結果、HMMの
方がハンドラベルに対して絶対誤差が小さいことが分かり、一文全体のような大き
な単位では、HMMがDTWより有効であることが分かった。さらに、HMMにより
大局的なセグメンテーションを行なった後、DTWにより、局所的なセグメンテーションを
行なうという多段階処理手法を検討した。多段階処理手法を行なった結果、HMMの時より、
ハンドラベルとの絶対誤差は小さくなった。