Heiga Zen, Jinlin Lu, Jinfu Ni, Keiichi Tokuda, Hisashi Kawai
HMM-based prosody modeling and synthesis
for Japanese and Chinese speech synthesis
Abstract:一般にテキスト音声合成システムは,テキスト処理部,韻律生成部,波形生成から
構成されている自然な韻律(F0パターン)を生成することは,高品質な合成音を得るために不可欠であると考えられる.近年,HMMを用いたF0パターンのモデル化及び生成手法が提案され,自然音声に近い高品質なF0パターンが生成できる事が報告され
ている.この手法では,言語情報や音韻情報を含んだコンテキスト依存ラベルの仕様
及び決定木によるコンテキストクラスタリング時に用いる分割条件が言語依存である.
生成されるF0パターンの自然性は,コンテキスト依存ラベルにF0パターンの制御に必要な言語・音韻情報が含まれているか,適切な分割条件が用意されているかに依存する.本研究ではHMMによるF0パターンのモデル化・生成手法を日本語及び中国語に適用するため,コンテキスト依存ラベル及び分割条件の設計を行った.