TR-SLT-0032

TR-SLT-0032 :2002.12.06

Heiga Zen, Jinlin Lu, Jinfu Ni, Keiichi Tokuda, Hisashi Kawai

HMM-based prosody modeling and synthesis for Japanese and Chinese speech synthesis

Abstract:一般にテキスト音声合成システムは，テキスト処理部，韻律生成部，波形生成から構成されている自然な韻律(F₀パターン）を生成することは，高品質な合成音を得るために不可欠であると考えられる．近年，HMMを用いたF₀パターンのモデル化及び生成手法が提案され，自然音声に近い高品質なF₀パターンが生成できる事が報告されている．この手法では，言語情報や音韻情報を含んだコンテキスト依存ラベルの仕様及び決定木によるコンテキストクラスタリング時に用いる分割条件が言語依存である．生成されるF₀パターンの自然性は，コンテキスト依存ラベルにF₀パターンの制御に必要な言語・音韻情報が含まれているか，適切な分割条件が用意されているかに依存する．本研究ではHMMによるF₀パターンのモデル化・生成手法を日本語及び中国語に適用するため，コンテキスト依存ラベル及び分割条件の設計を行った．