Yang Hee LEE
Segmental duration modeling for
Korean text-to-speech synthesis
using regression tree
Abstract:音声合成において、自然なリズムの音声を合成する為には、音韻継続時間制御は
必要であり、特に、音節の長さによって意味を弁別する韓国語においては最も重要で
ある。従って、韓国語の時間的な特徴を分析し、タイミング制御のため音韻継続時間
をモデル化した。韓国語音声合成における音韻継続時間の制御規則を生成するため
に、韓国語の次のような時間的特徴に対して分析を行なった。合成音に発話テンポに
関係なく自然なリズムを与えるために、発話テンポの変化による音韻とボーズの継
続時間の変化を調べた。また、音韻継続時間において、音節タイプによる母音長の変
化、文節と句における音節の位置と数、そして隣接する音節タイプと音韻の影響に対
して統計的に分析した。さらに、これら特徴を制御ファクタとして用いた音韻継続時
間予測モデルを生成し、このモデルで音韻継続時間の予測実験を行なった。