Junichi Yamagishi, Hisashi Kawai
Segmental duration modeling using ensemble learning
Abstract:テキスト音声合成システムにおいて音韻継続長は合成音声のリズムやテンポの制御を担う
重要な特徴量の一つであり、音韻継続長の制御は合成音声の品質を左右する重要な問題で
ある。この音韻継続長の制御は音韻・韻律情報や言語情報を説明変数とした予測問題と考
えられ、回帰木やニューラルネットを用いた手法などがいくつか提案されている。本研究
では、これらの手法の音韻継続長の予測性能を効率的に向上・改善させるためGradient
Boosting と呼ばれる逐次型アンサンブル学習を利用し、音韻継続長予測モデルの性能を効
率的に向上させることを検討する。この手法は現在の予測モデルにおける残差のみを考慮
すればよいため、Bagging などの並列型アンサンブル学習よりも圧倒的に少ないパラメータ
で性能を向上させることができることが特徴である。ATR音韻バランス503文を用いた
実験においては、ベースとなる学習モデルに回帰木を用いた場合、単体の回帰木の場合と
比べ、本手法は平均二乗誤差で約1.30[ms]程度予測誤差を減少させることができることが
わかった。