TR-SLT-0079

TR-SLT-0079 :2004.08.25

Junichi Yamagishi, Hisashi Kawai

Segmental duration modeling using ensemble learning

Abstract:テキスト音声合成システムにおいて音韻継続長は合成音声のリズムやテンポの制御を担う重要な特徴量の一つであり、音韻継続長の制御は合成音声の品質を左右する重要な問題である。この音韻継続長の制御は音韻・韻律情報や言語情報を説明変数とした予測問題と考えられ、回帰木やニューラルネットを用いた手法などがいくつか提案されている。本研究では、これらの手法の音韻継続長の予測性能を効率的に向上・改善させるためGradient Boosting と呼ばれる逐次型アンサンブル学習を利用し、音韻継続長予測モデルの性能を効率的に向上させることを検討する。この手法は現在の予測モデルにおける残差のみを考慮すればよいため、Bagging などの並列型アンサンブル学習よりも圧倒的に少ないパラメータで性能を向上させることができることが特徴である。ATR音韻バランス503文を用いた実験においては、ベースとなる学習モデルに回帰木を用いた場合、単体の回帰木の場合と比べ、本手法は平均二乗誤差で約1.30[ms]程度予測誤差を減少させることができることがわかった。