Katsuo ABE, Kazuya TAKEDA and Yoshinori SAGISAKA
On the Concatenation of Speech Synthesis Units According to Unit Extraction context
Abstract:我々が用いている複合音声単位を用いる音声合成方式では、音韻環境を考慮し
て合成素片が選択される。本稿では、選択された合成素片の素片境界近傍の音韻環
境に応じて素片の接続を行う方法を提案し、その有効性について述べた。
合成素片は音韻ラベル付き音声データファイルから切り出されるが、視察に
よるラベルに基づく素片境界での接続歪を抑圧するために、素片境界を固定せず
隣接する素片にあわせて視察境界近傍で歪の小さい接続点を探索することにし
た。接続点の探索は、切り出す素片の音韻環境に応じて探索区間、探索基準を設定
している。探索基準として、素片間のケプストラム距離最小、パワー最小、低周
波数スペクトルパワー最小、スペクトル変化率最大の4つの基準を導入した。音韻
ラベルに基づく素片境界での接続の場合に算出された接続歪との比較、及び聴取
実験により、本手法の有効性が確認された。