Hideki Banno, Nick Campbell
A Method for concatenating segment
on a multi-lingual speech re-sequencing
synthesis system
Abstract:話者性や発話様式等の特徴を損ねることなく音声を合成するための方法として自
然音声波形接続型音声合成システムを使用することを考える。これは予め録音された
音声データベース中の音素単位の音声波形を、何らの信号処理も行わずに接続し、連
続音声として出力する方式である。この方式の利点は信号処理を行わないため原波形
の特徴を減ずることなく音声を合成できることであるが、反面、接続点における波形
の不連続性のために合成音の品質が低下する可能性があるという欠点がある。このよ
うな自然音声波形接続型音声合成システムの特徴を考慮に入れると、できるだけ原波形
を加工せずしかも接続点における劣化が少ない合成方式が必要となってくる。我々は
これらの要求を満たす合成方式として、最近注目を浴びている音声モーフィングの技
術を応用したものを提案する。これは接続点において波形のモーフィングを行い、接
続点における波形の不連続性を緩和させるものである。この方式を用いることにより、
接続点における波形の連続性を向上させることができ、より自然性の高い音声合成が
可能となることを示す。