TR-IT-0197

TR-IT-0197 :1996.9.24

Hideki Banno, Nick Campbell

A Method for concatenating segment on a multi-lingual speech re-sequencing synthesis system

Abstract:話者性や発話様式等の特徴を損ねることなく音声を合成するための方法として自然音声波形接続型音声合成システムを使用することを考える。これは予め録音された音声データベース中の音素単位の音声波形を、何らの信号処理も行わずに接続し、連続音声として出力する方式である。この方式の利点は信号処理を行わないため原波形の特徴を減ずることなく音声を合成できることであるが、反面、接続点における波形の不連続性のために合成音の品質が低下する可能性があるという欠点がある。このような自然音声波形接続型音声合成システムの特徴を考慮に入れると、できるだけ原波形を加工せずしかも接続点における劣化が少ない合成方式が必要となってくる。我々はこれらの要求を満たす合成方式として、最近注目を浴びている音声モーフィングの技術を応用したものを提案する。これは接続点において波形のモーフィングを行い、接続点における波形の不連続性を緩和させるものである。この方式を用いることにより、接続点における波形の連続性を向上させることができ、より自然性の高い音声合成が可能となることを示す。