TR-IT-0208 :1997.3.27

Makoto Hashimoto, Norio Higuchi

Spectral Mapping Method and Designing of Training Data Selection for Voice Conversion using Speaker Selection and Vector Field Smoothing Techniques

Abstract:データベース音声を少量学習データで入力話者(目標話者)音声)に変換する声質 変換のためのスペクトル写像法を提案した.本方式では,話者選択で複数話者の音 声データベースから入力話者に近い話者を選択し,選択話者空間から入力話者空間へ のスペクトル写像を移動ベクトル場平滑化法によって行う.1単語/uchiawase/のみ の学習で,別の50単語で写像を行った結果,目標話者音声とのケプストラム距離 は平均約25%,最大約41%減少し,有効性が示された.聴取実験による主観評価にお いても約66%の割合で変換音声が目標話者に近いと認められたまた,最適学習デー タの設定方法についても検討し,学習量を表す尺度を定式化した提案尺度は写像精度と の相関が比較的強く適切な学習データの選択に利用できることが示された.