TR-IT-0208

TR-IT-0208 :1997.3.27

橋本誠,樋口宣男

話者選択と移動ベクトル場平滑化による声質変換のためのスペクトル写像と学習データの選択方法

Abstract:データベース音声を少量学習データで入力話者（目標話者）音声）に変換する声質変換のためのスペクトル写像法を提案した．本方式では，話者選択で複数話者の音声データベースから入力話者に近い話者を選択し，選択話者空間から入力話者空間へのスペクトル写像を移動ベクトル場平滑化法によって行う.1単語/uchiawase/のみの学習で，別の50単語で写像を行った結果，目標話者音声とのケプストラム距離は平均約25%,最大約41%減少し，有効性が示された．聴取実験による主観評価においても約66%の割合で変換音声が目標話者に近いと認められたまた，最適学習データの設定方法についても検討し，学習量を表す尺度を定式化した提案尺度は写像精度との相関が比較的強く適切な学習データの選択に利用できることが示された．

TR-IT-0208 :1997.3.27

橋本誠,樋口宣男

話者選択と移動ベクトル場平滑化による声質変換のため のスペクトル写像と学習データの選択方法

話者選択と移動ベクトル場平滑化による声質変換のためのスペクトル写像と学習データの選択方法