橋本誠,樋口宣男
話者選択と移動ベクトル場平滑化による声質変換のため
のスペクトル写像と学習データの選択方法
Abstract:データベース音声を少量学習データで入力話者(目標話者)音声)に変換する声質
変換のためのスペクトル写像法を提案した.本方式では,話者選択で複数話者の音
声データベースから入力話者に近い話者を選択し,選択話者空間から入力話者空間へ
のスペクトル写像を移動ベクトル場平滑化法によって行う.1単語/uchiawase/のみ
の学習で,別の50単語で写像を行った結果,目標話者音声とのケプストラム距離
は平均約25%,最大約41%減少し,有効性が示された.聴取実験による主観評価にお
いても約66%の割合で変換音声が目標話者に近いと認められたまた,最適学習デー
タの設定方法についても検討し,学習量を表す尺度を定式化した提案尺度は写像精度と
の相関が比較的強く適切な学習データの選択に利用できることが示された.