Makoto Hashimoto, Norio Higuchi
Selection of Reference Speaker for Voice
Conversion Using SSVFS Spectral Mapping
with Consideration of Vector Field
Smoothing Algorithm
Abstract:話者選択と移動ベクトル場平滑化法(以下、VFS)を用いた声質変換法SSVFS
における写像元話者選択方法を提案した.SSVFSでは,まず話者選択により複数話者
の音声データベースから1名を選択し,次に選択話者空間から目標話者空間へのスペ
クトル写像をVFSによって行う.これまでに,1単語程度の少ない学習データでも
データベース音声を目標話者音声に近づけられることを示したが,話者選択は,
VFSのアルゴリズムに対する適/不適を特に考慮したものではなかった.これは,
話者によって写像精度に差が生じる原因ともなっていた.本報告ではVFSに適した
話者を選択するための尺度として,移動ベクトルの向きのばらつきを反映した尺度を
提案し,従来尺度よりも写像精度との相関が強いことが示された.