Monden Akito, Tonomura Masahiro
Proposition and evaluation of parameter
smoothing control on
MAP-VFS speaker adaptation
Abstract:音声認識システムに対して少量の学習資料によって話者適応を行う場合、安定し
た適応結果を得るためには、情報不足を補うことや、音声サンプルの統計的な偏りに
よる推定誤差の問題を解決することが不可欠である。移動ベクトル場平滑化話者適応
法(VFS)[1]では、モデルパラメータの移動ベクトルの平滑化によって、少量の適応
用サンプルに起因する未学習パラメータの補間と適応済みパラメータの補正を同時に
実現している。VFSの問題点として、適応データ量がある程度増えてきた場合に、平
滑化を行わない場合よりも認識率が低下することがあげられる。本稿では、音響モデ
ルのパラメータごとの適応データ量に応じて平滑化係数を制御する方式を提案し、実
験結果によりその有効性を示す。なお、本稿では最大事後確率推定法(MAP)[3]とVFS
を統合したMAP-VFS話者適応法[2]を対象とした。