●木構造話者クラスタリングを用いたMAP-VFS話者適応
階層的にグループ化した複数人の音響統計モデルを開発した。さらに、最大事後確率推定法と移動ベクトル平滑化を統合した話者適応方式(MAP-VFS法)を考案し、既存の話者の情報を利用して、話し手の音声データは少量でも安定して効率的に話者適応を行うことが可能であることを実証した。
MAP-VFS:Maximum a Posteriori-Vector Field Smoothing
●BLIアルゴリズムによる言語モデル
文脈自由文法の規則を例文から自動的に見つけ出す方法(BLIアルゴリズム)を考案した。この方法では、文法規則を全く知らないところから出発し、データベースから例文を読み込みながらその木構造を解析し、徐々に規則を学習して、音声認識候補の絞り込みを行う手段として用いられる。
BLI:Bayesian Language Inference
●統計的手法を用いた韻律制御モデル
音声基本周波数パターンの制御と、ポーズ位置などの韻律句境界位置の決定は、合成音声品質に大きな影響を与える。自然音声の分析結果から自動的に制御規則を抽出するために、基本周波数パターン制御に対してはMSRを、韻律句境界の制御についてはSCFGを用いた方法を提案し、合成音声品質の向上を目指している。
MSR:空間多重分割型数量化法
SCFG:確率文脈自由文法
●話者選択とVFSを用いた発話特徴模擬システム
複数の話し手が参加する会議形式の音声翻訳システムにおいては、発話者の識別が重要となる。発話者の音響特徴を反映させた合成音声で翻訳結果を出力するために、発話特徴模擬システムを開発した発話特徴は、話す速さや声の高さ、スペクトルなどに現われる。そこで、発話者の声をスペクトル分析し、あらかじめ用意した標準話者の音声の中で発話者に最も近いものを選択し、さらに合成音声と発話者の音声の音響特徴の差を移動ベクトル場平滑化(VFS)で求める。また、話す速さや声の高さも入力された音声と合成音声を比較し、修正する。
VFS:Vector Field Smoothing
●韻律構造の記述
より自然な音声の合成には韻律情報の利用が必須である。そこで、韻律情報を付与した音声データベースの構築を行っている。韻律情報の付与は、世界的に利用され始めているToBIの日本語版J_ToBIを用いる方法と、藤崎型音声基本周波数制御モデルを用いるものを併用した。前者を用いて大規模な音声データベースを構築するとともに、後者を用いて精密な制御方式の開発を行っている。
ToBI:Tones and Break Indices