声や話し方を真似るコンピュータ



1.はじめに
 電話の声を聞いたとき、相手が名乗る前に誰からの電話か分かるという経験は、どなたでもお持ちのことと思います。声は顔や体型と同様、個人を識別する重要な役割を果たしています。私たちの研究所で研究を進めている音声翻訳システムでも個人性を持った音声で翻訳結果を伝えることが必要となるケースがあります。テレビ会議のように複数の参加者が相互に会話をしようとする場合、誰が発言したかは会議の進行を円滑にする上で欠くことのできない重要な情報です。そこで私たちは個人性のある音声をどのようにコンピュータで作るかを重要な研究テーマの1つとして取り上げています。

2.個人性を決定付ける特徴
 「声を表わす特徴は何だと思いますか?」と聞かれると、大部分の方が声の高さや速さ、強さと答えると思いますが、それだけではなく、スペクトルと呼ばれる周波数別振幅特性が非常に重要な役割を果たしています。声の高さと速さ、強さは歌で言えば「キー」、「テンポ」、「強弱」に当たるものです。一方、スペクトルは主に口の形で決まるもので、音韻の種類や響きを決める働きをもっており、「声紋」と呼ばれることもあります。
 声の個人性を効率良く真似ようとする場合、まずそれぞれの音響特徴が話し手の識別にどれだけ寄与しているかを定量的に把握しておかなければなりません。そこで、A、B2人が同じ文を読み上げた音声のそれぞれの音響特徴を入れ替え、それがどちらの人の声と判断されるかを調べます。
 まず、音声を分析して、(1)スペクトルと(2)声の高さ(基本周波数)と(3)それ以外の情報(例えば、話す速さや声の強さ)に分け、A、Bそれぞれの人の3つの音響特徴を組み合わせて合計8種類の合成音声を作ります。これにより、各音響特徴についてA、Bそれぞれの人のものを使った合成音声が4種類ずつできます。これらの合成音声がいずれの話者に近いと判断されるかという率を聞き取り試験で調べ、A、Bそれぞれ4種類の合成音声で平均します。このような方法を用いると、ある音響特徴がAであった場合とBであった場合とで話者判断率にどれだけ差があるかを求めることができます。この差を個人性判断に対するこの音響特徴の「寄与率」と呼ぶことにします。図1に個人性判断に対する基本周波数とスペクトルの寄与率を示します。図に示した通り、基本周波数が大幅に異なる話者間では基本周波数の寄与率が大きく、スペクトルが極端に異なる話者間ではスペクトルの寄与率が大きくなる傾向が見い出され、どちらの特徴もそれぞれの場合に重要な役割を果たしていることが分かります。

3.音響特徴の変換法
 ある人の音声を模擬するためには、音声合成システムが作り出す標準的な音声の高さや速さ、そしてスペクトルを目的の話者のそれに似せる必要があります。基本周波数については、目的話者の対数基本周波数の平均値を求め、それに応じて基本周波数を定数倍することが有効であることが実験的に確かめられています。(歌で言えば「移調」に当たります。)また、速さについては標準音声と目的話者音声の速さの比を求め、それに基づいてそれぞれの音の長さを調整します。(音の長さについては、話者によって特定の箇所の伸ばし方に差があり、これが個人の特徴を決める重要な要素になっていますが、外国語でそれに対応する箇所を決定できないため、音声翻訳システムはこのような局所的な特徴を伝えることができません。)
 基本周波数や速さは、少数の特徴パラメータを用いて比較的容易に目的話者の特徴を記述できますが、スペクトルは元々の特徴空間の次元の数が多く、しかも音韻毎に複雑な変化を示すため、声の高さや速さの調整に比べてずっと複雑な処理が必要になります。
 音声のスペクトルは人によって少しずつ異なるため、標準音声を基に目的話者の声を合成する場合、両者間の音響特徴の差ベクトル(以下では移動ベクトルと言います。)を求め、これに基づいて音声を合成する方法があります。この移動ベクトルに連続性を仮定して比較的少量の音声データから全音声の特徴を予測する方法が音声認識のために既に開発されており、移動ベクトル場平滑化法(VFS)と呼ばれています。しかし、VFSを用いて目的話者の音声を合成した場合、両者の差があまり大きいと合成音声の音質が劣化します。そこで、あらかじめ複数人分の標準音声を用意しておき、その中から最も近い話者を選択し、それを基にしてVFSを行う方法を考案しました[1]。この方法は話者選択(SS)とVFSを組み合わせたものなので、SSVFSと名付けました。
 SSVFSの処理の流れを図2に示します。処理は学習過程とスペクトル写像過程の2つに分けられます。学習過程では目的話者が入力した音声(例えば、「おはようございます。」)を利用して、あらかじめ準備してある複数の標準話者の中から最適標準話者を選び出すと共に、その標準話者の音声の特徴を目的話者の音声の特徴に変換するための移動ベクトルを計算します。一方、スペクトル写像過程では、あらかじめ記憶されている最適標準話者の音声を用いて音響特徴パラメータを求めた後、移動ベクトルに基づいて、これらの音響特徴パラメータを目的話者の特徴に近いものに変換します。標準話者については十分な量の音声データが用意されていますから、この方法を用いれば、どんな文(例えば、「こんにちは。」や「こんばんは。」)でも目的話者に近い音質の音声を合成することができます。
 この方法の有効性を調べるために、学習過程では「うちあわせ」を入力音声として用い、スペクトル写像過程では別の50単語を合成して、これらを実際の目的話者の音声と比較する実験を行いました。その結果、最適標準話者の音声を目的話者に向けて約25%(最大で41%)近づけられることが実証できました。また、同時に行った聴取試験でもその有効性を確認することができました。

4.おわりに

 私たちは音声翻訳システムにおいて、翻訳後の音声でも誰が発言しているかが判別できるように、極めて少量(例えば、1単語)の音声を用いて目的話者の声に近い音声を出力するシステムを開発しました。現在、目的話者の音声にさらに近づけるために、最適話者選択法の改良や学習進度の確認法などについて検討を進めています。


参考文献


Copyright(c)2002(株)国際電気通信基礎技術研究所