コンピュータが話し方を変える
1はじめに
私たちが話している音声には、音素的特徴(仮名標記はこの情報を表わす)と韻律的特徴(音声のリズムやアクセント、イントネーションなどを表わす)があります。コンピュータで音声を合成する場合にもその両方の特徴を自動的に決め、それに基づいて音声波形を作らなければなりません。2つの特徴のうち、音素的特徴は人間が発声した音声(以下では自然音声と言います)の中から該当する部分を適切に取り出し、その音響パラメータをつなぎ合わせることにより、人間の音声にかなり近い音質を実現できることが確かめられています[1]。
一方、音素の長さや声帯進藤周波数(以下では基本周波数と言います)などの韻律的特徴は、音素の種類に依存するだけでなく、単語固有のアクセントや文の構造・長さ、話す速さや話し手の意図などさまざまな要因から影響を受けます。人間に理解しやすく、自然で生き生きとした音声でコンピュータが人間と話すには、自然音声の性質を正確に模擬して自然さを向上させるだけでなく、場面に応じてコンピュータが話し方を適切に変える、すなわち韻律を制御する技術が重要になってきます。
以下では、韻律的特徴のうち、基本周波数の問題を取り上げ、まず制御モデルについて述べ、さらに話し方の異なる自然音声の分析と制御ルールの自動作成の試みについて述べます。
2音声基本衆は薄宇制御モデル
音声の基本周波数は、図1に示す通り、個人性を表わす最低周波数の上に
(1)アクセント成分 単語の辞書的な意味を表わすもので、主観的な高低に対応する。(たとえば、「端」と「箸」と「橋」の違い)
(2)フレーズ成分 単語列の意味的なまとまりを表わすもので、文の構造を示す働きがある。
の2つの成分が重ね合わされたものと考えられます[2]。図中の破線は最低周波数とフレーズ成分の和を表わしており、実線はそれにさらにアクセント成分をたしたものを表わしています。
3異なる話し方の音声の分析煤へ
このモデルを用いて話し方の異なる文の基本周波数パターンを分析した例を図2に示します。話し方は、「普通の話し方」・「急いだ話し方」・「怒った話し方」・「親切な話し方」の4種類です。それぞれの話し方の音声を実際にお聞かせできないのが残念ですが、「怒った話し方」は文の最後まで基本周波数を下げない、高圧的で抑揚のない話し方で、「親切な話し方」はお年寄りに話しかけるような一語一語を分かりやすくした話し方です。
図1と同様に図中の破線は最低周波数とフレーズの成分の和を表わしています。「怒った話し方」では破線の上下動が小さく、しかも全体的に高目の値を保持しており、フレーズ成分が小さく、最低周波数が高いことがわかります。これが、先に述べた話し方の印象の原因となっています。この基本周波数制御モデルを用いた場合、話し方の違いを定量的にパラメータ化することが可能であり、音声合成時の基本周波数の制御ルールにも容易に反映させることができるという利点を持っています[3]。
4基本周波数制御ルールの自動生成話し方と同様に、話し手による差も予想されます。いろいろな人の、いろいろな話し方を合成音声で実現しようとする場合、一定量の自然音声をお手本として与えるだけで、その人、あるいはその話し方に合った音声合成用の制御ルールが自動的に作成されることが望まれます。このためATRでは、アクセント成分やフレーズ成分の大きさがどのような要因によってどのように変化するかを統計的に処理し、最適な制御ルールを自動的に作成するための研究を行なっています[4]。
5おわりに
多様な音声出力を実現するための研究として、韻律的特徴の中の基本周波数パターンの制御について述べました。一口に合成音声と言ってもそれぞれの用途や利用者の希望によって最適な合成音声の音質には大きな差があります。そう遠くない将来、Aさんの声質で、Bさんの話し方の声を作ってくれというような注文に応じられる日が来るかもしれません。
Copyright(c)2002(株)国際電気通信基礎技術研究所