より自然な合成音声をめざして




ATR自動翻訳電話研究所 音声情報処理研究室 匂坂 芳典



1.はじめに
 音声合成は我々の日常生活にいろいろ用いられてきていますが、その品質や自由度にはまだ問題があります。駅のプラットホームで「○○時○○分発○○行きの列車が○○番プラットホームから出発します」とか、国際電話等の料金通知で「ただいま○○への電話は○○分○○秒で○○円でした。有難うございます」といった自動アナウンスに不自然さを感じられた方も多くいらっしゃることと思います。現在、一般に使われているこれらの合成音声の多くは録音したものをそのまま再生するか、あるいは簡単な編集をして文章音声を作っているため、声の高さや速さを自由に変えられません。また、発声外の内容を出すのは不可能で、人名や商品名等、新たな内容追加・変更がある場合には現行の方式では非常に不便です。この問題を解決するため、任意の内容を音声出力する方式が研究されており、銀行口座への振込通知、残高照会等を音声で知らせるシステム等で一部実用にも供せられています。このような合成方式は「規則による音声合成」と呼ばれ、限られたデータと規則によって、自由な内容の音声を自動的に作り出す技術です。
 ATR自動翻訳電話研究所では、翻訳内容を音声で出力するため、こ「規則による音声合成」の研究をすすめています。規則による音声合成では、音声を単なる信号波形として符号化(録音)、復号化(再生)する技術だけではなく、我々が成人になるまでに習得している言語音声の生成に関する多くの知識を、制御規則の形で実現することが必要です。特に、言語固有の基本音声単位をどのように選び、声の高さ、速さ、大きさといった韻律を適切に制御する規則をいかにうまく実現するかが自然な合成音声を作るうえで大きな研究課題です。ATRでは、基本音声単位の効率的利用と韻律規則の定量化に工夫をすることで、自然性の向上を図っています。ここでは、これらの二つの技術を中心に音声合成の研究を紹介します。

2.基本音声単位
 任意の内容を音声にして出すためには、基本となる音声単位をもとに新たな音声を作り出す必要があります。この基本音声単位として日本語では、数が百数十と手ごろな数であるため音節が良く使われますが、1つの音節が音声スペクトルとして1つのものに対応するわけではありません。例えば、図1に示すように、/kusuri/(薬)と/kuruma/(車)には同じ音節/ku/が含まれていますが、そのスペクトルは後続する音韻/s/と/r/によって大きく異なっています。このように各音節はそれらの置かれた環境(音韻環境)によって種々の異なった形態をとるため、十分な自然性と明瞭性を得るためには、基本音声単位として一つの音節のスペクトル・データを用いるだけでは十分ではありません。このため、音節より長い、3つの音韻からなる音声単位であるVCV(Vowel-Consonant-Vowel, 母音・子音・母音)連鎖の使用やCVC(Consonant- Vowel-Consonant, 子音・母音・子音)連鎖の利用がこれまでに提案されてきました。[1][2]
 これらの単位を用いると「そちらは会議事務局ですか」といった内容は、/so/+/ochi/+/ira/+/awa/+(VCV連鎖の場合)または、/soch/+/chir/+/raw/+/wak/+(CVC連鎖の場合)のような基本音声単位で構成されます。これらの単位を用いてもなお、合成音の品質には問題がありました。VCV連鎖は子音の両側を母音ではさむため、子音の明瞭性が高い反面、振幅の大きな母音中心で単位をつなぐ必要があるため、単位の接続に伴う歪みが問題となります。またCVC連鎖ではちょうど逆の長所・短所があります。我々はこれらを融合させ、さらに発展させて、より長い音声基本単位をも含んだ単位の利用を提案し、それらを効率よく用いる「複合音声単位を用いた音声合成方式」の研究をすすめています。[3]この合成方式では、先程の内容は、/soch/(/sochira/から抽出)+/chira/(/chirasu/から抽出)+/awa/(/awa/から抽出)+といったCVC連鎖、VCV連鎖およびそれ以上の長さをもつ非均一な複合音声単位を結合して音声が作られます。

3.複合音声単位を用いた音声の合成
 
複合音声単位を用いた音声合成のあらましを説明しましょう。図2に示すように、まず、発声内容に基づいて、音声データ・ベースの中にある基本音声単位のうちから用いる単位の候補を探します。この単位の探索を効率的に行うため、基本音声単位の辞書が用いられます。従来の合成方式では発声内容に対して一通りの単位列しか用いていませんでしたが、我々の方式では音声データ・ベースの中にある単位のうちから最も適当と思われるものを選んで使用することができます。図中の内容に対しては、/soch/+/chir/+/raw/+といったCVC連鎖列や、/so/+/ochi/+/ira/+といったVCV連鎖列さらに、/soch/+/chira/+/awa/+といった非均一な複合音声単位の利用が可能です。次に、これらの候補のうちから最も適切と思われる音声単位列を選びます。この選択にあたっては、接続箇所の性質や単位同士の接続のしやすさに基づいた選択基準を用います。さらに、選択された単位単位にあった最適な接続点を求め、音声データ・ベースから切り出します。最後に人間が話すような自然な音声にするため、こられの音節の音声データを変形加工する必要があります。すなわち、アクセントやイントネーション、テンポやリズム、強弱といった韻律をになうパラメータの適切な値を規則によって設定します。アクセントやイントネーションは声帯の基本周波数、テンポやリズムは音韻の継続時間長、強弱は音声振幅によって制御されます。これらの値に基づいて音節の音声データは変形、結合され、合成器を介して所望の音声が得られます。

4.複合音声単位を用いた音声合成方式の特長
 複合音声単位を用いた音声合成方式は、次のような特長を持っています。(1)効率の良い非均一音声単位の利用
 音節やVCV、CVCの構造にみられるように、従来の基本音声単位が1〜3個の子音・母音の均一な構造を持つ単位であるのに対して、我々は言語の持つ子音や母音の連接特性に基づいた非均一な構造を持つ単位の利用を図っています。長い基本音声単位を考える場合、その単位数の増加が問題と思われますが、統計的にみるとその使用頻度は非常に偏ったものとなっているため、音韻連接の分布に基づいて非均一単位を選ぶことにより、少ない個数の単位で効率良く音韻連接をカバーできます。日本語にみられるVCV、CVCはあわせて約4,000〜5,000個ですが、非均一単位をうまく選ぶことにより、1,000個ほどで情報理論的にこれらと等価な単位セットを構成できることが判明しました。[4]
(2)適応的な音声単位の使用による自然性向上
 この方式では、一つの入力に対して適応的な音声単位の使用が考えられ、それらの中で最も適切と思われるものを選択できます。ここで一番問題となるのは選択の基準ですが、現在までのところでは、これまでの音声合成研究の知見に基づいた選択規準を用いています。これらの基準には、(1)/p/, /t/, /k/のような無音部(音声波形が零となる箇所)を持つ子音部での接続の最優先、(2)子音/s/, /sh/や母音のように安定したスペクトルを示す箇所での接続の優先、(3)入力と似た音韻環境を持つ単位の優先、(4)接続箇所で重なった共通部分を持つ単位の優先といったものがあります。このような選択基準を用いず、入力にかかわらず常に音節やVCV、CVCを選択する基準を採用すれば従来の合成方式となります。この意味で、我々の方式は従来の合成方式を包含した合成法であるといえます。従来の音節単位の合成に比べ、この適応的な音声単位の使用によって、自然性、明瞭性共に優れた合成音声が得られることが聴取実験によって確認されています。[5]今後は、合成音声の聴取実験等をさらに行い、聴覚特性を反映した、より客観的な選択規準を確立してゆきたいと考えています。(3)音声単位に応じた最適結合による単位接続歪みの低減
 先に述べたようにこの方式では、単位結合に伴う接続歪みの低減を単位選択時に考慮できますが、更に音声単位抽出時にも工夫できます。無声の破裂音(/p/, /t/, /k/)や摩擦音(/s/, /sh/)では結合位置はさほど重要ではありませんが、有声子音、母音連続の箇所で単位の結合を行う場合は単位境界の選び方によって、接続歪みが大きく変わってきます。従来の合成方式では切り出した単位境界をそのまま結合に用いており、結合箇所で補間を行う位しか対処策がありませんでした。提案した方式では発声データをそのまま持つため、結合境界の音韻種類に応じ、境界を移動させて接続歪みの最小化を図ることが可能です。[6]また同時にこの方式では、大まかな単位境界さえ判っていれば、この接続歪みの最小化により接続境界が自動的に求まるため、単位境界決定に必要な時間と労力の軽減も図られるという利点もあります。(4)自由度の高い合成方式
 従来の合成では、均一の音声単位を作成するため、無意味単語から予めすべて単位を切り出し、使用する方法が多く用いられてきました。これに対し、我々は通常の単語や文章の音声データ中から、これらの音声データに対応した音韻ラベルと検索用の音声単位辞書を用いて必要箇所を適宜切り出して用いていますが、この使用方法には、同じ枠組みで編集による合成ができる利点があります。すなわち、規則による合成を行う場合は、任意の語彙が合成できるように、非均一単位を含む単語・文章を音声データとして用います。一方、可変部の少ない定型文章だけしか出力しない場合にはこれらの文と可変部の単語をそのまま単位とみなして音声データを置き換えることによって、編集合成音声を得ることが可能です。このように、この方式は規則による合成と録音編集による合成を統合した合成方式になっています。

5.韻律制御の最適化
 音声単位と共に、自然性に大きな影響を及ぼすのが韻律の制御です。韻律には声の高低、長短、強弱があり、これらは各々声帯の基本周波数、音韻の継続時間長、音声振幅によって主に制御されます。中でも特に基本周波数、音韻長が自然性に及ぼす影響は大きく、研究も盛んで、制御規則としてまとめられてきています。いろいろな制御要因の存在が指摘されながらも、これまでの合成音声の自然性は十分とはいえませんでした。この原因としては、人間の制御のしくみが十分解明されていないことによる規則の不備もありますが、それに加えて現在知られている規則の定量化、最適化が十分なされていないことがあります。規則の定量化、最適化が十分に行われてこなかった理由には、必要なデータ収集にかかる時間と労力、言語的構造を有するデータの最適化の難しさが挙げられます。ATRでは韻律研究用の音声データ・ベースを作成し[7]、これを用いた規則の最適化、検証を行っています。最適化手法としては、数量化理論[8]やニューラル・ネットを活用しています。音韻の継続時間長に関しては、(1)音韻の種類、(2)隣接する音韻の種類、(3)品詞、(4)発話区分(句や一息で発声する区分)の拍数、(5)発話区分内の位置(先頭、中間、末尾)等の制御パラメータを用い、数量化理論による線形モデルによって制御を行っています。[9][10]このモデルでは、測定値と予測値の2乗平均誤差が分析データに対して母音15.3ms、子音12.6ms、学習データに対して母音15.8ms、子音14.7msと非常に精度良い推定が行えています。また、基本周波数については、図3に示すようなニューラル・ネットを用い、基本周波数の時間パタンの概形を制御しています。[11]この結果、2〜3文節からなる短い文章に対しては、測定値と予測値の誤差は男性話者で約10Hz程度と、ほぼ測定値の分散程度の高い精度の推定に成功しました。また、4文節以上からなる文章では約2倍の周波数誤差を生ずるもの、図4に示すように、相対的には正しい形状が入力の言語情報だけで推定できることが確認されています。今後はこのような、定量モデル、最適化の枠組みを用いて、さらに精確な制御規則の実現を目指します。

6.むすび
 以上紹介してきましたように、ATRでは、自然で明瞭な音声を合成するため「規則による音声合成」の研究が続けられています。今後も音声単位の使用法や韻律制御の最適化を進め、音声品質の一層の向上を図ってゆきます。さらに、新たに、多様な発話様式の実現に向けた研究を進めてまいります。特に、発話速度の制御や会話音声の韻律制御規則の確立を図ることにより、従来の単調な朗読調の音声に生き生きとした感じを与え、より円滑なコミニュケーション・システムの実現を目指したいと考えております。



参考文献