ユビキタスネットワーク社会における
音声インターフェース:
コーパスベース音声合成



1.はじめに
 音声言語には、人間にとって最も基本的な情報伝達手段であり、特別な訓練が不要で手や目を使う他の仕事をしながらでも使えるという利点があるため、音声言語は人間−機械間の情報伝達手段としても理想的です。今後ユビキタスコンピューティングが社会に浸透すれば、音声言語の重要性はますます高まっていくでしょう(図1)。近年、機械→人間の情報伝達である音声合成の新しい方式であるコーパスベース音声合成が急速に広まりつつあります。コーパスベース音声合成とは、簡単に言えば、人間の生の声を大量に録音しておき、その中から音声の断片を取り出して滑らかにつなぎ合わせることによって、任意の文の音声を合成する技術です。ここでは、このコーパスベース音声合成に焦点を当てて、概要と研究動向について述べます。
 音声合成が商用化されたのは、1980年代の初めです。それ以来地道に音質の改良が続けられてきましたが、「ロボットボイス」の域を抜け出すことができず、本格的な利用には至りませんでした。ところが、ここ数年コーパスベース音声合成の音質が急速に向上し、カーナビ、CTI(⇒用語)、電子メール読み上げ、といった商業的に重要な応用も射程に入ってきました。さらに、コーパスベース音声合成には、音声を録音すれば比較的簡単に話者を増やせるという特長があるために、さまざまな声優の声を使い分けたり、病気で声が出せなくなった人の健康なときの声で発声を代行したり、あるいは、特注の声の作成を請け負うといった新しい展開が可能になりつつあります。

2. 音声合成のしくみ
 日本語音声合成の仕組みは、概略図2のようになっています。入力は、HTMLタグなどを取り除いたベタ書きのテキストです。これに対して以下の処理を段階的に行います。
(1) 形態素(⇒用語)に分解します。
(2) 辞書を参照して読みとアクセントを生成します。複数の形態素が複合語を形成したときのアクセント変化(アクセント結合)などは、変形規則を適用して処理します。
(3) 声帯振動の基本周波数、および音素(⇒用語)の時間長を決定し、自然な韻律(アクセント、イントネーション、リズム)を実現します。
(4) 一つ一つの音素に音色を与えます。人間が顎・舌・唇を使って行う調音に相当します。

3. コーパスベース音声合成
従来方式の特徴と欠点
 従来方式の特徴は、(1)音色の生成に用いるデータの量が少ない(数百音節程度)、(2)研究者が少数のサンプルを分析して、韻律生成モデルを作成する、という点にあります。音声が持つ情報の骨格を捉えることには成功しており、内容が理解できる合成音声が得られるものの、データが少ないことの結果として、音声が持つ情報の複雑・多様な部分は取りこぼしており、自然性に欠けるロボット的な合成音声になります。
コーパスベース方式の特徴と利点
 これに対してコーパスベース方式は、大量のテキストデータ・音声データの存在を前提とし、統計的モデル機械学習の手法を導入します。近年のCPUの劇的な性能向上、記憶装置の容量増大によってこの特徴が実現可能となりました。本方式では、音声が持つ情報の複雑・多様な部分をシステムに取り込むことができるので、自然性の高い音声を合成することが可能です。
コーパスベースの韻律的特徴生成
 大量の音声データに内在する韻律の規則性、すなわち単語のアクセント型、係り受け関係などの言語情報と韻律的特徴の対応関係を機械学習します。音声認識の標準的な手法であるHMM(⇒用語)を用いる方法が音質面では現時点で最有力です。
コーパスベースの音色生成
 録音した音声の断片(音声素片)を接続して音声を合成する手法が、現在のところ音質面で有望です。この技術の要点は、目標とする韻律的特徴に適合し、なおかつ接続点の不連続感が目立たない音声素片を選択することです(素片選択)。そのためには、大量の(数〜数10時間)音声が必要なのは当然として、素片選択のための評価関数を人間の聴覚心理特性に近づけることが重要です。
コーパスベース音声合成の課題
 コーパスベースの音声合成では、音声データの量が増えるほど原理的に音質が良くなりますが、どこまで大きくするかが問題です。なぜなら、音声データ量が増えるにしたがって音質向上への寄与が急速に小さくなるからです。実用的な見地からは、開発コストを見積もるために、どの程度のデータ量があればどの程度の音質が得られるのかを予測する手段が必要です。同時に、与えられたデータ量の条件の下で、最も音質を高められるような音声コーパスを設計する手法を開発することも重要な課題です。

4.実際のコーパスベース音声合成システム

 英語用のシステムでは、AT&TのNatural VoicesTM[1] が最近、音質と価格でセンセーションを巻き起こしました。日本語では、L&H社のRealSpeakTM(日本語版)が高音質でしたが、同社は最近ScanSoft社に買収されました。この他、東芝のシステム[2] も音質が良いように思われます。
 ATRでも高品質な日本語音声合成システムの研究開発に取り組んでいます。このシステムは、音声素片接続方式による音色の合成と、HMMに基づく韻律合成を基本としています。音声データの規模は100時間程度になる予定ですが、適正な規模の決定と効率的な音声コーパスの設計手法も研究課題です。また、中国語の音声合成についても同じ枠組みで研究開発を進めています。

5. コーパスベース音声合成は肉声に到達できるか?
 最新のコーパスベース音声合成の音は、従来方式に比べてかなり自然で滑らかになりましたが、それでも音声素片間の不連続感が残っています。筆者の予想では、この不連続感を完全に解消するのは不可能と思われます。なぜなら、音質を求めて音声データを増やすと、声質の変化という、音質を下げる要因が無視できなくなるからです。また、読み・アクセントの生成についても、人間並みの精度に到達するのは相当に困難でしょう。
 ただ、反響のある室内、雑音の大きい場所(自動車内、雑踏)、周波数帯域の狭い通信路(電話)では、不連続感は目立ちにくくなりますし、発声内容がある程度制限されていれば、読み・アクセントの誤りも生じにくくなります。そういう意味では、肉声の一歩手前までは到達でき、従来の方式に比べると実用的な応用範囲はかなり広がるはずです。
 音質をさらに肉声の領域にまで高めるには、人間の聴覚心理特性、言語処理機構、音声生成機構について理解を深める必要があるでしょう。


参考文献


Copyright(c)2002(株)国際電気通信基礎技術研究所