コーパス・ベース
多言語音声合成システムXIMERA
音声言語コミュニケーション研究所
音声音響処理研究室
平井 俊男、河井 恒
あらまし
ここでは、まず音声合成のしくみと高品質な合成音を得ることが可能なコーパス・ベース手法について説明し、次に本研究所で開発されたコーパス・ベース音声合成システムXIMERA(キメラ)、システムで用いられる音声コーパス、ならびにシステムの多言語対応などについて述べます。
1.はじめに
人間にとって最も基本的な情報伝達手段の一つである音声言語には、一度習得してしまえば特別な訓練なしに利用でき、手や目を使う別の作業をしていても使える、という利点があります。これらの利点から、人間と機械との情報伝達手段としても古くから注目されてきました。音声翻訳システムに代表される音声対話システムでの音声出力や、機械から人間への情報伝達に音声言語を用いる際には、テキスト情報を音声情報に変換する「音声合成技術」が用いられます(図1)。
近年、新しい音声合成の方式として、コーパス・ベース音声合成が急速に広まりつつあります。コーパス・ベース音声合成とは 1980 年代からATRで研究開発されてきた方式で、最近の計算機パワーの飛躍的な向上により実現できるようになった方式です。コーパス・ベース方式での処理手順は、人間の生の声をあらかじめ大量に録音しておき、入力されるテキストに応じて、録音された音声中から適切な音声の断片(音声素片。可変長で最短は数十ミリ秒程度)を選び出して(素片選択)滑らかに繋ぎ合わせ、合成音声として出力する、というものです。ここでは最初に音声合成のしくみを説明し、続いて音声言語コミュニケーション研究所で研究開発されたコーパス・ベース多言語音声合成システムXIMERA(キメラ)について述べます。
2.テキストを音声に変えるしくみ
音声合成のしくみは図2のようになっています。入力はテキストで、対応する音声が合成音声として出力されます。それぞれの処理を以下に示します:
(1)入力テキストを形態素(意味を持つ最小の言語単位)に分解します。
(2)形態素ごとに読みとアクセントを付けます。複数の形態素が連なって複合語となる時には読みもしくはアクセントが変わることがありますので、変形規則に従ってこれらを変換します。
(3)読みとアクセントの情報から、声の高さ、大きさ、音色をどのように変化させれば自然な音声になるかを予測します。
(4)予測された特徴の変化パターンに近い音声素片を音声コーパス内で探索します。その結果得られる素片列を接続して合成音声を得ます。探索の時には、接続される素片の接続点でのスムーズさなども考慮されます。
3.コーパス・ベース音声合成[1]
最初にも述べた通り、ATRにおけるコーパス・ベース音声合成の研究は20年ほど前からスタートしました。しかしながら、当時の計算機パワーの限界により、(1)コーパスのサイズを大きくすることが困難、(2)声の高さなどを推定するためのモデルの学習データを増やすことが困難、などの問題があり、理論的には高い品質の合成音声が得られるはずでしたが、十分な自然性を持つ合成音の生成は困難でした。
これに対して、近年のCPUパワーの飛躍的向上や記憶装置の容量増大、ならびに大量のテキスト・データ、音声データの広範な収集を前提とした統計的なモデルの学習が可能となったことにより、コーパス・ベース音声合成を実現するための環境が整い、結果として高品質の合成音声を得られる大規模コーパス・ベース日本語音声合成システムXIMERAの構築が可能となりました。XIMERAでは男性音声約100時間、女性音声約
50時間という、世界的に見ても最大規模の音声コーパスが用いられています。
4.中国語と英語の音声合成[2]、[3]
コーパス・ベース手法の特徴として、異なる言語への展開が容易、ということも挙げられます。このことを確認するため、XIMERAを他の言語 (中国語ならびに英語)に展開することが試みられています。それぞれ女性音声約20時間
(中国語)、男性音声約15時間(アメリカ英語)の収録が完了しており、中国語については既にシステム構築も完了しています。英語合成システムは現在構築中で今年度中にプロトタイプが完成する予定です。
5.処理スピードの向上[4]
音声対話システムでは、対話の流れをスムーズにするため、システムのレスポンスをできる限り速くすることが求められます。大きなコーパスを擁するコーパス・ベース音声合成では、その処理のほとんどが素片選択に費やされているため、処理スピードの向上には、素片選択処理の速度向上が重要となります。そのためには、探索するコーパス内のデータの範囲を絞る方法が通常採られますが、これによりスムーズに接続できる素片列を見つけにくくなり、結果的に合成音声の品質劣化に繋がります。
XIMERAではこの問題を解決するため、ある程度探索が進んだ時点で選択素片を確定していくと同時に、確定された素片を音声データとして逐次出力する、というアプローチを採用しています。
6.まとめ
ここでは、まず音声合成のしくみについて簡単に説明した後で、音声言語コミュニケーション研究所で研究開発されたコーパス・ベース多言語音声合成システムXIMERAについて、特に多言語音声合成の試みと処理能力向上について述べました。コーパス・ベース方式を採用することにより非常に高品質の合成音が得られるようになりましたが、自然音声の示す自然性には到達できていないのが実情です。また、言語的な情報だけではなく意図や感情も合成音で伝達したいという要求も強まっています。ATRではこのような課題に取り組んでいきます。
参考文献