発話韻律処理の研究とその結果、
新音声合成パラダイム
1.話し言葉の特徴
自然会話の話し言葉は、非文法的な言い回しや省略が多いにもかかわらず、内容は理解しやすい。その理由は、文字の情報に加えて韻律という情報が存在するからである。例えば「そうですね」は、韻律の違いによって肯定と否定のどちらの意味にも取ることができる。また、話題にしたいことの相違によって「田中さんの本」の場合「田中」が強調されたり「本」が強調されたりする。話し言葉においては「明日行きます」のような発話も文末抑揚を変えることによって疑問になったり断定になったりする。
発話韻律処理では、このような汎言語情報の分析、符号化、生成の研究を進めた。後述する2つのプロジェクトPIとPEGASUSにおいて、声の抑揚、発話速度、声の大きさなどを考慮し音声波形の音響的特徴と発話内容の機能的役割のモデル化を進めた。
2.PI:発話韻律処理の基本研究
音声翻訳はテキスト翻訳と比べ、同じ意味を伝えるための方法が多数存在する。声に含まれる韻律情報を処理すればより適切な翻訳が可能となる。音声翻訳システムの韻律処理部分を担うPIが、発話韻律情報を伝える。発話行為、強調、韻律境界などを示す韻律情報の抽出アルゴリズムを提供し、発話意図を伝える音声を合成することを可能にした。入力話者の発話情報から符号化を行ない、テキスト情報と共に扱い、翻訳結果の出力情報の上に反映させる手法を考案した。また、PIの研究から、テキストに適切な情報を付加し、文脈による意味の違いや読み上げ情報の予測も可能となった。韻律モデルや韻律情報符号化手法ToBI(トーンと韻律境界)のアルゴリズムを検討し、さらに日本語専用のJ-ToBI、韓国語専用のK-ToBIの開発を進め、多数話者発話音声データベースを構築した。
3.PEGASUS:発話韻律処理技術の研究
PEGASUSでは統計的手法によって韻律情報の抽出、予測、生成、信号処理、単位選択などの基本アルゴリズムの研究を行った。大規模音声コーパスを基に学習アルゴリズムを考案し、合成パラメータを決定した。さらに、音響的バリエーションをモデル化し、韻律データベースも構築した。韻律特徴を音声波形として生成する方法と、単位選択手法を考案した。この成果を波形接続型音声合成手法(CHATR)としてまとめた。また多言語知識データベースも同時に構築した。
4.新音声合成システムCHATR
CHATRは自動翻訳電話研究所のコーパスベース音声合成(Nu-talk)を起点に開発された。
これは、単位選択として韻律情報を含む合成手法を提供する日本語を始め英語、韓国語、ドイツ語、中国語といった多言語に対応した音声合成システムである。
テキスト処理や韻律情報の計算は、言語依存性があるが、音響的特徴は言語に依存しないため、新たな言語、声質、発話スタイルへの移植が可能である。
CHATRで用いている波形選択接続方式は、従来合成時に不可欠であった信号処理を不要としたことにより、自然性の高い音質を実現している。この音声合成の品質はデータベースに依存するため、データベース自動作成ツールキットとしてDATRを開発した。これはCHATRと相互補完の関係にある。
5.韻律による音声合成と音声データベース
音声合成研究におけるパラダイム・シフトにより、自然性の高い、個人性の特徴を保持した音声出力を可能にした。この技術により音声認識や翻訳技術と同様、タスクを限定することにより、高品質な合成音声を保証することができる。
今後の課題として、韻律データベースのバランスは重要なテーマである。DATRの一部として、データベース設計およびデータベース削減アルゴリズムは既に組み込んでおり、作業の段階に達している。
将来、音声合成の重要度が増すに伴い、感情を含む発話なども要求されると思われる。多様な音声を表現する実現可能性が見えてきた段階である。
Copyright(c)2002(株)国際電気通信基礎技術研究所