高度音声翻訳通信技術の基礎研究

（株）エイ・ティ・アール音声翻訳通信研究所　代表取締役社長　山崎　泰弘

1．研究成果総括

（1）試験研究の目的
　ATR音声翻訳通信研究所は「高度音声翻訳通信技術の基礎研究」をテーマに、2000年までの7年間の研究活動を予定しています。前身のATR自動翻訳電話研究所は、朗読調の話し言葉を対象に自動翻訳電話技術の研究を遂行しました。当研究所の目標は、この先駆的技術レベルをバネに、日常の会話に現れる自然な話し言葉を対象として、音声翻訳通信の基礎技術を確立することです。すなわち、連続的に喋られた音声を認識し、相手方の言語に翻訳し、個性豊かな合成音声を生成するための要素技術とそれらを統合化する技術の確立を目指しています。

（2）試験研究の概要
　日常の話し言葉には特有のくだけた発声があり、時には言葉が省略されたり、順序が倒置されたりします。また、話し手と聞き手の常識、習慣に基づき、敢えて言葉で表現されない意図もあります。もう少し詳しく見てみますと、図1に示すように認識を難しくする音声現象として、話者によって異なる声音、抑揚・強調のある発音などがあげられます。また、翻訳を難しくする言語現象として、会話の状況に依存した多様な表現、省略、倒置などのくだけた表現などがあります。これらを解決するために次のような視点で研究を進め、音声翻訳通信の基礎技術の確立を図っています。

●自然音声認識
通常の会話では、話す速さ、音の大きさ、スペクトルなどに音響的変形が生じたり、会話の途中に「えー」、「んー」・・・といった間投詞や無意味な音が挿入されたりします。このため、認識精度を上げるためには話し手や話し方のバリエーションにすばやく対処できる音響モデルや発話状況にあわせて自由な話し言葉を受け入れられる言語モデルを確立することが必要です。具体的には、話者の違いを系統的にモデル化した認識方法、入力される音声の性質に基づいて認識システムを時々刻々動的に変えながら認識を進めていく手法、話し言葉のデータから音声認識に有効な統計言語情報を自動的に抽出する手法等の研究を進め、不特定話者の自然な話し言葉の認識を目指しています。
●発話韻律処理
人間が喋る音声には、文字で表記できる狭義の言語情報以外にアクセントやイントネーションのような韻律情報が含まれています。自然な会話では、このような韻律情報が意味や意図を伝える重要な役割を果たしています。そこで入力音声に含まれる韻律情報を抽出し、それから意図を推定する方法、また音声合成時に適切な韻律を付加する方法について、研究を進めています。更に、話し手の声の特徴になるべく近い音声で合成音声を生成する手法についても研究しています。
●協調・融合翻訳
自然な会話では発話の状況や相手の知識を想定した断片的な表現、挿入句、更には倒置、言い直しの表現などが現れます。このため規則に基づく規則主導翻訳だけでは限界があります。そこで、句や節の対訳用例を収集しておき、入力された表現を句や節のパターンに分解し、最も似た用例を手がかりに翻訳する用例主導翻訳が有効です。翻訳しようとする表現とぴったりの表現例がなくても似通った表現例を選び出し、それに対応する訳文を手がかりにこなれた表現で翻訳します。翻訳を行う対象言語として、日本語と言語構造が大きく異なる英語と独語を、さらに類似の言語である韓国語を選び、本手法が多言語翻訳においても有効であることを実証します。
●音声・言語統合処理
自然な話し言葉を正しく理解するためには音声処理と言語処理の情報を互いに利用し、その相乗効果により精度を高めることが有効です。例えば、不用語とみられがちな間投詞や副詞の言語的機能から後続の音声表現を予測し、音声認識率を高めることが期待できます。また逆に、音声の抑揚や強調などの韻律情報を用いることにより、言語処理での構文や意味の曖昧さを解消したり、特別な意図を抽出することが可能となります。また会話の流れを把握し、局部的には意味が取りにくい表現でも、前段からの係り関係により意味、意図を抽出し、正しく翻訳することも可能になります。

2．プロジェクトを振り返って

（1）要素技術の研究成果
　本プロジェクトはスタートして3年経過したところですが、既に、いくつかの先駆的且つ有望なアイディアや方式を実証的に確認することができました。例えば、(a)話し始めてから4～5秒で話者の特性を把握し、不特定話者認識への適用が期待できる話者クラスタリング方式、(b)ポーズ情報を利用し、連続発声の音声認識を可能とした音声翻訳システム、(c)基本周波数、音韻の長さ、パワーを制御することによる個性的声質の音声合成法、(d)用例主導翻訳の中核技術である高速類似検索法、等です。全体の研究成果を件数でまとめると論文発表456件、特許申請57件となります。このような研究活動は国内外で高く評価され、科学技術庁長官賞、情報処理学会論文賞などを受賞しました。

（2）国際研究協力
　音声翻訳通信の研究には、その性格上、国際協力が必要です。当研究所はC-STAR II（音声翻訳国際研究コンソーシアム）に設立段階から中核メンバーとして参画し、組織、活動の拡充を図り、議長として取りまとめにも努めています。現在、図2に示すように十数の研究機関が参加しています。日本語、英語、独語、韓国語などを対象に、1996年に要素技術の検証、1999年に国際翻訳通信実験を予定しています。

3．主要な研究成果

　自然音声認識

日常会話での多様な口語体表現を含む音声の認識精度を高めるため、不特定話者に対処する話者適応法、話し言葉に潜在する言語規則の自動抽出法、単語グラフを用いた大語彙音声の実時間認識技術を考案した。また各手法を用いる上で、リアルタイム性を失わずに種々の実験を行えるように、個々の機能をモジュール化した音声認識システムを構築した。

●木構造話者クラスタリングを用いたMAP-VFS話者適応
階層的にグループ化した複数人の音響統計モデルを開発した。さらに、最大事後確率推定法と移動ベクトル平滑化を統合した話者適応方式（MAP-VFS法）を考案し、既存の話者の情報を利用して、話し手の音声データは少量でも安定して効率的に話者適応を行うことが可能であることを実証した。
　MAP-VFS：Maximum a Posteriori-Vector Field Smoothing

●BLIアルゴリズムによる言語モデル
文脈自由文法の規則を例文から自動的に見つけ出す方法（BLIアルゴリズム）を考案した。この方法では、文法規則を全く知らないところから出発し、データベースから例文を読み込みながらその木構造を解析し、徐々に規則を学習して、音声認識候補の絞り込みを行う手段として用いられる。
　BLI：Bayesian Language Inference

●単語グラフを用いた音声認識
大語彙の自由発話音声を効率良く認識するシステムを開発した。認識候補数の爆発を抑えるために認識結果を単語グラフで表現し、認識候補の併合方式や言語スコアの導出法を改良することで、大語彙の自由発話でもワークステーション上で実時間処理が可能になった。

●モジュール化による音声認識
実際の使用環境下で容易に実験や研究を実施できることを目指して、サーバ・クライアント方式のモジュール化による音声認識システムを構築した。この方式により、新しい知識源の追加等を、従来よりはるかに容易にリアルタイムで実現できるようになった。

　発話韻律処理

発話韻律処理では、多様な合成音声の生成と、談話管理及び言語翻訳への韻律の利用について研究を進めている。多様な合成音声の生成では、個人性の伝達、再現、意図（強調箇所や発話タイプ、感情など）の伝達が主たるテーマとなる。一方、韻律の利用は、文字列で表現すると同一でも言い方によってまったく異なる意味・意図を有する発話を的確に識別し、訳し分けようとするものである。

●汎用音声合成ワークベンチCHATR
音声翻訳システムにおいては、入力発話から抽出した韻律情報や構文情報、さらには会話の流れなどの情報が利用できるため、従来のテキストからの音声合成に比べて豊富な情報を利用し、より自然な音声を合成することができる。そこで、いろいろな入力形式に対応できる汎用音声合成ワークベンチCHATRを開発した。本ワークベンチでは、発話タイプ、文中の強調箇所などの情報を用いて自然な韻律を生成するとともに、前後の音の並びや韻律に基づいて、自然音声データベースの中から最も適した音素系列を選び、それらをつなぎ合わせて、人間の声に近い音声を合成することも可能となる。
　CHATR：CHatterとATRの結合語

●統計的手法を用いた韻律制御モデル
音声基本周波数パターンの制御と、ポーズ位置などの韻律句境界位置の決定は、合成音声品質に大きな影響を与える。自然音声の分析結果から自動的に制御規則を抽出するために、基本周波数パターン制御に対してはMSRを、韻律句境界の制御についてはSCFGを用いた方法を提案し、合成音声品質の向上を目指している。
　MSR：空間多重分割型数量化法
　SCFG：確率文脈自由文法

●話者選択とVFSを用いた発話特徴模擬システム
複数の話し手が参加する会議形式の音声翻訳システムにおいては、発話者の識別が重要となる。発話者の音響特徴を反映させた合成音声で翻訳結果を出力するために、発話特徴模擬システムを開発した発話特徴は、話す速さや声の高さ、スペクトルなどに現われる。そこで、発話者の声をスペクトル分析し、あらかじめ用意した標準話者の音声の中で発話者に最も近いものを選択し、さらに合成音声と発話者の音声の音響特徴の差を移動ベクトル場平滑化（VFS）で求める。また、話す速さや声の高さも入力された音声と合成音声を比較し、修正する。
　VFS：Vector Field Smoothing

●韻律構造の記述
より自然な音声の合成には韻律情報の利用が必須である。そこで、韻律情報を付与した音声データベースの構築を行っている。韻律情報の付与は、世界的に利用され始めているToBIの日本語版J_ToBIを用いる方法と、藤崎型音声基本周波数制御モデルを用いるものを併用した。前者を用いて大規模な音声データベースを構築するとともに、後者を用いて精密な制御方式の開発を行っている。
　ToBI：Tones and Break Indices

●韻律に基づく発話タイプの識別
自然発話では、文字で書くと同一の表記でも韻律によって意味の異なる発話がしばしばあり、これを的確に識別することが必要となる。そこで、通常の叙述発話に比べて、部分的に音の長さが伸びたり、語尾が上がったりする箇所を検出し、入力された発話が「躊躇」であったり、「疑問」であったりすることを自動的に検出する方法を考案した。

　協調・融合翻訳

自然な話し言葉を翻訳するためには、規範文法上正しい表現だけが翻訳できても不十分であり、一方、自然な話し言葉を捉える文法規則を予め用意することも困難であることから、与えられた文法や表現例から最もふさわしい表現を創作する技術を追究している。用例主導の翻訳手法や大規模言語データからの語法の特徴抽出法などの研究を積極的に進めている。

●対訳例を利用した多言語話し言葉翻訳手法の開発
計算機に日本語と対応する英語や韓国語の対訳例を覚えさせ、それをうまく活用して話し言葉を翻訳する用例主導の翻訳方式の研究を進め、文法に基づく解析法との組み合せにより柔軟かつ適切に自動翻訳を行う協調・融合翻訳方式を提唱した。また、これを用いて旅行会話を対象とする5,000語規模のプロトタイプシステムを実現した。

●決定木学習を使った文中単語への品質自動付与の実現
辞書を使わずに、テキスト上の単語の品詞を自動決定し、付与する手法を実現した。部分的な綴りや前後の単語などの情報を使って、品詞決定を行う。決定木学習法という手法を用いて、英語を対象にして2,000種以上の詳細な品詞体系を取り扱うことにより、同音異義語の曖昧さが無くなるなどの効果的な品詞付与を実現した。

●論理と統計に基づく自然発話の解析法の提唱
冗長語、言い直し、助詞の欠落などを含む自然な発話を解析するために、確率的仮説推論法を提唱した。入力文中の不完全な部分は、規則を参照しながら様々な仮説を設けることによって補完する。それぞれの仮説の確からしさはコーパスの統計情報を基に評価するため、多面的な情報を使った精度の高い解析が可能となった。

●意味的類似度を使った「類似検索」技術の実現
予め蓄積しておいた大量の文や句で作られる言語データの中から、指定した表現に最も類似する表現を検索する手法を実現した。超並列計算機上に、並列処理技術とシソーラス（意味分類辞書）の構成を利用した索引利用技術とを考案し、大規模なデータに対しても十分高速に実行できる技術とした。この手法は、同時に、メモリ効率、データ追加の容易性などの点で優れている。試作したシステムは10万件のデータに対して、最適な表現を1ミリ秒程度で検索できる能力をもっている。

　音声・言語統合処理

自然な話し言葉の認識や翻訳を実現するためには、音声認識や言語翻訳などの要素技術を高度化するとともに、それらを有機的に統合する技術を確立する必要がある。このような音声・言語統合処理技術として、音声認識と言語解析の統合処理、発話状況管理、マルチモーダル通信の研究を進めている。また、音声翻訳通信の各研究に用いる共通的な基礎資料として、音声言語データベースの構築を進めている。

●音声認識と言語解析の統合処理
音声処理と言語処理を統合的に処理する一つの方法として、音声認識と言語解析を有機的に統合する手法の研究を進めている。従来の方法では、音声認識からは文字列だけが出力されていたが、この方法では、構文構造に関する情報までも出力される。一方、崩れのある話し言葉を認識し、理解するため、音声認識では句単位の認識を行い、言語解析で各句に対応する部分的な意味を取り出し、それらを結合することにより全体の意味を求める。

●発話状況管理
自然な音声を認識したり、正しく相手言語に翻訳するには、会話が行われている状況を的確に把握しておく必要がある。このため、ある時点における話題や、発話同士の関係を認識したり、またこれらの情報を使って省略された語句を補ったり、次の発話を予測する手法の研究を進めている。

●マルチモーダル通信
音声だけでなく、話題となっている事柄に関する図形・画像情報（例えば、道案内の会話では、地図情報）を用いて会話できれば、話し手同士の情報伝達が容易になる。このような通信形態はマルチモーダル通信と呼ばれている。このような通信手法の効果的な利用方法や、その実現方法の研究を進めている。

●音声言語データベース
自然な話し言葉の認識や翻訳の研究を行うための基礎資料として、実際に人が話した会話を多量に集めた音声言語データベースの構築を進めている。現在、旅行に関する600の会話（延べ語数で、約30万語）を収録し、データベース化している。このデータベースには音声データと言語データの双方が格納されているので、自然な発話における音響的な特性、言語的な特性、およびそれらの相互関係などを調べることができる。これに加え、音響、言語の各特性をさらに詳細に調べるため、600会話の音声データベース、1,300会話の言語データベースを収録した。

4．まとめ・今後の展望

　本研究プロジェクトは、研究期間7年のうち3年を終了し、中期に入っています。前期（2年）には、自然な話し言葉の音声的、言語的特徴をデータ分析し、基本アルゴリズムの確立を図りました。現在の中期（2年）では機能モデルを構築し、各要素技術の検証を行い、中間評価に備えることとしています。後期（3年）では総合実験システムを構築し、C-STAR II国際共同実験を含め、総合評価を行います。本研究プロジェクトの最終目標は音声翻訳通信の基礎技術を確立することですが、上記研究期間において得られる要素技術の研究成果及びデータベース、ソフトウェア等はその都度、需要に応じて外部への普及を図っていきます。
　また音声翻訳技術が一般の人々に身近に感じられるよう機会をとらえ説明に努めています。例えば実験システムをけいはんなフェスティバル（1994年10月）やAPEC '95大阪会議に併設された展示会（1995年11月）に出展しました。マイクから入力された日本語が英語や独語の合成音声となって出力されると見学者は頷いたり、にっこりするなど好評で、音声翻訳システムへの興味と期待をうかがい知ることができました。来る21世紀においては、経済・社会・文化活動の国際化がますます促進され、「異なる言語間のグローバルコミュニケーション」が現実的な要求になるものと思われます。本研究プロジェクトの高度音声翻訳通信技術がこのグローバルコミュニケーションを支える中核技術となるよう全研究員が一丸となって研究にチャレンジしています。

プロジェクト概要

試験研究期間：1993年3月～2000年2月（7年間）
試験研究費総額：160億円

コラム