


音声翻訳システムASURAと自動翻訳電話国際共同実験
ATR自動翻訳電話研究所 データ処理研究室 谷戸 文廣、竹澤 寿幸
1.まえがき
ATR自動翻訳電話研究所では、自動翻訳電話の実現可能性を確認するため、音声認識、言語翻訳、音声合成などの要素技術を組み合わせて実際に動作する音声翻訳システムASURA(Advanced
Speech Understanding and Rendering System of ATR)を構築しました。このシステムは、日英音声言語翻訳実験システムSL-TRANS(Spoken
Language Translation System)[1]をベースに、ドイツ語も出力するように発展させるとともに、各要素技術についても最新の研究成果を盛り込んだものです。音声認識、言語翻訳、音声合成といった要素技術のみならず、音声認識の曖昧さを取り除くための音声言語処理という新しい分野の研究成果も活用しています。SL-TRANSで扱える語彙数は400語弱でしたが、ASURAで扱える語彙数は1,500語程度にまで拡張しています。もちろん、扱える言いまわしもより多様になっています。そして、海外との通信機能を付加した特別なバージョンのASURAを開発して、1993年1月28日に自動翻訳電話国際共同実験を行ないました。ここでは、ASURAと自動翻訳電話国際共同実験の概要を紹介します。
2.音声翻訳システムASURA
2.1システム構成と概要
ASURAシステムの構成図1に示します。発話者は、文節毎にポーズをおいて、文単位で発話します。音声区間は、音声波形中の音響的な特徴に基づいて、自動的に検出されます。
音声認識では、前後の音の影響によって注目している音素(子音や母音)の波形が変化することを反映した音素モデルを用いています[2]。また、この音素モデルは、誰の声でも高い性能で認識できるように、あらかじめ決めた10単語程度の発声だけで異なる話者に対応する機能(話者適応機能)を持っています。しかも、音声認識の過程で、文法的な知識を用いて、次に来る音素を予測したり、また、あり得ない語のつながりを排除するなどしていますので、高性能で、かつ、効率的な連続音声認識が実現できます。文を単位としてスコアの順に複数の候補が音声認識の処理結果として出力されます。
言語翻訳は、従来の(例えば、マニュアルなど書き言葉を対象とした)言語翻訳システムとは異なり、話し言葉を対象としています。会話に特有な省略表現や、間接的な依頼などの多種多様な表現を扱うことができます。また、語彙や文法の記述と、それを解釈・実行する部分とを完全に分離していますので、語彙を入れ換えることで別の話題に、また、文法を入れ換えることで他の言語に適用できるなど拡張性に優れています。言語翻訳における日本語解析部は日英・日独ともに共通に利用しています。また、英語への変換・生成とドイツ語への変換・生成の処理系は基本的に同じものを使っています。そこで使っている規則が異なるだけです。
これらの処理は現実にはワークステーションHP9000/750で行なわれます。音声認識処理に1台、言語翻訳処理に1台のマシンを利用しています。英語音声合成はDEC
Talkを利用し、ドイツ語音声合成はベンツ社の試作品を利用しています。
国際会議に関する問合せを実験の話題(タスク)とし、音声認識部・言語翻訳部ともに共通の約1,500語の語彙を扱っています1。システムの翻訳例を表1に示します。日本語文中の“/”は文節区切りを表しています。言語翻訳部では、日本語話し言葉の標準的な言いまわしの約90%を扱うことができます[3]。
2.2システムの特徴
ASURAとSL-TRANSは、見かけは同じように見えるかもしれません。しかし、その中身は、ほとんど別のシステムと言ってよいくらい大幅に変更されています。もちろん、ASURAの実験システムとしての基本的な性格はSL-TRANSのものを引き継いでいます。そこで、文献[1]には述べられていない新しい特徴についてのみ、ここでは紹介することにします。
2.2.1前後の音素を考慮した高精度な音声認識
SL-TRANSで採用していた音声認識の単位は母音や子音といった音素毎のモデルでした。音声データベースを使って、音素毎に音響的な特徴の確率的な連鎖を隠れマルコフモデルという統計的なモデルで表現していました。しかし、同じ記号(例えば、“aka”(赤)と“aki”(秋)の/k/など)で表される音素でも、その前の音素(先行音素)やその後に続く音素(後続音素)の影響を受けて、調音(口や喉を動かして発音する仕方)的にも音響(生成される物理的な音)的にもいろいろと変動します。ASURAにおける音声認識では、前後の音の影響によって注目している音素の波形が変化することを反映した音素モデルを用いています[2]。その結果、SL-TRANSより高い連続音声認識性能を達成しています。
2.2.2扱える言語表現と語彙の拡張
言語翻訳のための処理系は、大きく分けて、日本語の解析を行なう部分、日本語から相手言語(英語やドイツ語)へ変換する部分、相手言語(英語やドイツ語)を生成する部分の3つの処理系から構成されます。日本語解析部では、扱える語彙や言語表現を増やしました。相手側言語の生成処理系は、広い範囲の言語現象に対して成立する文法規則から、例外的な慣用表現までの様々な言語的知識を、統一した形式でシステム内に保持し、運用できる方式に大きく変更しました。
また、以前にも増して、日本語の標準的な話し言葉の調査を行ないました。日本語の話し言葉には、多様な文末表現が存在します。例えば、相手に何かして欲しい場合でも、「〜していただきたいのですが」とか「〜していただけませんか」などのようにいろいろな表現が可能です。そのような言いまわしを調査し、外国人に対する日本語教育やデータベースに現れる頻度を参考にして分類し、重要度を付与しました。日本語の基本的な言いまわしはほとんど扱うことができます。ASURAシステムで扱える日本語の言いまわしとその英語への訳し分けの例を示します。日本語の言いまわしの丁寧さの程度に応じて英語表現を適切に変えています。
1. 会議の話題について教えていただけますか。
→Would you please tell me about the topic of the conference?
2. 会議の参加料について教えてください。
→Please tell me about the attendance fee of the conference.
2.2.3ドイツ語への言語翻訳の開発
日本語から見ると、英語とドイツ語はともに西欧言語に属し、互いに似た言語同士です。しかし、言うまでもなく、各々の言語は他方にない特徴を抱えています。その固有性をいかに効率よく体系的に記述するかということが、言語翻訳を行なう上で重要です。いわゆる慣用句的な表現は、言語が変わるとまったく異なるものとなってしまいますし、語順や時制に関する制約も英語とドイツ語ではかなり違います。
相手側言語の生成という立場からは、ドイツ語の語順と語形に関する複雑な制約を効率的に扱うために、先に述べた言語的知識を運用する枠組を最大限に活用しました。
日本語を相手言語に変換するという立場からこの問題を捉えると、話はさらに難しくなります。同じ入力日本語文の構造に対して、常に英語・ドイツ語で同様の構造を対応させることが最適であるとは限らないからです。例えば、表1の「どのような手続きをすればよろしいのでしょうか」という例を見てください。英語に対しては、入力日本語文の構造に沿った直訳としています。しかし、ドイツ語に対しては、文全体の構造を捉えて構造を変化させています。ちなみに、このドイツ語を日本語に直訳すると、「どのように先に進めばよいか」ということになります。このような許容度の微妙な差というものは個別的になりやすく、その取り扱いは一般にとても難しい問題を含んでいます[4]。そのため、ASURAの言語翻訳では変換部は英語とドイツ語で分けてあります。
3.自動翻訳電話国際共同実験
3.1国際共同実験の目的
今回の国際共同実験の目的は、日本(ATR自動翻訳電話研究所)、米国(カーネギーメロン大学)、ドイツ(シーメンス社/カースルーエ大学)の音声翻訳システムを国際公衆回線で結び、自国言語で発話された音声を相手言語に翻訳して、音声として出力する自動翻訳電話の可能性を実証することにありました。
3.2国際共同実験のシステム構成音声翻訳システムを結んで国際間の自動翻訳電話の実験を行なうためには、各国の研究機関同士の密接な協力が必要不可欠です。そこで、今回の共同実験では、各研究機関は他のサイトでは開発することが困難な自国語音声の認識、自国語から相手言語への翻訳、自国語音声の合成について責任を分担し、全体として自動翻訳電話が実験できる形としました。図2に日米間の場合を例にシステムの概要を示します。国際通信回線上には、翻訳結果の文字列を伝送することにしています。
ATR自動翻訳電話研究所では、今回の実験のために、音声翻訳システムASURAに改良を加えました。システムの性能目標としては、対話があまり間延びしないようにするため、音声入力から翻訳結果が出力されるまでを約10秒と設定して、音声認識に3秒、構文解析に3秒、変換生成に3秒という配分で改良を進めました。この結果、国際共同実験で使用した高速版ASURAでは簡単な文なら音声入力から翻訳結果の表示まで10秒以内で、複雑な文でも十数秒で実行できるようになりました。
日本語音声合成には、ATR自動翻訳電話研究所で開発したATRν-Talkシステム[5]を使用しました。今回の共同実験のために、相手サイトの翻訳部で生成された日本語テキストに対して、効率的にアクセントを付加する処理を追加し、高品質な合成音を高速に出力できるようにしました。
各国間の通信に関しては、通信方式および通信手順を共同で設計・開発しました。通信回線で伝送する情報が文字列であること、および、どこの場所においても簡便に通信できることを考慮して、当初、国際公衆電話回線経由でのモデム接続をすべてのサイト間の通信に利用する予定でした。事前の通信実験により日独間では必ずしも十分な信頼性を確保できないことが判明したため、日米間は電話網のモデム接続とし、日独間は公衆パケット網経由でのパケット通信で結んで実験を実施しました。
ところで、音声翻訳処理には各国のシステムとも少なくとも数秒程度を必要としています。このため、相手側のシステムの動作状況を確認する目的で、各音声翻訳システム間では最終的な音声翻訳結果のテキストだけではなく、音声認識結果などの中間結果やシステムにおける処理の状態も伝送することにしました。このための通信手順に関して、命令体系、プロトコルを共同で開発しました。さらに、発話する順番(発話権)を定めて、相手から発話権が返ってくるまでは音声入力ができないように制御することにしました。そうすることにより、音声翻訳処理が終らないうちに相手の発話が割り込むことのないように制御することができます。図3に、画面の様子を示します。上から順に、入力された音声波形、文節音声認識候補、文音声認識候補、翻訳された英文、相手サイトの状態表示窓を表示しています。
また、実験において対話をスムーズに進めるため、N-ISDN2によるテレビ会議システムで各サイト間を結びました。発話者の原音声、合成音声などもテレビ会議システム経由で伝送しましたので、通常の電話より広い帯域(7kHz)で良好な品質の音声伝送を行なうことができました。
実際のシステムにおいて音声入力から相手サイトにおいて音声合成が行なわれるまでの時間は、日本語から英語では10秒から20秒程度、日本語からドイツ語では20秒から40秒程度かかりました。その遅れ時間の原因としては、オペレータが認識結果の確認を行なうための遅延、プロセス間通信に伴う遅延、国際間のデータ伝送に伴う遅延、音声合成のための遅延(英語では約1秒、ドイツ語では数秒)などが考えられます。
3.3国際共同実験の概要
国際共同実験では、ATR、シーメンス社、および、カーネギーメロン大学のそれぞれが実験公開に都合のよい昼間に主催する公開実験が3回にわたって実施されました。それぞれの公開実験では、日本語・英語間、日本語・ドイツ語間、および、英語・ドイツ語間での自動翻訳電話による対話が、国際会議の参加料、オプショナルツアー、会場への道順などを話題にして行なわれました。日本側では、相手に応じて2名の話者が交代で対話を行ないましたが、米国およびドイツ側では1名の話者がすべての実験に対応していました。
3.4国際共同実験の評価
国際共同実験を行なうにあたって、音声翻訳処理に約10秒を要することから、対話が間延びしてしまうのではないかという恐れがありました。しかし、実際に実験を行なってみると、テレビ会議システムを併用した効果もあって、それほど不自然な対話にはならなかったように思います。日本側のASURAシステムは入力された48文のうち、47文を正しく認識・翻訳しました。残る1文についても2回目の発声を正しく認識・翻訳して十分な性能を発揮しました。
ところで、今回の国際共同実験では、発話権の管理を行なったので、音声入力から音声翻訳の終了までの間に相手が割り込むことを防ぐことができました。しかし、実際の対話では、途中で割り込んで発話することがたびたび生じます。発話権を管理することは、対話の流れが乱れることを防ぐには役立ちましたが、システムを実現する上では発話権の管理方法はとても難しい課題です。さらに、音声認識あるいは翻訳に誤りがあったときに、どう対話を継続させればよいかも難しい問題です。音声認識誤りが起ってうまく翻訳できなかった場合は、エラーメッセージの処理の問題に帰着できますが、音声認識誤りが起って、しかも、そのまま別の意味に翻訳されたらどうでしょう。対話の流れが乱れるばかりか、二人のユーザの間で誤解が生じてしまうかもしれないのです。このような発話権や誤り訂正の問題は、今回の実験を行なうことによって初めて生じた新しい種類の課題です。今後の研究において真剣に取り組まねばならない課題だと言えます。
また、今回の国際共同実験では、テレビ会議システムを使って相手の映像を見ながら対話を進める試みをしました。相手の映像があると、発話のタイミングが取りやすい上に、翻訳内容が相手に伝わっているかどうか確認することが可能です。相手が好意的であるかどうかも伝わってきます。したがって、音声のみに頼るのではなく、相手の表情や動作なども一緒に利用できるような自動翻訳電話が実用上望ましい形態であり、システムを設計する上で重要な要素となるでしょう。
4.むすび
音声翻訳システムASURAと自動翻訳電話国際共同実験について報告しました。明瞭に発話された丁寧な日本語の話し言葉を扱う限りにおいては、高い音声翻訳性能が得られるようになってきました[6]。しかし、自動翻訳電話が広く利用されるようにするためには、自然な発話(spontaneous
speech)を処理対象として扱う必要があります。今後は、より自由な発話を許す、高度な音声翻訳の実現を目指して、さらに研究を進めていくことが重要です。
なお、ATRの研究に刺激され、海外でも音声翻訳の研究が盛んになってきています。米国ではAT&T Bell研究所で英語とスペイン語の間の音声翻訳の研究を開始しています。銀行窓口での簡単な会話を扱っています。ドイツではVERBMOBILという音声翻訳プロジェクトが始まりました。打合せの日程調整のような会話を扱おうとしています。このような研究の高まりによって、21世紀の始めには、限定された場面でなら自動翻訳電話が利用できるようになっているでしょう。
参考文献