実世界で利用可能な音声翻訳技術の実現に向けて



はじめに
 母語以外の言語の習得には長年にわたる学習過程を必要とすることから、学習を必要とせずに外国語でのコミュニケーションを可能とする自動翻訳技術は人類共通の夢となっています。自動翻訳技術は、まず書物を翻訳するための技術である機械翻訳技術として、1950年代に研究開始されました。1970年代から世界の通商や人の移動が大きく増加したことを受け、1980年代に入って、音声言語、すなわち話し言葉によるコミュニケーションを可能とする音声翻訳技術の研究も開始されました。1980年代からの日本での基礎研究の結果、音声認識技術、言語翻訳技術、音声合成技術などの、音声翻訳技術を構成する各要素技術は著しく進歩しました。音声翻訳技術自体も一部限定された用途における日本語英語間の対話で、一文ごとの翻訳がある程度実現できる段階に達しています。しかし、音声認識技術は、限られた環境下では利用可能ですが、さまざまな実環境下で種々の使用者の利用を可能にするという意味では、音声翻訳技術の要素技術として満足できる性能には達していません。言語翻訳技術については、個別の言語対ごとの翻訳規則を人の内観に頼って開発しており、新たな言語対やドメイン(話題)での利用を可能にするためには、新たに多くの開発作業を要します。さらに、言語翻訳技術が有する最大の問題点の一つは、音声認識誤り、発話の不完全性、翻訳時に使用する知識や用例の不足等の可能性を考慮して決定されるべき翻訳結果の信頼度を示す指標がない点です。このため、相手言語の知識のない使用者が信頼して実使用環境下で利用できる段階には到っていません。20世紀末の2000年に日本に出入国した人の数は、図1に示すように、出国者が約1800万人、入国者が約520万人と膨大です。21世紀に入って、国境を越える人や物さらには情報の交流はますます増加していくでしょう。グローバル化された多言語社会において、交流の最大の壁は言語の壁だとも言われています。このため、異なる言語を話す人の間で互いの母語によるコミュニケーションを可能とする多言語音声対話翻訳技術への期待は、一層高まっています。この要望に応え得る音声翻訳技術を研究開発し、実使用環境での利用可能性を実証することが、本研究開発の目的です。

1.研究開発課題の概要
 異言語間のスムーズなコミュニケーションを可能とするためには、図2に示すように、話し手同士の関係、発話者の意図、文化的背景、場面、文脈といった発話外の状況を理解した上で、発話された内容を翻訳することが必要であり、このような機能を備えた音声翻訳システムの実現が究極のゴールということになります。しかしながら、話し手同士の関係、発話者の意図、文化的背景、場面、文脈などの情報を適切に利用する音声翻訳技術を実現することは、現状の技術では不可能であり、長期的な基礎研究が必要です。一方、発話の中にはこのような発話外の状況を利用せず、一文ごとの表層情報のみを使用した翻訳であっても、相互に理解可能な場合も多く存在します。現在、実環境下で使用可能な多言語音声翻訳技術の実現は極めて要望の大きい急務の課題であることを考えると、前述の究極のゴールに向けて、一定期間ごとに逐次適切な目標を設定し、それを達成する具体的な方策の立案と実施が不可欠です。当面達成すべき目標は、さまざまな実環境で話された音声言語を一文ごとの表層情報のみを使用して翻訳する技術を確立し、異なる言語を話す人と人との実際のコミュニケーションの場面で、どの程度的確に情報を伝え得るのかを実データに則して検証することであると考えます。そのために、さまざまな実環境で種々の利用者の使用を可能とする音声認識技術、実環境下の多様な発話に対応できる言語翻訳技術の研究開発が必要です。特に、言語翻訳技術については、従来、高度な知識をもった専門家の内観に基づき規則を構築していく構文トランスファー方式およびそれに一部用例翻訳を利用した方式が主に使用されてきました。構文トランスファー方式は、十分な量の対訳コーパスがなくても開発が可能であるという利点を有していますが、ドメインのカバレッジを拡大するたびに高度な知識をもった専門家の内観に基づき規則を再構築する必要があるという大きな欠点を有しています。またカバレッジを客観的に知る方法がありません。一方、当研究所ではこれまでコーパスベース翻訳手法の研究開発を行ってきました。音声言語、特に対話は文字言語に比較して一発話の平均単語数が少ないことから、稠密なコーパスが収集可能であり同手法を効果的に適用できます。さらにこの手法を使うと分担してコーパスの収集ができるという利点があるため新しいドメインへの適用が容易となります。このため、大規模なコーパスを利用して言語翻訳を行うコーパスベース翻訳手法を中核的な技術と位置付け、本技術の研究開発とともにコーパスの開発手法についても研究開発を進めます。これらの要素技術を密結合して、信頼度指標をともなった翻訳結果を出力できるコーパスベース音声翻訳技術の研究開発を実施します。具体的には、音声対話翻訳技術として最も広範囲な利用が想定される、海外旅行中の会話を対象に、多言語音声翻訳技術の研究開発を行います。言語対としては、利用可能な地域や話者数などの相手言語のもつ種々の影響力や、言語としての構造の疎遠さなども考慮し、ほとんどの日本人がある程度の会話運用能力を有する英語を対象とした日英音声翻訳技術と、逆にほとんどの日本人が知識をもたない中国語を対象とした日中音声翻訳技術及びその他特定の言語と日本語との音声翻訳技術とします。なお、音声翻訳技術という研究テーマの性質上、各国の研究機関との研究協力が重要と考えられます。このため、各国の研究機関と研究協力体制を確立し、当研究機関で中心的に研究開発を進める研究テーマと、相手研究機関との密接な研究協力の下で行う研究テーマ、相手研究機関の研究成果を研究開発に活かす研究テーマの選択を明確化し、並行的に研究を進めることとします。以下、各サブテーマの概要について説明します。

2.実音響環境での音声認識技術
 音声認識は、近年、長足の進歩を遂げています。この理由は、確率モデルと音声コーパスの整備が当研究所を含む研究機関により組織的になされたことによります。現在用いられている隠れマルコフモデルは、1970年代後半に提案された確率モデルに基づく手法であり、発話にともなう音声の特徴空間における時間的、空間的揺らぎを適切に表す特長を有しています。しかしながら、音声翻訳を目指した場合、現在の技術の性能は実際の利用環境では、未だ不十分と言わざるを得ません。実際に利用される環境では、種々の発話様式(発話スタイル)の発話が生じ、環境には、環境雑音、残響が存在するためです。本研究では、より実環境に近い環境での頑健な音声認識技術の確立を目指します(図3)。このような実環境における変動の要因は、一般に明示的に規則で表現できる種類のものでなく、これまで音声認識で一定の成功を収めたように、ある程度以上のコーパスと、構造・規則を反映した確率的モデルを用いる手法を適用するアプローチが最も有望です。そのためには、実際の状況で大量のコーパスを収集する必要があり、音声翻訳システムを利用しながら、コーパスを収集し、研究を進めるプロセスが必要となります。それには、実際の音響環境に頑健な音声認識が第一に重要な機能となります。本研究では、実音響環境で頑健な音声認識を実現するための「音環境適応型音声認識技術」、実環境での音声翻訳性能を向上するための発話スタイル変形への頑健性を実現する「発話スタイル適応型音声認識技術」、音声翻訳が対象にする言語対を容易に増やすための「多言語音声認識技術」、実環境における使用において高い認識精度を確保するための「適応的入力発話リジェクション技術」の4つの研究開発を目標とします。

3.音声言語解析・統合技術
 本サブテーマでは音声認識と言語処理に跨がる問題について検討し、これらの処理を統合してより音声言語システム全体としての性能向上を目指します。音声を認識する場合、どのような単語がどのような順序で出現しうるか、という言語的な知識(言語モデル)が不可欠です。近年の研究によって、狭い話題であればそこそこの精度の言語モデルを構築することは可能になってきました。しかし「旅行で使われる言語表現」といった少し広がりのある話題になるとすべての表現を過不足なく表現することができず、予期しない言語表現が入力されて認識に失敗することなどがしばしば起こります。これは、対象の話題に関する知識や言語的な知識を十分にモデル化できていないためであり、サブワードモデルという考え方などを使って、より柔軟性の高いモデル化を目指します。現状の音声認識処理では意味的なものはほとんど考慮されないため、意味的におかしな単位に切れたり、局所的に正しくても全体としてはナンセンスな表現が出力されたりします。そこで、認識結果を解析して意味のある単位にまとめたり、認識した際の「信頼度」を手がかりにあやふやでない部分のみを取り出す「情報抽出」などを行うことによって音声認識と言語処理とのスムーズな結合を目指します。音声認識や言語処理にはさまざまな制御項目(パラメータ)がありこれらを個々の入力や適用分野に応じて評価し最適になるよう調整する必要があります。従来、音声認識、言語処理それぞれ別個に最適化の方法が研究されてきましたが、これを音声言語システム全体に対して行うことが必要です。このため、音声翻訳性能の自動評価法、このために必要な音声言語データ収集法などの検討を行い、音声言語処理の統合を目指します。
4.コーパスベース対話翻訳技術
 従来の機械翻訳システムは規則によって動作を制御する形式のものを中心に研究開発されてきました。規則が中心的に用いられてきた主な理由としては、多様な言語現象に関するデータを網羅的に集めるのは容易でないこと、特に十分な量の対訳データを確保するのは困難であることが挙げられます。すなわち、人間の類推能力を活用して言語現象を抽象化して言語データの不足を補完することにより、翻訳システムのカバレッジを拡大しようとしてきたと考えられます。しかし、このような実現形態では、他のドメインにシステムを移植したり、新たなデータに合うようシステムを改良したりするのが容易ではありません。すなわち、用意されたデータに素早く適用できるようにシステムを構成するコーパスベースの手法の実現が急務です。また、コーパスベースの手法であれば、多言語への展開も容易であると考えられます。しかし、現時点ではコーパスベースの手法は狭いドメインを対象として実現されているに過ぎず、翻訳精度も構文トランスファー方式を上回っているとは言い難い状態です。そこで、本サブテーマでは、対話に関する大量のデータを収集するとともに広いドメインに適用可能な技術の実現を目指します。具体的には、音声翻訳に関する潜在的な要請を踏まえ、日本人が海外旅行する際の会話支援、日本国内で外国人旅行者に対する会話支援を対象として、実際に行われる会話の対訳データを収集します。そして、この対訳データを直接的に利用して翻訳する用例ベースの翻訳手法と、対訳データを統計的に処理して統計モデルを作成しそれを利用して翻訳する統計的翻訳手法を検討します。いずれのアプローチにおいても、検討に使用するドメインや言語対への依存性を排除するように務め、新たな言語対や異なるドメインに容易に適用可能なコーパスベースの手法として確立します。

5.異種コーパス統合利用技術
 日常対話に比べて一文が長い対話や講演などの場合(以下、講演と呼ぶ)、稠密で均質なコーパスの収集は容易ではありません。したがってこのような対象にコーパスベース翻訳を適用するには、直接大規模コーパスを構築する手法にかわり、入手可能な多種多様のコーパスを統合し利用する手法を開発する必要があります。音声言語に対し文字言語のコーパスの入手は比較的容易です。例えば新聞テキストのコーパスや、音声言語に近いニュース原稿のコーパスなど、大規模なコーパスが現在入手可能です。そこで本サブテーマではこれらのコーパスを音声言語コーパスに加えて統合し、大規模コーパスを実現する手法の確立を目指します。またこの大規模コーパスを使った音声言語の翻訳手法の確立を目指します。統合した大規模コーパスは均質ではありませんので、この不均質性に強いコーパスベース翻訳手法の研究が大きな課題になります(図4)。

6.コーパスベース音声合成技術
 コーパスベース音声合成においては、音声コーパスの規模が大きいほど音韻的・韻律的多様性が広がるため音質的に有利です。このため、近年、音声コーパスを大規模化する傾向が強まっています。しかしながら、コーパスの大規模化には、(1)音声合成システムの開発コストの増大、(2)このため、多様な話者を用意することが困難、(3)所要記憶容量が大きいため携帯情報機器への搭載が困難、という負の側面があります。また、コーパス規模を拡大するにつれて音質改善量は次第に飽和するため、むやみにコーパスを拡大しても意味がありません。そこで、100時間程度の音声コーパスを作成し、その範囲内でコーパス規模と合成音の音質との関係を定量的に解明します。また、インターネット技術を活用した評価実験の導入を通して実験参加者層の拡充を図り、主観評価データの信頼性・普遍性を高めることにより、単位選択基準の精度を向上します(図5)。

終わりに
 音声言語コミュニケーション研究所が取り組む今後の研究課題について述べました。1986年のATR自動翻訳通信研究所の発足以来、ATR自動翻訳通信研究所とATR音声翻訳通信研究所での継続的な基礎研究を通じて、夢と言われた音声翻訳技術も、ホテルの予約、電話番号の問い合わせ、レストランでの注文等のあらかじめ限定された対話場面での使用は可能な段階に達したと考えます。しかし、よりさまざまな実環境での使用を可能とするには、今まで述べた個々の研究課題を達成していくことが不可欠であり、その目標に向かって研究に邁進していく所存です。今後とも関係の皆様方のご理解、ご支援をよろしくお願いいたします。


Copyright(c)2002(株)国際電気通信基礎技術研究所