


経験的知識を活用する新しい言語翻訳手法
ATR自動翻訳電話研究所 言語処理研究室 隅田英一郎、古瀬 蔵
1.はじめに
@ 英会話の得意な人に勉強方法を聞くと、「若い時(中学、高校の時)に、会話の教科書を丸暗記した」という答えが、よく返ってきます。暗記を苦しくて嫌だと思うか、使える英語が増えて楽しいと思うかが運命の分れ道と言えそうです。また、同時通訳の学校では、迷ったり考えている時間的な余裕のない切迫した状況下で大量のドリルをこなすのが、一つの重要な訓練とされています。これらのエピソードは、英語(の通訳や翻訳)の上達のために、用例(ここでは日本語文と英語文の典型的な対応を用例と呼ぶ)を経験的知識として記憶し瞬時に再生できることが必要であることを示唆しています。
英語で手紙を書くときのことを考えてみましょう。手紙の機能(依頼、許可、督促、感謝など)で分類された先人達の英知の結晶である例文集から、似た例文を借りてきて、必要な修正を施すことがよく行なわれます。この方法で手紙文特有の文体や種々の社会的な約束後などもうまく訳せます。「英作文は英借文である」といわれるゆえんです。
私達の日常生活や社会活動でも、経験的知識を活用することは与えられた問題に対処するための常套手段となっています。例えば、日々の生活で自分と似た立場の人の行動をまねる、会社で意志決定の際に前例を重視する、裁判において判例を規範として同種の事件を裁くなど様々です。
あらかじめ与えた文法に基づき翻訳を行なう従来手法では日常的な対話表現を十分に扱えない面がありました。そこで、筆者らは経験的な知識を使ってより柔軟な翻訳を実現するため、用例主導型の翻訳手法の研究を進めています。
本稿では、この研究の「ココロ」と成果と課題について説明します。
2.翻訳における経験的知識の利用
ここでは、用例による翻訳の「ココロ」、言語表現の類似性、「部分」翻訳実験について述べます。
用例主導型の翻訳手法では、用例(原文とその訳文の対)のデータベースを用います。データベースに次の用例が含まれているとしましょう。
(1)この包丁は切れる。→ This knife cuts.
(2)彼女は切れる。→ She is sharp.
翻訳対象文(3)と、用例(1)、(2)の構文は同じです。
(3)課長は切れる。→ ?
「包丁」と「課長」は意味的に近いとは認めがたいですが、「彼女」と「課長」は、両者とも「人間である」という意味で近いとみていいでしょう。全体として、(3)は(2)に類似していますので、この翻訳をまねて、システムは以下の英文を出力します。
(3)課長は切れる。→ The chief is sharp.
さて、言語表現の類似性とは何でしょう。言語表現の基本単位は単語ですから、まず、単語の類似性について考えてみましょう。
化学では物質を、図書館では本を、同類のものをまとめてグループ化する方法で体系化します。言語でも共通の特徴をもつ単語をまとめてグループ化できます。例えば、単語「彼女」と単語「課長」は、グループ『人間』に分類されます。グループ『人間』は上位のグループ『動物』に、グループ『動物』は上位のグループ『生物』にというふうに、小分類、中分類、大分類と体系化でき、全体を「逆さま」の木で表現できます(図1)。この体系化された単語の辞書をシソーラス(thesaurus)と呼び、グループのことを概念と呼びます。
我々は、単語の類似性の判定にシソーラス上の距離を利用する方法を提案し、実験を通して有効性を確認しました。単語の距離はシソーラス上の概念の距離によって定義します。概念の距離はシソーラスにおける最小の共通上位概念の位置に従って0から1までの値にします。値0は二つの概念が同じであることを意味し、値1は無関係であることを意味します。シソーラスの階層数が(n+1)なら下から、0、1/n、2/n、1を距離として割り当てます。
例えば、図1のシソーラスは4階層であり、概念『人間』と概念『猿』との最小の共通上位概念は『動物』ですから、距離(図ではdと表示してあります)は1/3となります。従って、「彼女」と「チンパンジー」の距離も1/3となります。「彼女」と「課長」の距離は0、図にはでてきませんが、「彼女」と「包丁」の距離は1となります。
入力と用例の距離はそれらの構成要素である単語の距離の重み付き総和として計算します。重みは単語の訳語選択に関する重要度を表すものですが、詳細は文献[1]を参照してください。
ATR自動翻訳電話研究所では、まず、英語への翻訳が困難な「AのB」という形の日本語の名詞句を検証実験のため取り上げました(A、Bは名詞、「の」は連体助詞全般を表すこととします)。名詞句「AのB」の翻訳は単純に見え、日本人の初心者は「Bユ
of Aユ」で済ましてしまう傾向がありますが、実は英語への翻訳は多様であり、「Bユ in Aユ」、「Bユ for Aユ」、「Bユ at Aユ」など様々な形から最適な表現を選択しなければなりません。(Aユ、Bユは名詞A、Bの英訳語を表すこことします)。例えば「京都の会議」は「the
conference of Kyoto」ではなく「the conference in Kyoto」と訳さなくてはなりませんが、コンピュータで「AのB」に対する適切な訳を決める良い方法は知られていないといっていいでしょう。
「国際会議申し込み」に関するATR自動翻訳電話研究所が収集した言語資料の中の約2,500件の用例(「AのB」と訳の対)を使った用例主導型の翻訳実験で、平均約80%の高い正解率を得ました。
これだけではなく、用例主導型の翻訳技術は様々な言語現象に幅広く適用可能です[2]。日本語の「名詞」や「動詞」などの内容語、「格助詞」や「接続助詞」などの機能語に関しても、有効性が確認されつつあります。ここでは日英翻訳を例にとりましたが、逆の英日はもちろん他の言語ペアにも適用できます。
用例主導型の翻訳手法が持つ従来手法にはない長所は以下のようにまとめられます。詳細は文献[1]を参照してください。
・用例の追加で翻訳の質を向上できる。
・翻訳者の技術の結晶である用例を活用できる。
・距離が結果の信頼度として働く。
3.経験的知識を使って「文全体」を翻訳する方法
次に、用例主導型の翻訳技術の手法を最大限に利用し、文全体を効率的に翻訳しようとする技術について説明します。
日本語文「会議に申し込みたいのですが。」を例に考えてみましょう。人間は、この文を英語に翻訳する際に、文法的に分析する(「たいのですが」がどのような品詞や意味の単語から成るのか、さらに、それらの相互関係は何かなど)ことはなく、「〜たいのですが→I
would like to〜」のような経験的知識(用例)を使って反射的に答えを決定することが多いと思われます。人間は、必要な場合だけ、文法、意味、前後関係、背景などの知識を絡めて翻訳していると考えられます。
従来の機械翻訳システムは、まず入力を文法的、意味的に分析し、それをもとに出力の英語文を作り上げるという方式を採っています。この方法は一括処理するバッチ的な翻訳の場合には一定の成果を収めました。
しかしながら、自動翻訳電話の実現のためには、日常的な対話文を高速に処理する必要があります。ATR自動翻訳電話研究所では、用例主導型の考えを発展させて、日本語を英語に変える変換操作と経験的知識(用例)を中心にし、必要な場合だけ、文法、意味、文脈などの知識を絡めて翻訳することにより、無駄な処理を省く効率的な方式(図2)を提案しました[3]。
本方式では2節で説明した距離を部分的な経験的知識(用例)の選択だけでなく、広く活用します[3,4]。
部分的な用例を組み合せることによって、文全体を翻訳します。例えば、複雑な入力文、「分らない点がございましたら、いつでもお聞き下さい。」でも入力の各部分との距離に従って選択された「〜たら〜下さい→If
〜 Please 〜」、「〜がございまし→you have 〜」、「分らない点→ a question」などの用例を組み合せて、「If you have a
question, please ask at anytime.」という英語を作り上げます。
用例の入力文への適用には複数の組み合せが生じることがあります。この場合、距離の総和により最も適切な組み合せを選択します。
用例を適用できるように入力を変形したり、翻訳に必要な情報を抽出する文法知識を使う必要が生じることもあります。文法知識も用例と同様に記述し、距離によって選択するように実現しています。
「文」翻訳のプロトタイプでは、できるだけ効率的に処理を行なうために、次のような制御機構を採用しております。
(1)できるだけ字面に近い表現の用例から適用を試みる。すなわち、文字列、単語のパタン、品詞のパタンの順に適用しようとする。
(2)用例の適用だけで翻訳を試み、できないとき文法知識の適用を試みる。
筆者らは「国際会議申し込み」に関するATR自動翻訳電話研究所が収集した言語資料の約17,000文の日本語文、およびその対訳英語文の頻度調査や分析を行なって、翻訳対象をカバーするための経験的知識(用例)や文法知識を作成しています。
サンプル会話の翻訳でプロトタイプの評価を行ないました。サンプル会話は10対話、225文より成ります。基本対話表現をほぼ網羅し、経験的知識(用例)や文法知識の作成の元となる言語資料とは独立に作られています。サンプル会話の翻訳は文字列、単語のパタンの経験的知識(用例)で7割強カバーできました。プロトタイプでは冠詞の問題を除いて、約90%の翻訳率を得ています。
4.おわりに
ATR自動翻訳電話研究所では経験知識として用例を用いる翻訳技術を提案し、その有効性を示しました。これを発展させ様々な知識を有機的に利用する効率的な翻訳方式のプロトタイプを作成し、検証実験を進めています。文脈知識の導入、並列計算機上での分散協調的翻訳の実現、翻訳能力の理論的な検討などが近い将来の課題です。
最後に、自然言語処理分野全体の中で、経験的知識に基づく手法を位置づけてみましょう。コンピュータが発明された直後から探求されている機械翻訳の研究は一つの成熟期を迎え、今、新たな方向へ大きく変わろうとしています。この新しい方向は、1980年初めに提唱された「アナロジーに基づく機械翻訳」[5]のアイデアに始まり、1980年代終わり頃より熱心に取り組まれました。まず、句などの制限された表現に対してその有効性が示され[6,1,2]、現在、文全体の最適な翻訳を求める手法がいくつか提案され、種々の観点から実験・検討されているところです[6,3,4]。
ほぼ同じ時期に、自然言語処理の世界に様々なアイデアが生まれ、研究は活況を帯びてまいりました。言語データベースの作成と利用、確率・統計の適用、ニューラルネットワークの応用、超並列計算機や大規模メモリの実現など、様々な技術が競い合い、発展しつつあります。ATR自動翻訳電話研究所は経験的知識に基づいた手法を研究の一つの核として、特に、大規模対訳言語データベースの構築、規則主導型の自然言語処理の手法などの研究と協調しながら自動翻訳電話実現のための基礎研究を進めていこうとしています。
参考文献