対話文の日英翻訳



ATR自動翻訳電話研究所 言語処理研究室 飯田  仁



1.はじめに
 自動翻訳電話の実現には、電話における会話の内容を認識する音声認識技術、日本語英語間の会話を翻訳する機械翻訳技術、電話の音声出力を作り出す音声合成技術、さらにそれらの間を融合化する音声言語統合化技術の4つの要素技術研究が不可欠です[1]。機械翻訳技術については、計算機の使用説明書や各種ドキュメントを対象として、機械翻訳のためのシステムが開発されつつあります。しかし、会話体の文を文書翻訳用のシステムを使って翻訳しても、内容を伝達するために十分な翻訳結果を得ることができません。なぜなら、従来の機械翻訳技術が対象としてきたものは、文章として正しく書かれた文であって、会話における話し言葉の文を対象にはしていないからです。
 そこで、通訳を介した電話の会話の特徴と、個々の発話である話し言葉の特徴を探るため、電話会話の収集と分析を進めています[2]。話し言葉の文には、言い換えや言いよどみ、さらに冗長に繰り返される表現などが多数現れます。このため、計算機がその内容を理解し、翻訳することが非常に難しくなっています。話し言葉の翻訳技術を開発するに当たり、もう少し書き下された文に近い会話を対象に設定して、研究を進めることが望まれます。そこで、計算機端末を使って会話のやり取りをする端末間の対話翻訳システムの実現技術を明らかにすることを、当面の機械翻訳技術開発の課題に設定しました[3]。その実験システムを作成して、現在は通訳電話開発技術として使えるように、問題点の分析や改良を進めています[4]

2.端末間の対話翻訳システム
 収集・分析した端末間対話において多用されている言語的用法の特徴を図1にまとめてみます[5]。図1の例1では、基本的には電話会話と同じように、何を、どこから、どこへというような情報な情報が欠落しています。対話においては、話し手も聞き手も対話の流れの中でそれらが何であるか分かって話を進めています。会話体の日本語の文を翻訳して英語で表現しようとすると、省略部分を計算機が補完しなければなりません。例2は、相手に依頼するための表現や、丁寧な表現など会話体の文に多く出現する言い回しの例で、これらの表現は計算機マニュアルなどにはみられません。
 例3は習慣化している表現の例で、字面通りの翻訳をしても、適切な表現にはなりません。
 その他にも、対話文の翻訳として扱わなければならない多くの特徴的な表現がありますが、図1の例に現れた特徴を中心にして、対話文翻訳技術の説明をしていきます。
 また、従来の機械翻訳システムは、解析、変換、生成という三種のモジュールから構成されることが一般的であります。これから紹介する対話文翻訳システムも同様のモジュール構成を取っているので、各モジュール毎に以下順次説明していきます。解析モジュールでは、文中の各語に関する文法的、かつ意味的な係わりを明らかにして、対話文がもつ伝達内容を計算機上に記述します。変換モジュールでは、翻訳する相手言語(英語)の世界にふさわしい伝達内容の記述に置き換えます。生成モジュールは、その記述から対話文として適切な相手言語の表現を作り出します。

3.対話における伝達内容の解析
 端末間の対話でも自由な表現を扱わなければならないため、対話文を解析するための文法とその処理手法は、従来より高度な能力を必要とします。
 従来の文法の代表的なものは、特定の語列を、文を構成する要素に基づいてまとめ上げるもので、書き換え規則と呼ばれています。その規則は、例えば名詞に格助詞(「ガ」や「ヲ」)が接続した名詞節1)に関する構成要素を次のように記述して、右辺の項から左辺が構成されることと、同時に、右辺に現れる項の順番を表記します。
 <名詞節>:=<名詞><格助詞>
 (例:<わたしは>:=<わたし><は>)

このことは、語順が比較的自由な日本語において、さらに会話体の語列であればなおさら、文法記述が大変になることを示しています。つまり、書き換え規則を使うと、その可能な語順に対応するすべての規則を書き上げてやらねばなりません。
 そのような規則の増大を克服するために、従来とは別の文法が考えられました。それによると、文法規則は、基本的には語と語とが結合して新たな節を作るという単純なものだけになります。ある語が他の語とどの様に結合して、どの様な節を構成していくことができるかを各語に記しておく方法です。
 それらを満たす文法として、単一化文法(unification based grammar)と呼ぶ新しい文法の理論が提唱されています。その中で、結合の条件を各語ごとに最も独立させて記述できる文法として、Pollardが提唱したHPSG(Head-driven Phrase Structure Grammar)という文法理論[6]があります。ATRでは、この方法が話し言葉の言語処理(日本語、英語など多くの言語)にはとくに有効であると考えました。日本語の会話体の文に対して、文法規則や語の結合規則のあり方を研究し、その理論を具体的に適用することを行いました。
 単一化文法は語と語の結合の規則を、それを構成する単位である「素性2)」に関する値を指定することによって記述します[7]。素性は大きく分けて、主要部、補語、意味から構成されます。たとえば、「申し込む」という語に関する記述は、図2に示すように、主要部の素性の値の一つとして品詞という素性とその値「V(動詞)」をとります。さらに、補語の値として、品詞が「P(助詞)」であり、かつ助詞に「ガ」をもつ名詞節とか、助詞に「ヲ」をもつ名詞節とかをとるというようにします。節や文が表現する意味内容も素性を使って記述できます。
 語の記述をこのようにすると、一般的な文法規則として、ある語(または節)と、ある語(または節)とが結合して新たに節をつくる条件を素性の一致に関する条件として記述することが可能になります。この一致とか矛盾とかという判断が、単一化という操作として明確に定義されています。端的には、同一素性の値が同じならば一致し、その値が異なれば矛盾します。さらに、片方だけで設定されている素性の値は新たな節に追加されていきます。
 単一化操作を使って、入力文「わたし は会議 に 申し込み たい のです が」を解析する過程を簡略化して図3に示します。語と語とのつながりを可能とする条件は、補語の素性に記されています。文が動詞節から構成されるとみなして、まず動詞節のまとめ上げを行います。例として、助動詞「たい」をみてみますと、補語に「品詞:動詞」と書いてあります。これは、「たい」は動詞につなげてよいことを意味します。また、「のです」、「が」の補語は「品詞:動詞節」と書いてありますから、これらは動詞節につなげてよいことを意味します。したがって、これらはすべて前の動詞「申し込む」につなげることができ、順次に全部が結合できることになります。図3の動詞補語の素性は、動詞節が確定していく際に、同一内容のまま受け継がれていきます。その単一化の結果、それぞれの固有の意味内容から話し手のニュアンスなどを表現した補助表現を含む動詞節「申し込みたいのですが」の意味内容が確定します。意味の素性には、願望とか緩和などのニュアンスを表す内容(図1の第2例)が蓄積されていきます。
 さらに、「会議(名詞)」と「に(助詞)」との単一化操作により名詞節(「会議に」)が確定すると、この名詞節と、さきの動詞節「申し込みたいのですが」とが単一化し、「会議に申し込みたいのですが」という大きな動詞節を作ります。そして、さらに名詞節(「わたしは」)が構成されれば、その動詞節との単一化操作を繰り返し、最終的に文としてまとまった動詞節ができあがり、解析を終了します。そして、文全体の意味内容が自動的に構成されることになります。
 この解析法によると、主語が省略された文に対しても、素性の項を手掛かりとして、その内容の推定を行うことができます。例えば、「会議に申し込みたいのですが」という入力に対しては、助詞ガをとる名詞節が満たされないまま、解析を終了します。そして、話し手が行為者であることを推定します。
 以上が、新しく実現した単一化操作を使った文解析手法の概要ですが、高速性やメモリ使用量を考慮して具体化を進めています。

4.相手言語にふさわしい解析内容の表現と変換
 文解析の結果得られる文の意味内容は、「命題内容」を記述しているものと、「意図内容」を記述しているものとに区別して、その後の処理を進めていきます。
 図3の例文に従って説明します。解析結果の記述に示されるように、解析結果の意味内容は、動詞「申し込む」とその行為者、および「会議」との意味的な関係(空間的目標など)を内容にもつ語義「申し込む-1」3)、それと願望とか緩和などのニュアンス的な内容とから作られます。前者を命題内容と呼び、後者を意図内容と呼ぶことにします。
 命題内容とは、例えば客観的な事実である命題「私が会議に申し込む」についてだけ言及した意味内容です4)。それに対し、「申し込みたいのですが」とか、「申し込みできますか」などという表現には話し手の意図が盛り込まれます。
 さて、命題内容は、言語が違うと、動詞の意味する内容や、主語や目的語との関係が異なります。このため、日本語と英語との間の変換辞書を使って、命題内容の変換を行います。これには従来から使われている動詞と名詞との格関係5)の日英対応辞書や日英対応用語辞書を用います。例えば、動詞「申し込む-1」に対して、「make(a registration)」が対応することがわかります。この場合、日英対応辞書によりそれぞれの格関係の要素も関係付けられます。
 一方、意図内容は、言語によって内容があまり変わらないと見なせるので、変換の対象とはせず、次節の文生成過程でこれを加味することとします。命題内容を英語で表すと、
 I make a registration for the conference.
となります。それに対し、意図内容(ニュアンス)を加味しますと、
 I would like to make a registration for the conference.
とか、
 Can I make a registration for the conference?
というようにすることができます。
 したがって、翻訳全体の処理は、図4に示すように命題内容の記述だけを変換処理します。
 ただし、意図内容は、現在、言語間で共通のものと捕らえていますが、日英言語間で文化・社会的に微妙な差がありますから、翻訳実験を通して、この仮定の適切性や問題点を検討することにしています。

5.相手言語による対話文の生成
 
最終段階では、相手言語である英語で対話文が生成されます。例えば、図3の例文に対し、変換の結果は、行為者が話し手で、空間的目標が英語における会議の語義に相当するヤconferenceユで記述された意味内容になっています。そこで、それぞれをヤIユとヤthe conferenceユで表現できるようにします。さらに、「申し込む-1」という動詞の語義がヤmake-a-registrationユという語義に対応することが変換辞書により分かっていますから、命題内容の荒い生成の結果として、「I make-a-registration for the conference」という文を作り出します。ただし、この場合の動詞語義に対して、空間的目標は前置詞ヤforユをとることが辞書に指定されているので、それにしたがってconference の前置詞を決めます。
 命題内容において格関係にある対象は、名詞句や副詞句などの形態をとりますから、それぞれの対象を構成する規則を適用して、語の記述を決めていきます。
 解析の結果をそのまま受け継いだ意図の表現に対しては、英語表現を対応付けて、前記の命題内容の記述と融合させた記述を作り出します。図3の例文「参加したいのですが」についてみると、意図の表現として、願望、説明、緩和、そして丁寧な口調であることから、’would-like-to’という補助動詞相当句が選ばれます。
 意図の表現の記述によっては、疑問形や命令形の文型で記述したり、さらには日本語の解析結果における丁寧さの素性値を使って丁寧な質問文を作り出すこともあります。
 ここまでで、どの語を使って、どのような形の文を作り出せば良いかが分かってきます。そこで、文法的に正しい文にするために、さらに各語句のつながりから、適切な語の活用をした語列にするための仕上げが施されます。

6.実験例
 対話文日英翻訳の簡単な実験システムを作成し、今後の研究に役立てています。システムは、LISP言語で書かれ、現在ワークステーション上で実現しています。日本語の対話文を英語に翻訳した例の一部を図5に示します。これまで述べたもの以外の主な処理内容を次に列挙します。
(1)冠詞の確定:
 冠詞の確定は人間でも難しい問題ですが、対話の内容中で確定されているも(特定の会議など)に対しては、定冠詞を付け、その他は不定冠詞を付けるなどの便宜的な方法をとっています。
(2)社会的な慣用句の生成:
 第3文については、現時点では、熟語的に扱い、その意味を十分解析することはしていません。図1の第3例に示した慣用句なども熟語的に扱って、それに相当する相手言語の句を割当てます。このような扱いは、実用的なシステムを考えるとき、より実際的な方法とも考えられます。なぜなら、人間の対話においておうむ返し的な返答や挨拶も多くみられるからです。
 ところで、第5文では、主題となっている語「登録用紙」を省略することが可能です。しかし、主題となっているこのような語は、一定の話題の中で一様に省略されるので、主題の情報を使った省略の補完方法を確立する必要があります。

7.むすび
 電話会話の翻訳を目指し、当面の目標として設定した対話文の日英翻訳について述べました。対話文における言語的な単位の設定などについて、処理時間を短縮するという効果も考慮して、今後十分検討していく予定です。それと並行して、発話がもつ意味を十分把握する研究も進めていかねばなりません。例えば、丁寧な表現が話し相手との関係でどのように決っていくかを計算機で処理する研究[8]や、もっと正確に意図の表現がもつ意味を捕らえる方法の研究[9][10]などがその例です。
 さらに、音声による入力を実現するためには、例えば文節音声認識モジュールからの出力である、複数の文節列を入力として扱わなければなりません。このことは、文節候補が飛躍的に多くなることを示しています。そこで、各文節ごとに候補の数を絞るための技法の開発や、複数の文節候補を入力として受け付ける解析手法の開発も進めています。


参考文献