急がば回れ:誰が急ぐの?
−日本語における格要素省略補完−
1.日本語はいい加減?
[日本語と省略] 日本語にはたくさんの省略があります。省略が多いことを日本語の三大特色の一つにしている人もいるくらいです [1]
。特に話し言葉ではより頻繁に省略が行なわれます。日本語の対話では、相手に言わなくてもわかることを省く傾向が強いと言われています。このうち、英語などとの比較で最もよく目につくのが、主語の省略です。もちろん、主語以外の要素も省略されますが、以下では主語について考えます。実際に話されている日本語を観察してみると、実に多くの文で主語が省略されていることに気付きます。
・ 急いで原稿書かなきゃ
・ だいぶ涼しくなりましたね
最初の例では「私が」が省略されていますし、次の例は普通省略はないと考えますが、理屈では「気候が」などが主語になります。後の例のように、そもそも省略ではなくて元々日本語に存在しないという考え方もありますが、英語などに翻訳することを考え、ここではすべて省略と呼びます。
[省略とコンピュータ] さて、英語などと比べるとこんなに省略が多い日本語はいい加減な言語なのでしょうか? そうではないと思います。主語の省略は、話し手と聞き手の両者が、お互いに主語が何かを知っているときに省かれるため、私たちはなくても困らないのです。日本語は、そのような場合に省略することを(文法的に)許容する、柔軟な言語なのだと思います。
しかし、人間の間に入って翻訳を行なうコンピュータを作ることを考えると、とたんにこの柔軟性が困難性に変わります。コンピュータで翻訳できるのは「お行儀のよい」文だけなので、省略があるような「お行儀の悪い」文はどこかで姿勢を正して省略を補う処理が必要です。これを省略補完処理と呼びます。これまでの技術では簡単な規則を作っておくことで、ある程度の省略補完が可能でしたが、まだ補完の精度が不十分でした。
2.人はなぜ主語がわかるのか
ところで、なぜ人間同士は主語を省略して話をしてもわかる場合が多いのでしょうか? いくら省略できるといっても、すべての文の主語を省略したら誰が主語なのかわからない文が出てくるのは明らかです。私たちが話をするときは、主語を省略しても相手にわかってもらえそうだなと感じたときに省略することから、主語が何であるかは主語以外の形で伝えているのではないかと推測できます。そのヒントは文の中にあることもあるし、
(今はまだ取り扱えませんが) 言い方、しぐさ、あるいは言っている時間や場所かもしれません。あるいはちょっと前に言った文かもしれません。これらの情報をできるだけ多く使い、人間と同じように駆使すれば、きっと主語は補完できます。
[急がば回れ] もう一つ、日本語には主語がわからないから、もしくは言う必要がないからあえて言わない場合があります。不特定の「人」を指している慣用句などはその典型で、タイトルの「急がば回れ」などもその例です。人間は、このような時も主語が総称(みんな)や不特定の人(誰か)だということはわかりますので、決まり文句を除けばどこかにきっかけとなる情報があるはずです。
3.機械にさせるには[たくさんのヒント] このように、主語の補完にはとてもたくさんのヒントが必要で、しかも使うヒントが場合によって異なるということが次第にわかってきました。つまりこれらのヒントをできるだけ多く使って規則を作れば主語は補完できるはずです。しかし、ヒントはとてもたくさんなのでこの組み合わせ方をすべて手作業で書いていくのが大変なのは容易に想像でき、また規則を漏れなく正確に書けるとはかぎりません。
[決定木1] たくさんのヒントを使って柔軟に記述でき、かつコンピュータでも扱いやすい知識表現として、私たちは決定木という道具に着目しました。決定木は図に示すような形式で、意志決定が質問によって徐々に分類されている様子が木に見えることからそう呼ばれています。例えば図の左に示すような、雑誌で見かける「あなたの性格診断」なども決定木です。性格診断では、スタート地点から順番に質問
(「テレビをよく見る」など) に答えていくと行き先が枝分かれしていき、最後にはゴールのうちの一つにたどりつき、(「不精」などのように) 性格が診断されます2。
主語補完の問題で言うと、枝分かれのときの質問が補完に必要なヒントに、ゴールの診断結果が補完すべき主語にそれぞれ相当します。右図はホテル会話での主語補完の決定木の一例ですが、例文の話し手はフロントでなく(No)、また動詞は「教える」です(Yes)ので、主語は二人称と補完されます。
[決定木学習] 次に、この決定木作成を自動で行なうことを考えました。「性格診断」は通常人手で作るものですが、主語補完はたくさんの事例(どんなときにどんな主語になったか)を集めておいて質問の集合を作っておけば自動作成が可能です。このとき、質問の順番と内容が問題で、いかにできるだけ質問の回数を少なくして、無駄な質問をしないように木を作るのかがとても大切になってきます。これを「エントロピー」という統計的に適切な基準によって質問の順番を決定することが可能です[2]
。これを決定木学習と言います。
4.実験の結果
以上の枠組みで研究所収録の会話データベースで決定木学習に使っていない文に対して実験を行なってみました。質問として用意したのは、話し手(フロントか客か)、省略されている文の動詞、尊敬などの待遇表現、その他の語句
(自立語、格助詞など)です。その結果、深層格(動詞の動作主)の補完で 90% 程度[2]
、表層格(動詞の主語)の補完で 80% 程度 [3]
の補完が可能になりました。一定の精度を得ることが確認されたので、現在多言語話し言葉翻訳システムChat Translation System3の日英/日独翻訳部に組み込みを行なっています。また、以上は主語に限定してきましたが、間接目的語に対しても同様の手法で行なうことが可能です。これは従来行なわれていなかった新しい試みですが、これに関しても実験を行なった結果、主語と同程度の補完精度を得ることができました。
5.さらに必要なこと現在は、一つの文(発話)の内容とその文の話し手をヒント(質問項目)にして決定木を作っています。しかし、途中から人の話を聞いているときに誰が主語だかわからない場合があることから、もっと前の文の情報も使わないといけない場合があるようです。
・近鉄奈良に行くんですね
上の例では、相手の動作(二人称)を予想しているのか、自分がこれからすべき動作(一人称) を相手に確認しているのか、この文だけではわかりません。このような省略は主語だけに限らず、特にほとんどの直接目的語の補完にはこれまでの文の情報が必要だという調査結果が得られています。このような場合、つまり文脈照応をしている場合にどのような情報をどのように使うべきかという研究を「急がば回れ」で今後すすめていきます。
Copyright(c)2002(株)国際電気通信基礎技術研究所