もっと自然に話せたら
−文法的でない文を理解するために−



1.人はどんな文を話すか
 わたしたちは普段どんな文を話しているでしょうか。日本語の文は、名詞がいくつかあって、最後に動詞があるというのが基本的な形です。例えば、「私がきつねうどんを食べる」という文では、「私」「きつねうどん」という2つの名詞があり、最後に「食べる」という動詞があります。名詞には「が」や「を」といった助詞がついており、これによって、「主語」とか「目的語」とかいった機能が決まります。上の文では、「私」が「主語」で、「きつねうどん」が「目的語」です。このような決まりごとが「文法」です。では、わたしたちが普段しゃべっている文は本当にこのような文法にしたがっているでしょうか。
 ATRでは、音声翻訳通信システム開発の基礎資料として音声言語データベースを構築しています[1]。そこでは、海外旅行を行なうという設定で、旅行者とホテルのフロント係や旅行代理店の担当者との間で行なわれる自然な音声対話のデータを収録しています。わたしたちは普段、いかに文法的でない文を話していることでしょうか。例えば、(1)はお土産を買う場面での旅行者の発話です。
(1)えー、そしたら、ドナルドダック、中ぐらいのドナルドダックお願いします。
ここには、さまざまな形での文法からの逸脱が見られます。(i)「えー」のような冗長な語の使用、(ii)「そしたら」のような口語的な言い回し(本来は「そうしたら」)、(iii)言い直しによる余分な語の発生(最初の「ドナルドダック」は必要ない)、(iv)助詞の省略(「中ぐらいのドナルドダック」の後に「を」がない)などです。文法に従うなら、(1)の文は(2)のようになっているべきでしょう。
(2)そうしたら、中ぐらいのドナルドダックをお願いします。
これまでの音声翻訳システム[2]では、このような文法を逸脱した文は扱えませんでした。しかし、音声翻訳システムをより高度で使い易いものにするためには、ユーザに負担を強いることなく普段通りに話してもらえるようにすることが不可欠です。このような考え方のもと、当研究所では、文法的でない文でも理解できるような仕組みについて研究しています。

2.音声翻訳システムはどのように文を理解するか
 文法的でない文の理解について考える前に、音声翻訳システムが文法的な文をどのようにして理解するか、簡単に説明しましょう。「理解する」というのは、例えば、日本語を英語に翻訳するときに必要になる、「主語」とか「目的語」とかいった機能を明らかにすることだと考えて下さい。最初に述べたように、文法的な日本語の文であれば、『「が」という助詞のついた名詞は「主語」である』といった文法規則が当てはまります。したがって、「私がきつねうどんを食べる」のような入力が与えられると、システムは、まず、「私」が名詞であることを辞書から知り、次に、助詞「が」がついていることから、上の文法規則により、それが「主語」であることを知ります。この様子はの左側のように表すことができます。

3.文法的でない文を理解する
 では、文法的でない文の場合はどうでしょうか。例えば、「私、うどん、きつねうどん食べる」という文を考えてみましょう。先程とは違って今度は「私」に「が」がついていないので、「主語」を決める文法規則が当てはまりません。また、「うどん」はより詳しく「きつねうどん」と言い直されているのですが、「言い直された語」を決めるような文法規則はありません。
 我々が研究している手法では、文法的でない入力に対して、文法規則がうまく当てはまるところだけ当てはめ、文法規則が当てはまらないところは仮説をたてて補うという方法をとります(参照)。例えば、上の例では、「私」が名詞であることまではわかりますが、助詞が抜けているために、「主語」か「目的語」かわかりません。そこで、とりあえず、抜けている助詞は「が」だと仮定して、「私」が「主語」であるという一つの仮説をたてます。もちろん、逆の可能性(「私」が「目的語」)もあるわけで、どちらを最終的な結論とするかは、どちらの仮説がより確からしいかを考えて決めます。言い直しについても同様で、「うどん」が「言い直された語」であるという一つの仮説をたてます。言い直しの場合は、当てはまる文法規則がないので、あらゆる箇所にこういった仮説(例えば「私」が「うどん」に言い直された!)を考えることになります。
 この結果得られる一つの結論を表したのがの右側です(□は仮説)。
 実は、このような仮説を作りながら物事を考えるといった行為をわたしたちは日常よく行なっています。例えば、買物から帰って来てテーブルの上に置いてあったケーキの端っこが少しかじられているのを見た時、母親は子供がつまみ食いしたのだと思って、子供を叱ります。しかし、「子供がつまみ食いした」というのは、あくまでも仮説に過ぎませんし(開けっぱなしにしておいた窓からノラ猫が侵入してケーキをかじったのかも知れない)。人工知能では、これを「仮説推論」と呼んでいます。ちなみに、上の例の場合、仮説の確からしさは、その子供がつまみ食いの常習犯であれば高くなることになります。
 我々の手法においては、
1. たくさんの可能性の中から最終的な結論を選ぶ処理をいかに効率的に行なうか
2. おのおのの仮説の確からしさをどのように決めるか
の2点がポイントになります。前者については、従来の文法的な文を理解する際に用いていた計算手順を拡張することによって、効率のよい方法をすでに開発しています[3]。後者についても、用意しておいた事例データの中でそれぞれの仮説がどのくらい頻繁に生じるかを調べて、その頻度に応じて仮説の確からしさを決める方法が有効であると、最近の研究でわかってきています(頻繁に起こる出来事は確からしさが高い)。

4.むすび
 音声翻訳システムで、人間が自然に話した文を理解する研究は始まったばかりです。工学的手法の開発だけでなく、そのような文の言語科学的な分析もまだまだ十分ではありません。我々は、音声翻訳システムをより多くの人に使ってもらうために、さらに努力を続けていきます。「もっと自然に話せたら」そんなユーザの願いを実現するために。

参考文献


Copyright(c)2002(株)国際電気通信基礎技術研究所