多様な話し言葉の中から語法の特性を見つけ出す
−統計的手法による木構造の構築とその効果−



1.はじめに
 我々は、普段何気なく使っている言葉を理解するために“よく似た使われ方をする言葉の集まり”や“色々な言葉と言葉の関係”などを「語法の特性」として利用していると思われます。たとえば、図1のように、「京都駅」と「ホテル」という言葉は、使われ方でいろいろな関係(a:修飾・被修飾、b:起点・終点の同格)になります。また、図に示した文(a)、(b)で「京都駅」という言葉を知らない人でも、言葉の関係は理解できるでしょう。これは、我々が、様々な「語法の特性」を利用して、言葉の関係を理解しているからだと考えられます。
 コンピュータでは、文を構成する構造を木構造として明らかにするために、従来、体系的に記述できる一部の「語法の特性」を、「辞書」と「文法」として取り上げ利用しています。しかし、「辞書」と「文法」だけでは、木構造を決められない場合があります。そこで、日常、我々が使っているような「語法の特性」を利用することができれば、木構造を精度良く捉えることができるようになります。そのためには、様々な「語法の特性」を有効に利用できる機構が必要になります。また、その特性を見つけ出すために、単語の品詞の情報も含めて文の木構造を明らかにした、大量のデータが必要になります。さらに、この木構造を利用することにより、音声認識、翻訳、情報検索などの精度を向上することができます。このようなことから、我々は、統計的手法を用いて精度の良い木構造のデータを自動的に作成する処理について研究しています。

2.統計的手法
 精度の良い木構造のデータを自動的に作成するために、曖昧性のある木構造の候補から、一つの候補に絞る必要があります。そのために、候補の確からしさをを、統計的な特徴を利用して計算しています。統計的手法を利用するにあたって、言葉の多様な使われ方のために、以下の2点が重要になります。
1.「どのような統計的特徴を利用するのか?」
2.「どのようなデータで統計をとるのか?」
まず、「語法の特性」に関する統計的特徴を計算するために、従来から使われている「辞書」と「文法」だけでなく、様々な「語法の特性」を表現するための表現形式を定めました。この表現形式を用いて、様々な「語法の特性」の統計的特徴を計算し、その有効性を正しい木構造データを使って判断し、利用する統計的特徴を決定します。これにより、一部の特徴だけでは、判断が偏ってしまううことを防いでいます。我々は、雑誌などの性格判断や占いなどで良く見かけることのできる決定木という枠組[1]を利用した処理機構を開発しました[2]。次に、統計をとるデータに関しては、そのデータがあまりに少数で極端に偏っていれば、その判断を誤り、処理の精度が悪くなってしまいます。つまり、良質で十分な量のデータが必要になるのです。しかし、新聞の社会面、旅行会話など場面によって、言葉の使われ方には、偏りがあると思われます。そこで、我々は、一般的な特性を捉えることから始め、新たに文の木構造を蓄積することで、分野ごとのデータを増やし、対象分野に応じて統計的な情報を調節することを考えました。こうすることで、良い循環を促し(図2)、さらに良い精度で処理できるようになります。

3.データの現状と蓄積による効果
 我々は、先ほど述べた統計的手法の有効性を確かめるために、英語に関して、新聞記事、WWW掲載記事、宣伝用文書の分野を対象に約70万語の木構造のデータを作成しました[3]。さらに、ATR音声翻訳研究所で収集している旅行会話[4]について、同様のデータを英語と日本語について作成しています。
 現在一般に、コンピュータ上で扱えるデータ(テキストのデータ、木構造のデータなど)は、英語については、かなり整備されていて、量的にも豊富です。しかし、日本語に関しては、新聞記事などのテキストデータが、最近、扱えるようになってきたところで、その量は充分ではありませんし、木構造のデータに関していえば、ごく限られたものしかありません。日本語を対象とした大量のデータの蓄積が必要です。
 それでは、この手法で蓄積されたデータの効果について具体的に、音声認識、翻訳、情報検索(類似検索[5])の分野での、効果を考えてみましょう(図3)。音声認識では、利用している言語的な知識をモデル化するために、精度の良い大量のデータが必要とされています。蓄積されたデータを利用することで、モデルの精度を高めることや、より細かな情報を含むモデルが作成できるようになり、認識率を向上することができます。
 翻訳であれば、翻訳したい文の木構造が曖昧な場合、この処理手法を利用することや、よく現れている木構造を選び、処理を進めることが考えられます。訳文を生成する時にも、良く使われる言葉や構造を調べて、適切な文を生成することができます。さらに、木構造で表現された部分ごとに対訳のデータがあれば、用例を抽出し、柔軟な翻訳を完成することもできます。
 情報検索(類似検索)では、検索対象となるデータの構文構造を明らかにしておくことにより、表面的な文字の検索に留まらず、構造を考慮した検索、正しい意味をとらえる検索ができるようになります。

4.むすび
 多様な話し言葉の「語法の特性」を利用することで、自動的に精度良く、木構造のデータを構築する方法を紹介しました。現在、英語に関しては、木構造のデータを大量に蓄積しました。日本語については、木構造のデータを作成しながら、英語にはない問題点の解決に努めています。


参考文献


Copyright(c)2002(株)国際電気通信基礎技術研究所