TR-I-0218 :1991.05.31

江原暉将

言語データベースから抽出した 知識データの分布

Abstract:自然言語処理のための言語学的知識を構築する方法として、母国語話者による内省に基づく方法と、言語データベースから知識を抽出する方法がある。後者の方法は客観性に優れ、定量的な知識を得ることができる反面、内省では当然現われると考えられる知識が言語データベース中に全く存在しないか、存在してもその度数が小さいという問題がある。これは、データベースの過少性と呼ばれる。本報告では、知識をその知識に含まれる単語数で分類し、さらに、単語の分布にZipfの法則を仮定して、知識データの分布を求める。さらに、処理対象からの標本として言語データベースを構築した場合、処理対象中で未知知識データが出現する割合である未知データ率について考察し、データの過少性を具体的に示す。

There are two methods to construct linguistic knowledge-base for natural language processing. One method is to construct the knowledge-base by the native speaker's introspective evaluation and the other method is to extract the knowledge from langage database. The latter is more objective and quantitative, but has less-data problem. This is the fact that there are many knowledge data which is supposed to appear in the database by the native evaluation but actually they do not appear at all or appear unfrequently. Linguistic knowledges can be categorized by the number of words included in the knowledge. Using this categorization, the distribution of knowledge data extracted from language database is caluculated assuming that the distribution of words is Zipf's distribution. The coveradge of knowledge-base constructed from language database which is considered a sample from a population is computed.