TR-I-0176 :1990. 9

中村雅己、鹿野清宏

ニューラルネットによる英単語品詞列予測モデル

Abstract:文章中の単語の音声認識結果の誤りを訂正する方法として、Trigram等の確率モデルによる 方法があるが、有効な統計量を獲得するために膨大なデータを必要とし、単語組数を多くすれば、 計算機の記憶容量が指数的に増加するという問題がある。そこで我々は、文章中の単語間 に内在する局所的な言語情報を内部に獲得し、少ないパラメータで次の単語を予測する構造を 持つ、ニューラルネットによる単語品詞列予測モデル(NETgram)を提案する。本論文では、NETgramの構成、英文テキストデータ(Brown Corpus)を用いた予測実験結果および英単語音声認識の改善実験結果について述べる。予測実験の結果、Trigram予測においてNETgramはTrigram確率モデルより優れた予測的中率を示し、Bigramで補間処理された確率モデルに匹敵する予測性能を有することがわかった。また、中間層の出カパターンを解析した結果、単語品詞が言語的に意味のある5つのグループに分類された。

Word category prediction is used to implement an accurate word recognition system. Traditional statistical approaches require considerable training data to estimate the probabilities of word sequences, and many parameters to memorize probabilities. To solve this problem, NETgram, which is the neural network for word category prediction, is proposed. Training results show that the performance of the NETgram is comparable to that of the statistical model although the NETgram requires few parameters than the statistical model. Also the NETgram performs effectively for unknown data, i.e., the NETgram interpolates sparse training data. Results of analyzing the hidden layer show that the word categories are classified into some linguistically significant groups.