TR-IT-0066 :1994.8.31

加藤剛,村上仁一

エントロピー最少化基準を用いた単語抽出

Abstract:従来、音声認識システムを構築する際、特にあらかじめタスクが限定されているような場合には言語モデルの基本単位として単語を用いることが多い。英語などの欧米諸語の場合、文章は単語毎に区切って書かれるため、単語の概念は明解である。しかし日本語においては文章は切れ目なく連続して書かれるため単語の概念は曖昧である。そこでこの論文では文字のエントロピーによって「単語」の抽出を試みる。本稿は筆者が電気通信大学の実習生としてATR滞在中に行なったものである。