Shinkou AWATSU, Ryosuke ISOTANI, Shigeki SAGAYAMA
Language Model Using N-grams for Particles and
Its Application to Speech Recognition
Abstract:音声認識に用いられる統計的な言語モデルとして、単語のbigram, trigramなどの連鎖統
計が有効であることが知られている。しかし従来の方法では、文節間の係受け関係のような大
域的な言語情報の表現が困難である。一方、文節ベースの連鎖統計は、そのままでは文節の種
類が多いため実用的ではない。本報告では、文節内の特定の文法カテゴリに着目した単語の連
鎖統計を用いることにより、より大域的な言語情報を獲得しうる言語モデルを提案する。予備
的な実験として、文節末にあらわれる助詞の一文中での連鎖統計をテキストデータベースより
求め、それを文節認識に適用する実験を行なったので、その結果について報告する。