TR-IT-0165

TR-IT-0165 :1996.3.28

坂本博之,松永昭一

音素クラスタモデルを用いた未登録語検出法の検討

Abstract:すべての音素を数種類のクラスタに分類し作成した音響モデル（音素クラスタモデルとよぶ）を用いた未登録語検出法を提案する．ここでは日本語の音節構造を考慮したクラスタモデル，音響モデルの自動クラスタリングにより決定したクラスタモデル，全音素を1つのクラスタとしたクラスタモデルの比較検討を行った．未登録語を含んだ文章の未登録語検出実験において，日本語の音節構造を考慮した音素クラスタモデルは，従来の音素毎のモデルを用いる方法と比較して，処理量を約半分に削減しながらほぼ同等の単語accuracyを達成することができた．このことから，提案する方法が処理量を抑えた未登録語検出に有効であることが分かった．またこの時，未登録語区間のスコアに対してクラスタN-gramの確率をペナルティとして使用することが，有効であることが分かった．また，多段階による認識方式の1段階目として本提案法により未登録語を検出し，2段階目で検出された未登録語の音素系列を認識する方式についても述べる．