TR-IT-0165 :1996.3.28

坂本博之,松永昭一

音素クラスタモデルを用いた未登録語検出法の検討

Abstract:すべての音素を数種類のクラスタに分類し作成した音響モデル(音素クラスタモデ ルとよぶ)を用いた未登録語検出法を提案する.ここでは日本語の音節構造を考慮し たクラスタモデル,音響モデルの自動クラスタリングにより決定したクラスタモデ ル,全音素を1つのクラスタとしたクラスタモデルの比較検討を行った.未登録語を 含んだ文章の未登録語検出実験において,日本語の音節構造を考慮した音素クラスタモ デルは,従来の音素毎のモデルを用いる方法と比較して,処理量を約半分に削減しな がらほぼ同等の単語accuracyを達成することができた.このことから,提案する方 法が処理量を抑えた未登録語検出に有効であることが分かった.またこの時,未登録 語区間のスコアに対してクラスタN-gramの確率をペナルティとして使用することが, 有効であることが分かった.また,多段階による認識方式の1段階目として本 提案法により未登録語を検出し,2段階目で検出された未登録語の音素系列を認識す る方式についても述べる.