坂本博之,松永昭一
音素クラスタモデルを用いた未登録語検出法の検討
Abstract:すべての音素を数種類のクラスタに分類し作成した音響モデル(音素クラスタモデ
ルとよぶ)を用いた未登録語検出法を提案する.ここでは日本語の音節構造を考慮し
たクラスタモデル,音響モデルの自動クラスタリングにより決定したクラスタモデ
ル,全音素を1つのクラスタとしたクラスタモデルの比較検討を行った.未登録語を
含んだ文章の未登録語検出実験において,日本語の音節構造を考慮した音素クラスタモ
デルは,従来の音素毎のモデルを用いる方法と比較して,処理量を約半分に削減しな
がらほぼ同等の単語accuracyを達成することができた.このことから,提案する方
法が処理量を抑えた未登録語検出に有効であることが分かった.またこの時,未登録
語区間のスコアに対してクラスタN-gramの確率をペナルティとして使用することが,
有効であることが分かった.また,多段階による認識方式の1段階目として本
提案法により未登録語を検出し,2段階目で検出された未登録語の音素系列を認識す
る方式についても述べる.