TR-SLT-0008 :2002.3.15

佐藤隆,大西茂彦,匂坂芳典,山本博史

単語を構成する音素の連接特性を考慮した 音声タイプライタの検討

Abstract:個別的タスクに依存しない音声タイプライタの認識精度が向上するような言語モデルを考察するに あたり,近接する音素を拘束する音素結合と単語レベルの音素列を律束するような制約を検討し,制 約導入による音素正解率の変化を調べる認識実験を行った.今回は,単語の音素列の両端の音素によ ってクラスを定義し,階層化言語モデルを適用した.まず,音素0-gram(全等確率)に結合音素を 加えていったところ,最大約15%上昇し,局所的な音素列に対する制約が性能向上に高い効果を示すこ とが確認できた.また,上層に始終端クラス2-gram,下層にWord-structureモデルによるサブワードモデ ルを持つ階層化言語モデルを適用した場合,音素0-gramを常に上回る結果となり,性能向上の効果が 認められた.このとき上層のクラスを分けず,下層のWord-structureモデルだけを適用した場合でも階 層化言語モデルに近い結果が得られ,単語レベルの音素列のモデル化を行っているWord-structureモデ ルが,認識性能を大きく向上させる制約として働くことが予想された.さらに上層の始終端クラスのよ うな学習を伴わない大まかなクラス2-gramでも,ある程度の制約力があり,音声タイプライタの制約と して有効に機能するものと予想された.