TR-SLT-0008

TR-SLT-0008 :2002.3.15

佐藤隆,大西茂彦,匂坂芳典,山本博史

単語を構成する音素の連接特性を考慮した音声タイプライタの検討

Abstract:個別的タスクに依存しない音声タイプライタの認識精度が向上するような言語モデルを考察するにあたり，近接する音素を拘束する音素結合と単語レベルの音素列を律束するような制約を検討し，制約導入による音素正解率の変化を調べる認識実験を行った．今回は，単語の音素列の両端の音素によってクラスを定義し，階層化言語モデルを適用した．まず，音素0-gram(全等確率）に結合音素を加えていったところ，最大約15%上昇し，局所的な音素列に対する制約が性能向上に高い効果を示すことが確認できた．また，上層に始終端クラス2-gram,下層にWord-structureモデルによるサブワードモデルを持つ階層化言語モデルを適用した場合，音素0-gramを常に上回る結果となり，性能向上の効果が認められた．このとき上層のクラスを分けず，下層のWord-structureモデルだけを適用した場合でも階層化言語モデルに近い結果が得られ，単語レベルの音素列のモデル化を行っているWord-structureモデルが，認識性能を大きく向上させる制約として働くことが予想された．さらに上層の始終端クラスのような学習を伴わない大まかなクラス2-gramでも，ある程度の制約力があり，音声タイプライタの制約として有効に機能するものと予想された．

TR-SLT-0008 :2002.3.15

佐藤隆,大西茂彦,匂坂芳典,山本博史

単語を構成する音素の連接特性を考慮した 音声タイプライタの検討

単語を構成する音素の連接特性を考慮した音声タイプライタの検討