TR-I-0103

TR-I-0103 :Aug. 1989

M.MIYATAKE, H.SAWAI and K.SHIKANO

Effective Training Methods for Spotting Japanese Phonemes Using Time-Delay Neural Networks

Abstract:ニューラル・ネットワークを用いた連続音声認識を実現するため、時間遅れ神経回路網(TDNN)による音韻スポッティングを試みた。まず、音韻認識用に学習された音韻統合TDNNを評価用単語音声2,620語に適用したところ、TDNNの持つ時間方向に対するシフト・インバリアントな性質が確認された。さらに予め定めた基準により音韻スポッティング結果を集計したところ、92.5％の音韻が正しく抽出されることが判明し、TDNNの音韻スポッティング能力の高さが確認された。また、スポッティング誤りの傾向が明らかになった。この結果を基に、顕著な挿入や脱落の誤りを除去するために、学習データの抽出位置を考慮して、音韻スポッティングに適した学習方法を提案する。この方法を用いてTDNNを再学習させたところ、全音韻の98.0％が正しく抽出されるとともに、挿入誤りの75％以上が除去され、極めて精度の高い音韻スポッティングを実現した。この結果、ニューラル・ネットワークを用いた連続音声認識の実現の可能性が高まった。