M.MIYATAKE, H.SAWAI and K.SHIKANO
Effective Training Methods for Spotting Japanese
Phonemes Using Time-Delay Neural Networks
Abstract:ニューラル・ネットワークを用いた連続音声認識を実現するため、時間遅れ神
経回路網(TDNN)による音韻スポッティングを試みた。まず、音韻認識用に学習さ
れた音韻統合TDNNを評価用単語音声2,620語に適用したところ、TDNNの持つ時間
方向に対するシフト・インバリアントな性質が確認された。さらに予め定めた基
準により音韻スポッティング結果を集計したところ、92.5%の音韻が正しく抽出
されることが判明し、TDNNの音韻スポッティング能力の高さが確認された。ま
た、スポッティング誤りの傾向が明らかになった。この結果を基に、顕著な挿入
や脱落の誤りを除去するために、学習データの抽出位置を考慮して、音韻スポッ
ティングに適した学習方法を提案する。この方法を用いてTDNNを再学習させた
ところ、全音韻の98.0%が正しく抽出されるとともに、挿入誤りの75%以上が除
去され、極めて精度の高い音韻スポッティングを実現した。この結果、ニューラ
ル・ネットワークを用いた連続音声認識の実現の可能性が高まった。