南泰浩, 沢井秀文
発話変動にロバストなTDNNの検討
Abstract:本報告では入力の変動に対する出力の変動を小さくする手法をTDNNに応用
し、TDNNが発話様式の異なる発声中の音素に対してどのような効果があるかを
調べた。この結果、入力の変動に対する出力の変動を小さくする手法は学習に非
常に多くの時間を必要とし、パラメータの設定も非常に難しいことが確認され
た。
また、TDNNの入力層のウィンドウフレーム数を変化させたときの認識率を調べた。ウ
ィンドウフレーム数を7フレームにし、出力層と第2隠れ層との間の重み係数を固定したと
き、文節区切りを指定しない連続発声中の18子音に対して、
従来型のTDNNに比べ6.5%の音素認識率の向上がみられた。
本報告は、学外実習生南泰浩(慶応大学)が行った実習の報告書である。