中村悟,沢井秀文,杉山雅英
TDNNを用いた不特定話者の音素認識(2)
Abstract:ニューラルネットワークを用い、多数話者学習による不特定話者の音素認識について報告する。予備実験として、有声破裂音/b,d,g/の音素認識実験を行なった。その結果、Modular-TDNNの認識性能が最も優れ、構造上の有意性が確認されている。学習用話者を6名、及び、12名とした時の評価用話者8名の平均認識率は、それぞれ、91.3%、93.6%であった。本報告では、更に、認識音素を18子音へと拡張し不特定話者音素認識を行なった。その結果、学習用話者6名、評価用話者8名とした時の認識率は、6子音/b,d,g,m,n,N/において、86.8%、5母音/a,i,u,e,o/において、93.7%、18子音において、80.4%であった。これにより、Modular-TDNNにより構成されるネットワークの有効性が示された。