中村悟, 沢井秀文
時間遅れ神経回路網を用いた
不特定話者の音韻認識
Abstract:時間遅れ神経回路網(TDNN)を基本構造として、特定話者用及びマルチスピーカー用のネットワークを不特定話者の音素認識に適用し、その能力を比較検討した。各ネットワークの学習に用いる話者数を6人および12人とし、有声破裂音/b,d,g/の3音韻を用いて実験を行ったところ、学習に6話者及び12話者を用いた場合の話者オープンの認識率は、最高でそれぞれ92.1%と95.6%であった。またネットワークの構造として、Modular TDNNのように話者に対応するモジュールを用いてネットワークを構成することは、学習回数の軽減という面において有効であり、同じ程度のキャパシティーをもつSingle TDNNと比較すると、認識率は若干上回った。これは限られたネットワークのキャパシティーを有効に利用しているためと考えられる。また、一方でSingle TDNNの隠れ層のキャパシティーを更に増すことによっても、Modular TDNNを上回る認識率を得ることができた。