JuNichi TAKAMI, Shigeki SAGAYAMA
対判定型ニューラルネットワークの原理と
時間遅れ神経回路網との統合による
ロバストな音素認識
Abstract:本稿では、分類型ニューラルネットワークの頑健性の向上を図った対判定型
ニューラルネットワークの原理、およびこの原理と時間遅れ神経回路網(TDNN)
とを統合した対判定型TDNNによる音素認識手法について述べる。従来より、分
類型ニューラルネットワークを用いた音声認識では、ネットワークが過剰に学習
されやすいことや、未学習データに対する汎化能力が低い等の理由から、学習
データ以外の発話様式の音声データに対して認識率が大きく低下するという問題
があった。我々はこのような問題を解決するために、各カテゴリ間における緩や
かな識別境界面の形成と、1つのカテゴリに対して異なる判定基準を持つ複数の識
別境界面の形成を同時に実現し、複数の識別境界面での多数決によりカテゴリの識
別を行うという対判定型ニューラルネットワークの原理を提案する。さらにこの
原理とTDNNとを統合した対判定型TDNNによる音素認識実験を行い、この手法の
有効性を示す。単語発声データで学習したネットワークを用いて、各種発話様式
のデータ中の音素認識実験を行ったところ、連続音声に対して、/b,d,g,m,n,N/の6
音素については81.6%(7フレーム入力の一括判定型TDNNと比べて3.8%の向上)、
18子音については76.8%(15フレーム入力のモジュール構成型TDNNと比べて
20.2%の向上)という高い認識率が得られた。