TR-I-0214 :1991.5.1

鷹見淳一, 嵯峨山茂樹

対判定型ニューラルネットワークの原理と 時間遅れ神経回路網との統合による ロバストな音素認識

Abstract:本稿では、分類型ニューラルネットワークの頑健性の向上を図った対判定型 ニューラルネットワークの原理、およびこの原理と時間遅れ神経回路網(TDNN) とを統合した対判定型TDNNによる音素認識手法について述べる。従来より、分 類型ニューラルネットワークを用いた音声認識では、ネットワークが過剰に学習 されやすいことや、未学習データに対する汎化能力が低い等の理由から、学習 データ以外の発話様式の音声データに対して認識率が大きく低下するという問題 があった。我々はこのような問題を解決するために、各カテゴリ間における緩や かな識別境界面の形成と、1つのカテゴリに対して異なる判定基準を持つ複数の識 別境界面の形成を同時に実現し、複数の識別境界面での多数決によりカテゴリの識 別を行うという対判定型ニューラルネットワークの原理を提案する。さらにこの 原理とTDNNとを統合した対判定型TDNNによる音素認識実験を行い、この手法の 有効性を示す。単語発声データで学習したネットワークを用いて、各種発話様式 のデータ中の音素認識実験を行ったところ、連続音声に対して、/b,d,g,m,n,N/の6 音素については81.6%(7フレーム入力の一括判定型TDNNと比べて3.8%の向上)、 18子音については76.8%(15フレーム入力のモジュール構成型TDNNと比べて 20.2%の向上)という高い認識率が得られた。