TR-I-0202

TR-I-0202 :1991

上田佳央, 服部浩明

不特定話者音声認識に関する検討

Abstract:不特定話者音声認識に関する基礎検討について報告する。始めに不特定話者用コードブックの作成方法およびコードブックサイズについて検討を行った。作成方法では、話者全員の音声を用いて一度にクラスタリングを行う方法(1段階作成法）、話者ごとにコードブックを一度作成した後、各コードワードの出現頻度を考慮して、全話者のコードブックを用いて再クラスタリングを行う方法(2段階作成法（重み付き））、2段階作成法において頻度を考慮しない方法(2段階作成法（重み無し））に付いて比較を行った。その結果、2段階作成法（重み付き）によって1段階作成法と同程度のディストーションを持つコードブックが得られることがわかった。また、コードブックサイズは、WLR, pow, dcepの各パラメータについて1024,64,512とすることで特定話者並み（サイズ256,64,256)のディストーションが得られた。つぎに、得られたコードブックを用いて、不特定話者音韻認識実験を行った。このとき、学習時と認識時にそれぞれHard VQとFuzzy VQを用いた場合の四通りについて実験を行い、不特定話者におけるHard VQとFuzzy VQによる認識率の差はあまりなく、/b,d,g,m,n,N/の認識において約70%の音韻認識率が得られた。