TR-I-0296 :1993.02.01

loana Donescu,加藤喜永,杉山雅英

ニューラルネットワークを用いた話者に依存しない特徴の抽出と 音声認識における評価

Abstract:本稿ではニューラルネットワークを用いた不特定話者の特徴抽出アルゴリズムについて述べる。本アルゴリズムにより任意の次数を持つ話者正規化特徴を取出すことができる。アルゴリズムは、(1)ファジィ級関数によって計算される教師を用いたニューラルネットワークの初期学習、(2)DTWによる標準話者と新しい話者との整合、(3)ネットワークの追加学習の3つの処理からなる。ニューラルネットワークには、多入出力素子を持つFPMを採用する。FPMの教師信号にはカテゴリ依存タイプとカテゴリ独立タイプの2種類を用いる。本アルゴリズムをFPM-HMM音素認識とFPM-LR文節認識により評価し、認識性能を従来のHMMやFPMと比較する。実験結果からニューラルネットワークが不特定話者の新しい特徴抽出器として使用できることを示す。

In this report, an algorithm is proposed for the use of a neural network as a speaker independent feature extractor. This algorithm can extract normalized features with an arbitrary number of dimensions. In order to evaluate the performances of the proposed algorithm, a combination with continuous type HMMs, for several numbers of continuous density mixtures is tested. For comparison, several phrase recognition experimental results are given. The recognition rate is around 70%, but many directions are to be investigated in the close future. It is believed that a neural network can be used as a new speaker independent feature extractor and give good results, especially in language identification.