Satoshi NAKAMURA, Kiyohiro SHIKANO
VQ-based Speaker Adaptation Applied to Time Delay Neural
Network Phoneme Recognition
Abstract:ベクトル量子化話者適応アルゴリズムを時間遅れ神経回路網(TDNN)を用いた音韻認識へ適用する。
TDNNへの適用にあたってはTDNNの入力パラメータの比較、ベクトル量子化を用いた場合のTDNNの構成の検討を行う。入力パラ
メータとしては、FFT、LPC分析によるスペクトルとケプストラム、自己相関係数の比較を行う。また、ベクトル量子化を用いた場
合のTDNNの構成としてパラメータ入力、ベクトル量子化の符号を入力とするTDNNを検討し話者適応化を適用する。音韻バラン
ス216単語、重要語5240単話、国際会議申し込みに関する会話文を用いて有声破裂音/b,d,g/の認識実験を男女計4名の話者について行
った。この結果、(1)TDNNの入力パラメータの形式については、周波数領域のパラメータが優れている。周波数領域で表現
されていれば、FFTでも、LPCの分析方法でも大差がない。(2)ベクトル量子化をTDNNに適用する場合、符号列入力形式のTDNNよ
りもパラメータを入力とするTDNNが優れているベクトル量子化としては、ファジィベクトル量子化を用いることでベクトル
量子化による認識率の劣化を改善できる。(3)ベクトル量子化話者適応アルゴリズムをTDNNに適用した結果、男性間と男女間の平
均で78.7%の認識率が得られ、話者適応化が有効に行えることが明かとなった。