Yasuhiro MINAMI, Hidefumi SAWAI, Masanori MIYATAKE, Kiyohiro SHIKANO
Large Vocabulary Spoken Word Recognition Using Time-Delay Neural Network Phoneme Spotting and Predictive LR-Parsing
Abstract:時間遅れ神経回路網(TDNN)による音韻スポッティング法と予測
LRパーザを用いた大語彙の単語音声認識システムを提案する。これはニューラ
ルネットを用いて大語彙の単語音声認識をする最初の試みである。単語中の音韻予
測には予測LRパーザを利用する。予測LRパーザが予測した音韻とTDNNによる音
韻スポッティング結果とをDPマッチングの手法を用いて照合を行う。男性話者1名の発声した重要語5,240
語の内、学習に用いていない2,620語を重要語の項目全てを対象とす
る特定話者の単語音声認識を行った結果、第1位の認識率で92.6%、
第2位までの認識率で97.6%、第5位までの認識率で99.1%の高
認識率を達成した。