TR-IT-0016 :1993.8

大脇浩,シンガーハラルド,鷹見淳一

音素配列構造の制約を用いた連続音声認識

Abstract:従来のCFG、PCFG、n-gramなどのような文法を用いた連続音声認識手法では、認識できる語彙を制限することによって、高い音声認識性能が実現されていた。しかしその一方で、これらの方法では文法で表現されていない語については、認識できないという点が問題となる。本実習では、認識語彙に関する制限を設けない音素タイプライタ型の音声認識の実現をめざして、日本語の音素配列構造(phonotactics)という、緩い言語的制約のみを用いた連続音声認識方式の検討を行なった。言語制約の弱さに起因する認識率の低下を防ぐため、音素モデルとしてはSSSによって得られた3308個の異音モデルを用いた。文節発声データを用いて発話様式適応したモデルを用いて、279文節発声データ(SB3)に対して認識実験を行なったところ、文節正解率51.3%、音素正解率92.5%という、良好な認識性能が得られた。

In general, high recognition accuracy can be obtained by using CFG, PCFG, n-grams etc. and thus constraining the vocabulary and grammatical constructs. However, a problem exists in recognizing words which have not been previously recorded in these grammars. In thisresearch, we were researching the possibility of using only weak phonotactic constraints apparent in Japanese, e.g. the sequence p/t/a is not "valid" Japanese. To maintain high recognition accuracy in spite of these very weak constraints, 3278 allophone models which were trained by the Successive State Splitting (SSS) algorithm were than adapted to phrase utterance type using the VFS algorithm. Phrase recognition accuracy for 279 phrases (SB3) was 51.3 %, phoneme accuracy was 92.5 %, a surprisingly good result in view of the fact that only a standard One-Pass DP was used.