TR-I-0089

TR-I-0089 :1989.7.20.

沢井秀文,宮武正典,A.ワイベル,鹿野清宏

時間遅れ神経回路網を用いた音韻/音節スポッティング

Abstract:音韻または音節スポッティングは、もしそれらが精度よく達成できれば、単語音声や連続音声認識に有用である。我々は、時間遅れ神経回路網(TDNN)の優れた音韻認識性能を単語/連続音声認識に拡張するべく、TDNNに基礎を置いた日本語の音韻/音節をスポッティングする技術について述べる。そこで、音韻をスポッティングする方法として2つの方法を比較検討した。その内の1つは、ある音韻グループをスポッティングした後、決定された音韻グループ内の音韻を識別する階層的な決定方法であり、他の1つは、モジュール構成したサブネットワークをすべて統合して全音韻を一括してスポッティングする方法である。また、ある一つの音節とそれ以外の音節とを識別できるTDNNを構築した。これにより、全ての音節スポッティング用のTDNNを用意しておけば、原理的に任意の音節スポッティングが可能となる。音韻と音節スポッティング実験の結果、階層的な音韻スポッティング法では91.9%、全音韻の一括スポッティング法では90.8%、音節スポッティング用TDNNは96.7%、の極めて優れたスポッティング性能を得た。これらのスポッティング技術は、連続音声認識へのステップとして有望である。