沢井秀文,宮武正典,A.ワイベル,鹿野清宏
時間遅れ神経回路網を用いた音韻/音節スポッティング
Abstract:音韻または音節スポッティングは、もしそれらが精度よく達成できれば、単語
音声や連続音声認識に有用である。我々は、時間遅れ神経回路網(TDNN)の優れた
音韻認識性能を単語/連続音声認識に拡張するべく、TDNNに基礎を置いた日本語の
音韻/音節をスポッティングする技術について述べる。そこで、音韻をスポッテ
ィングする方法として2つの方法を比較検討した。その内の1つは、ある音韻グ
ループをスポッティングした後、決定された音韻グループ内の音韻を識別する階
層的な決定方法であり、他の1つは、モジュール構成したサブネットワークをすべ
て統合して全音韻を一括してスポッティングする方法である。また、ある一
つの音節とそれ以外の音節とを識別できるTDNNを構築した。これにより、全て
の音節スポッティング用のTDNNを用意しておけば、原理的に任意の音節スポッ
ティングが可能となる。音韻と音節スポッティング実験の結果、階層的な音韻ス
ポッティング法では91.9%、全音韻の一括スポッティング法では90.8%、音節スポ
ッティング用TDNNは96.7%、の極めて優れたスポッティング性能を得た。これら
のスポッティング技術は、連続音声認識へのステップとして有望である。