TR-IT-0284 :1998.11.30

山本博史,中嶋秀治

音声翻訳システムのための日本語音声認識言語モデル ('98年11月版)

Abstract:TR-IT-0265に引き続き,TDMT品詞体系に基づく「音声翻訳システムのための 日本語音声認識言語モデル」の改訂版を公開する.本モデルでは,音声認識部と言語 翻訳部との間で語彙を共通化し,より多くの単語を処理対象に含める目的から,辞書 サイズが従来の約7,000語から約13,000語へと拡張されている.また,この語彙の 増大に伴う言語モデルのサイズ増大という問題を解決するために,従来の「品詞およ び可変長単語列の複合N-gram」に代わって「多重クラス複合N-gram」が導入され ている.後者のモデルを用いることによって,辞書サイズを約13,000語へと拡張し た場合でも、従来の約7,000語のモデルよりも遥かに小さいサイズ(およそ40%)で 同等以上の性能(単語正解率)を得られることが確認された。