Hirofumi Yamamoto, Hideharu Nakajima
The Japanese Language Model for
Continuous Speech Recognition
in Speech Translation System
(November 1998 release)
Abstract:TR-IT-0265に引き続き,TDMT品詞体系に基づく「音声翻訳システムのための
日本語音声認識言語モデル」の改訂版を公開する.本モデルでは,音声認識部と言語
翻訳部との間で語彙を共通化し,より多くの単語を処理対象に含める目的から,辞書
サイズが従来の約7,000語から約13,000語へと拡張されている.また,この語彙の
増大に伴う言語モデルのサイズ増大という問題を解決するために,従来の「品詞およ
び可変長単語列の複合N-gram」に代わって「多重クラス複合N-gram」が導入され
ている.後者のモデルを用いることによって,辞書サイズを約13,000語へと拡張し
た場合でも、従来の約7,000語のモデルよりも遥かに小さいサイズ(およそ40%)で
同等以上の性能(単語正解率)を得られることが確認された。