TR-IT-0284

TR-IT-0284 :1998.11.30

Hirofumi Yamamoto, Hideharu Nakajima

The Japanese Language Model for Continuous Speech Recognition in Speech Translation System (November 1998 release)

Abstract:TR-IT-0265に引き続き，TDMT品詞体系に基づく「音声翻訳システムのための日本語音声認識言語モデル」の改訂版を公開する．本モデルでは，音声認識部と言語翻訳部との間で語彙を共通化し，より多くの単語を処理対象に含める目的から，辞書サイズが従来の約7,000語から約13,000語へと拡張されている．また，この語彙の増大に伴う言語モデルのサイズ増大という問題を解決するために，従来の「品詞および可変長単語列の複合N-gram」に代わって「多重クラス複合N-gram」が導入されている．後者のモデルを用いることによって，辞書サイズを約13,000語へと拡張した場合でも、従来の約7,000語のモデルよりも遥かに小さいサイズ（およそ40%)で同等以上の性能（単語正解率）を得られることが確認された。