TR-IT-0336

TR-IT-0336 :1999.12.13

山本博史, 中嶋秀治

音声翻訳システムのための日本語音声認識言語モデル (V8:1999年12月版）

Abstract:TR-IT-0284に引き続き，TDMT品詞体系に基づく「音声翻訳システムのための日本語音声認識言語モデル」の改訂版を公開する．本モデルの構築には，書き起し時の表記の揺れを減らす目的で「形態素の表記の整備」が行なわれたデータと，活用語のうちデータベースに実際にあらわれた活用形しか取り扱っていないという問題の解消ために「活用形が完備」された辞書が用いられている．さらに，翻訳前に必要となる一発声中の文の区切りの決定を認識と同時に行なうために，発話中の句点が言語モデルの学習データと辞書に含まれている．これらの結果，本モデルでは「活用形の完備化」に伴い辞書サイズが約16,500語から約27,000語へ拡張されているが（従来の約13,000語から約16,500 語への増加は訓練データの増加による），従来と同等の認識性能が計算時間の増大を招くことなく(5%未満）得られることが確認された．