TR-SLT-0014 :2002.06.14

谷田泰郎,田中英輝

Bagトランスレーション実験報告

Abstract:本報告ではATRが保有するデータベースの内、NHKニュース(日、英)、フレーズブック (日、英)、日経新聞(英)を対象に行ったNグラムによる単語の並び替え実験について報 告する。本報告では実験アルゴリズムの詳細を説明し、基本的な実験結果を報告する。次に、 文長や探索の枝刈りが正解率や処理時間に及ぼす影響を議論する。基本的な実験では文長10 の1000文を対象に、並べ替えを全解探索した。この結果、3グラムを使った場合、 NHK日本語ニュースで33%、同英語ニュースで25%、フレーズブック日本語データでは 42%、英語データでは38%の文を完全に復元できた。またフレーズブックの平均的な長さ の文であれば70%近い正解率を得ることができた。さらに、高速化のための枝刈り実験によ ると、かなりの枝刈りを行っても完全な探索と同等の正解率になることが分かった。