Yasuhiro AKIBA
Automatic Grader of MT Outputs in Colloquial Style
by Using Multiple Edit Distances
Abstract:本稿では,翻訳文の品質を評価するという人間の知的能力を自動化する挑戦的で新しい試みを報告する.ここで翻訳文
は,機械翻訳(MT)システム,特に会話を翻訳する音声翻訳(SSMT)システムの翻訳部からの出力である.従来法には
BLEUがあるが,SSMTシステムの評価には,BLEUは以下の2つの理由で不向きである.第1に,誤りの評価はその
出現箇所に依存するべきでないが,BLEUは,文頭で起きた誤りは軽く評価し,文中では重く評価する.第2に,BLEU
は話し言葉を処理する上で寛容さに欠ける.BLEUは,誤りに阻害されずに会話を続けることができるような些細な誤
りも許さない.著者は,複数の編集距離を用いて翻訳文に自動的に評点を付与する新自動評価法REDを報告する.RED
では,訓練事例から翻訳文に自動的に評点を付与する決定木を学習し,この決定木を用いて評点が未知の翻訳文に対し
て評点を付与する.各訓練事例は翻訳文と人手評点の対の集合であり,翻訳文は複数の編集距離を用いてベクトル化さ
れる.ここで複数の編集距離は,通常の編集距離(ED)およびEDの拡張版である.新たな評価対象の翻訳文は,訓練事
例と同様にベクトル化を行ない,学習した決定木を用いて評点を付与する.REDの評価は誤りの出現箇所に依存しな
い.また,これら複数の編集距離を用いることで,REDの評価はED単体やBLEUよりも些細な誤りに対して寛容と
なる.REDとBLEUの性能比較のために,これらでMTシステムを評価する実験を行ったところ,REDはBLEUよ
り性能が良いことが示された