TR-SLT-0092

TR-SLT-0092 :2005.03.25

秋葉泰弘

複数の編集距離を用いた口語翻訳文の自動評価

Abstract:本稿では，翻訳文の品質を評価するという人間の知的能力を自動化する挑戦的で新しい試みを報告する．ここで翻訳文は，機械翻訳(MT)システム，特に会話を翻訳する音声翻訳(SSMT)システムの翻訳部からの出力である．従来法には BLEUがあるが，SSMTシステムの評価には，BLEUは以下の2つの理由で不向きである．第1に，誤りの評価はその出現箇所に依存するべきでないが，BLEUは，文頭で起きた誤りは軽く評価し，文中では重く評価する．第2に，BLEU は話し言葉を処理する上で寛容さに欠ける．BLEUは，誤りに阻害されずに会話を続けることができるような些細な誤りも許さない．著者は，複数の編集距離を用いて翻訳文に自動的に評点を付与する新自動評価法REDを報告する．RED では，訓練事例から翻訳文に自動的に評点を付与する決定木を学習し，この決定木を用いて評点が未知の翻訳文に対して評点を付与する．各訓練事例は翻訳文と人手評点の対の集合であり，翻訳文は複数の編集距離を用いてベクトル化される．ここで複数の編集距離は，通常の編集距離(ED)およびEDの拡張版である．新たな評価対象の翻訳文は，訓練事例と同様にベクトル化を行ない，学習した決定木を用いて評点を付与する．REDの評価は誤りの出現箇所に依存しない．また，これら複数の編集距離を用いることで，REDの評価はED単体やBLEUよりも些細な誤りに対して寛容となる．REDとBLEUの性能比較のために，これらでMTシステムを評価する実験を行ったところ，REDはBLEUより性能が良いことが示された