TR-IT-0339 :2000.02.16

石川開,隅田英一郎

テキストデータを使った音声認識誤り訂正

Abstract:音声翻訳における認識誤りに起因する翻訳品質の劣化を解決するために、誤り訂正 手法を提案しその有効性を実験的に検証した。すでに、認識結果の正解部分のみを 翻訳する手法が提案されているが、不正解部分に対応する入力発声に存在した情報が 失われたままであるという問題が存在する。そこで我々は、認識結果中の誤り部分を 元に、音韻的に類似した用例をテキストデータから検索し、類似部分に基づき正解を 推定することによって誤り訂正を試みる。提案する誤り訂正手法は次の手順からなる。 (1)構成素境界解析によって得られる意味的距離に従って、訂正の必要性を判断 し、誤り部分を同定する。(2)誤り部分を含む訂正対象部分に音韻的に近い断片をテ キストデータ中から抽出し、差分の置換によって訂正候補を生成する。(3)訂正候補の 妥当性を、意味的距離を用いて判断する。提案手法の有効性を実験的に検証するため に、旅行会話を対象とした日英、日韓、英日方向の翻訳システムを用いて評価を行な った。日英翻訳結果では、単語誤り率の2.3%の減少、翻訳率の5.4%の改善が得ら れた。日韓、英日でも同様に誤り訂正の有効性が検証され、言語に依存しない有効 性が確認された。