TR-SLT-0059 :2004.2.20

関口洋一,大竹清敬,坂本仁

コーパス中の異表記統一手法

Abstract:コーパス中に存在する送り仮名,混ぜ書きならびに,カタカナ語のゆれを解消 するための手法を提案する。カタカナ語のゆれを解消するためにカタカナ語に特化 した編集距離,ならびに文脈類似度と呼ぶ該当カタカナ語の周辺情報を用いた類似 度を定義し,これら2つを組み合わせ,総合的に表記ゆれを判定する手法を提案す る。旅行会話基本表現集を用いた実験の結果,通常の編集距離を用いる方法より良 い精度を得ることができた。