TR-SLT-0059 :2004.2.20

Youichi SEKIGUCHI, Kiyonori OHTAKE, Masashi SAKAMOTO

A method to detect variant notations in a large corpus

Abstract:コーパス中に存在する送り仮名,混ぜ書きならびに,カタカナ語のゆれを解消 するための手法を提案する。カタカナ語のゆれを解消するためにカタカナ語に特化 した編集距離,ならびに文脈類似度と呼ぶ該当カタカナ語の周辺情報を用いた類似 度を定義し,これら2つを組み合わせ,総合的に表記ゆれを判定する手法を提案す る。旅行会話基本表現集を用いた実験の結果,通常の編集距離を用いる方法より良 い精度を得ることができた。