篠崎直子,水野康子, 小倉健太郎,吉本啓
形態素情報利用解説書
(兼作業マニュアル)
Abstract:現在ATR自動翻訳電話研究所では、電話会話などのオリジナルテキストに対して「形態素情報」「格・係り受け情報」「日英対訳対応情報」の3つの付加情報を与え、各種言語現象の分析を可能とする言語データベースの作成を進めているが[1][2][3]、その際、形態素情報は他の2情報の基準となる基礎情報ともいえる。
しかし、形態素情報は形態素分割・品詞付けともに多くの解釈が存在し、一意に決定できない曖昧性のある語や、境界線上の語の扱いが問題となる。また、口語を対象データとしているために、従来の解釈ではカバーできない部分もある。
本稿では、「①形態素解析・修正作業の際の曖味性の解消」「②データ分析作業の際の客観性の保証」を目的として設定したATR自動翻訳電話研究所における形態素情報の認定基準について述べる。