江原暉将
単語の意味カテゴリーを用いた
係り受け整合度の平滑化
Abstract:構文的曖昧性を解消するための制約として、単語間の係り受け整合度が有効で
あり、従来から利用されている。この整合度を求める手法の1つに、係り受けデータ
を収集し、その度数に基づいて、整合度を計算するものがある。しかし、この場合、
度数が小さいデータが大量に存在し、整合度の推定精度が悪い欠点がある。この
欠点を改良するために、単語の集合をカテゴリー化し、度数の小さいデータについ
ては、カテゴリー間の整合度を単語間の整合度に変えて用いる手法を提案する。
本報告では、整合度学習データを解析対象からのランダムな標本としてとらえ、
ある条件の下で、本手法を利用することによって、標本から計算された整合度の
推定値の誤差が減少することを理論的に示す。次に、ATR対話データベースおよび
新聞データベースから抽出された係り受けデータを用いて、整合度計算実験を行い、
上記手法の有効性を実証する。