TR-SLT-0050 :2003.09.19

佐々木靖弘,菊井玄一郎

ウェブ上のテーブルからの固有表現抽出

Abstract:音声認識のための語彙を獲得する方法として、本研究ではウェブ上のテーブルから固有表 現を抽出する方法を提案する。ウェブのテーブルでは、同じジャンルの固有表現が同じ列 に現れるケースが多く見られる。提案手法では、シードワードとなる固有表現をシステム に与えて、シードワードと同じテーブルで同じ列に現れる表現を固有表現として抽出する。 また、抽出される固有表現は頻度情報に基づく確信度によって順位付けられており、確信 度上位の表現をシステムの新たな入力とすることにより、繰り返し固有表現を抽出するこ とが可能である。