Tadashi Kumano, Hideki Kashioka, Hideki Tanaka, Takahiro Fukusima
Construction and Analysis of Japanese-English
Broadcast News Corpus with Named Entity Tags
Abstract:我々は、直訳でない、content-alignedな文書対から、固有表現(NE)抽出技術を利用して
対訳NE対を獲得することを目指している。本研究のために、我々は日英対訳ニュース
原稿2,000記事対に対してNEタグを付与したタグつきコーパスを構築した。本コーパス
には、日本語/英語の各文書中のNEの出現、そして日本語/英語の各文書内および日英文書間
でのNE間の共参照情報が付与されている。コーパスを分析した結果、例え直訳でない文
書対であっても、各言語文書に出現するNEの種類やその出現順序はかなり類似しており、
この性質を用いることで対訳NE対を獲得できることが期待できる。