TR-SLT-0075 :2005.03.24

熊野正,柏岡秀紀,田中英輝,福島孝博

NEタグつき日英放送ニュース記事コーパスの構築と基礎調査

Abstract:我々は、直訳でない、content-alignedな文書対から、固有表現(NE)抽出技術を利用して 対訳NE対を獲得することを目指している。本研究のために、我々は日英対訳ニュース 原稿2,000記事対に対してNEタグを付与したタグつきコーパスを構築した。本コーパス には、日本語/英語の各文書中のNEの出現、そして日本語/英語の各文書内および日英文書間 でのNE間の共参照情報が付与されている。コーパスを分析した結果、例え直訳でない文 書対であっても、各言語文書に出現するNEの種類やその出現順序はかなり類似しており、 この性質を用いることで対訳NE対を獲得できることが期待できる。