Mitsuo Shimohata, Eiichiro Sumita
Building a Paraphrase Corpus
Abstract:本稿では、会話文とそれを人手により書き換えた文から構成される会話文書き換えコーパ
スについて報告する。会話文はSLDB,LDB,MAD1を利用し、日本語、英語の両言語を書
き換え対象としている。会話文は包含する内容語の数により短文と長文に分けられ、短文
には簡潔書き換えを、長文には分割書き換えと要約書き換えを行った。また、会話文書き
換えコーパスは、テストデータと学習データから構成されている。テストデータは数百文
程度の分量であるが、1発話文について10種類以上の書き換え文を備えている。学習デー
タは数万文の分量からなる。