TR-SLT-0015 :2002.07.16

西脇正通

ニュース記事単位のトピックに基づいた テキストセグメンテーション

Abstract:ATRが保有するデータベースの内、「あすを読む」書き起こし(日)の各文に対し、NHKニュース (日)、日経新聞(日)から関連記事を抽出するとともに、その情報を利用してニュース記事単位のト ピックに基づいたテキストセグメンテーションを「あすを読む」書き起こし(日)の各番組で行った。 実験では簡易的に文脈を考慮する手法も採用しながら、比較的小規模なコーパスに対し大規模コ ーパスの情報を利用することでスパースネスを解決する手法を提案する。実験の結果、提案手法 で行ったセグメンテーションの簡易的な精度が43.5%となり、先行研究の36.2%とくらべ向上したこと が分かった。