Masamichi Nishiwaki
Text segmentation based on the topic of a news article unit
Abstract:ATRが保有するデータベースの内、「あすを読む」書き起こし(日)の各文に対し、NHKニュース
(日)、日経新聞(日)から関連記事を抽出するとともに、その情報を利用してニュース記事単位のト
ピックに基づいたテキストセグメンテーションを「あすを読む」書き起こし(日)の各番組で行った。
実験では簡易的に文脈を考慮する手法も採用しながら、比較的小規模なコーパスに対し大規模コ
ーパスの情報を利用することでスパースネスを解決する手法を提案する。実験の結果、提案手法
で行ったセグメンテーションの簡易的な精度が43.5%となり、先行研究の36.2%とくらべ向上したこと
が分かった。