浦谷則好,竹沢寿幸,田代敏久,衛藤純司
音声言語データベースのための
日本語形態素情報と表記の体系
Abstract:ATR自動翻訳電話研究所で開発された言語データベースと、音声翻訳システムASURAで使われた音声認識用文法、日本語解析用文法は、それぞれ別の目的のために独立に開発されてきたので、日本語形態素においてさまざまな差異(大きく分けて、品詞の設定の差異、語の分割の差異、表記の揺れの3種類)が存在していた。ATR音声翻訳通信研究所で新たに構築する音声言語データベースでは、できる限り、その差異を減らし、音声言語統合処理の研究を円滑に進められるようにしたい。本報告書では、そのために検討した日本語形態素と表記の体系について述べる。