TR-I-0186 :1990.10.30 ( Internal Use )

Terumasa EHARA, Naomi INOUE, Hideo KOHYAMA, Toshirou HASEGAWA, Fumi SHOHYAMA, Tsuyoshi MORIMOTO

Contents of the ATR Dialogue Database

Abstract:ATRでは電話およびキーボードを用いて行われる対話を収集し、その結果をATR対話データベース(ADD)として蓄積している。本文では、このATR対話データベースに収録されている言語情報および、収集した対話の内容に付いて述べる。ADDに収集されている対話は、模擬対話実験による対話およびラジオ放送で用いられた、実際の対話であり、データベース化に先だって、各種事前分析が施されている。これによって、付加される言語情報が豊富になり、抽出できる言語現象も多種に亘ることが出来る。特に、日本語と英語の対応データが付与されていることで、彼我の表現の相違などを抽出することが出来る。対話そのものの内容については、大まかな内容分類(タスク)毎にいくつかのトピックを定め、対話内容に偏りが出ないように注意している。また、各対話には、キーワードが付与されており、対話内容の概要がキーワードを見ることによって分かるようにしている。

ATR is constructing a Dialogue Database called ADD (ATR Dialogue Database). It consists of simulated and actual telephone or keyboard dialogues. This report shows the linguistic items recorded in ADD and conversational subjects of dialogues. ADD data have many linguistic items. Especially, correspondence data between Japanese and English are added, then, differences of expressions between the two languages can be extracted. We use the conversational topics for each tasks to gather unbiased data. Each dialogue has some keywords by which we can determine the outline of the dialogue.