TR-I-0186 :1990.10.30 ( Internal Use )

江原暉将,井ノ上直己,幸山秀雄,長谷川敏郎,庄山富美,森元逞

ATR対話データベースの内容

Abstract:ATRでは電話およびキーボードを用いて行われる対話を収集し、その結果をATR対話データベース(ADD)として蓄積している。本文では、このATR対話データベースに収録されている言語情報および、収集した対話の内容に付いて述べる。ADDに収集されている対話は、模擬対話実験による対話およびラジオ放送で用いられた、実際の対話であり、データベース化に先だって、各種事前分析が施されている。これによって、付加される言語情報が豊富になり、抽出できる言語現象も多種に亘ることが出来る。特に、日本語と英語の対応データが付与されていることで、彼我の表現の相違などを抽出することが出来る。対話そのものの内容については、大まかな内容分類(タスク)毎にいくつかのトピックを定め、対話内容に偏りが出ないように注意している。また、各対話には、キーワードが付与されており、対話内容の概要がキーワードを見ることによって分かるようにしている。

ATR is constructing a Dialogue Database called ADD (ATR Dialogue Database). It consists of simulated and actual telephone or keyboard dialogues. This report shows the linguistic items recorded in ADD and conversational subjects of dialogues. ADD data have many linguistic items. Especially, correspondence data between Japanese and English are added, then, differences of expressions between the two languages can be extracted. We use the conversational topics for each tasks to gather unbiased data. Each dialogue has some keywords by which we can determine the outline of the dialogue.