TR-I-0157 :1990.4

江原暉将

対話データベースからの頻度情報の抽出

Abstract:対話に関する言語モデルを作成するための基礎資料を得ることを目的として、ATR対話データベース(ADD)から、種々の言語事実に関する頻度情報を抽出した。抽出データの内容としては、記録情報の単純な度数、言語単位の各階層における構成要素数、日英対応の対応/非対応の度数、日英対応の対応要素数、言語単位の内部構造である。使用したデータは、国際会議に関する電話会話(54,931語)とキーボード会話(39,606語)である。 抽出データから次の様なことが明らかになった。出現単語について、電話会話とキーボード会話を比較したところ、間投詞や、言い淀み、言い直しが電話会話に特有であり、また、電話会話の語彙がキーボード会話のそれを包含する傾向にある。文節パターンについては、間投詞などを除き、電話とキーボードで、あまり差がない。文パターンについては、電話会話の方が文の長さのばらつきが大きい。しかし、文型については、パターンの度数が少ないために電話とキーボードの差を明らかにすることが出来なかった。日英対応では、言語単位が長くなるほど対応率が増す。特に、キーボード会話の文節対応は67%と単語対応の3.2倍に達しており、文節対応を利用することの有効性が示唆される。

ATR is constructing a Dialogue Database named ADD (ATR Dialogue Database). It is built from simulated telephone and keyboard conversations. This report shows the token count statistics of several linguistic phenomena of ADD and makes a comparison between telephone and keyboard conversations. The sample sizes are 54,931 words from the telephone conversations and 39,606 words from the keyboard conversations. The following computations have been included in this report counts of words, word categories, interjections, restatements, phrases, phrase patterns, clause patterns, sentence patterns, syntactic dependencies, semantic dependencies, word corespondences between Japanese and English, phrase corespondences, clause corespondences, sentence corespondences, utterance corespondences, word bigrams and word trigrams. From the statistical data, we conclude the following. Words used in telephone conversations are a superset of those used in keyboard conversations. The phrase patterns of telephone conversations are nearly the same as those of keyboard conversations. Telephone conversations tend to be more varied in sentence length than keyboard conversations. We were unable to extract the statistics for sentence patterns because the sample size was insufficient.