TR-A-0010 :1987.27

横澤一彦

漢字データベースCHIC

Abstract:日本語の文字認識や文字記憶の研究において、すべての種類の文字を使った実験を行うことは不可能に近いので、刺激材料の統制は欠くべからざるものである。ところが、例えば使用率の高い10画の常用漢字を実験に用いたいというときに、漢和辞典の10画の漢字から、常用漢字表を使って漢字を選び、そのあと使用率を調査した文献で使用率を調べるのでは大変な労力が必要である。そこで、刺激材料となる文字の諸属性が簡易に検索できるデータベースがあればたいへん便利である。従って、これまでにも文字データベース作成の試みはあり、刺激材料の統制などに使われている。 視覚研究室でも、漢字認識過程の研究を進めているので、そのようなデータベースは是非とも必要なツールである。しかも、学際的な研究に利用する為、多分野から得られた文字の属性が必要となる。ここで作成した漢字データベースCHIC(CHInese Character data base)は、これまでの心理学的研究、計量国語学的研究、工学的文字認識研究などで得られたデータをまとめたものである。すなわち、これまでの漢字データベースに比べたときのCHICの特徴は、以下の通りである。

1)PC9801上で作成したMS-DOSファイルのデータベースであり、利用しやすい。

2)JIS第1水準の漢字と学習漢字という2つのデータベースを持ち、用途によって使い分けることができる。

3)工学的文字認識研究で得られた類似漢字集合などこれまでのデータベースにはない様々な種類の属性を含めている。