TR-C-0007 :1987.12.25

伯田晃, 高橋友一, 小林幸雄

言語・画像情報統合理解の研究

Abstract:近年、誰にでも使い易く、人間本来の知的活動を支援してくれるような情報システムが切望されている。それに対して、インタフェース高度化の努力が様々なアプローチで行われており、その中には、我々人間が日常使い慣れている自然言語を使えるように、機械の知的レベルの向上を図ろうとする先端的な研究もある。そして、現在のテキスト情報を中心に扱うコンピュータシステムに於いては、この自然言語を使えるインタフェースは、利用者の持っている意図を自然に表現できる点で一つの理想形態であると考えられる。 一方、LIS技術の急激な進歩にともなって、コンピュータの処理能力は日々格段の進歩を遂げ ている。そして近い将来、テキスト情報は当然のこと、イメージ情報もより効率的に取り扱えるようになることは確実であると言われている。また、その技術を適用したマルチメディアデータベースを代表とする、より高度な情報処理システムの実現も強く期待されている。その様なシステムが現実のものとなった時には、いかに自然言語によるインタフェースが優れているといえども、必ずしもそれだけでは使い易いとは考え難い。我々は、そのようなイメージ情報なども取り扱える状況に於いては、人間同士が日常よく行っているように、言葉だけではなく、そのやりとりの際に必要な画像情報をうまく用いることのできるインタフェースが、解決の道を与える一つのアプローチになると考えている。 このような複数メディアを併用するインタフェースの先駆的な研究としては、1980年にMITのRichard A. Boltが、実際の物を指で指し示す簡単な動作と指示語を組み合わせて入力された内容を理解するインタフェースを提唱している。我々はこのBoltの研究成果を踏まえながら、複合電話機の操作ガイダンスシステムを実験システムに採り上げて、利用者の入力する言語・画像情報を統合して理解結果を得る為の基本技術の検討を行っている。 本稿では、基本技術の一つである、言語情報と画像情報の対応関係を示す「言語・画像情報間の リンク」に関して、実験システムでの検討を通して得られた、我々人間が特徴的なパターンを見た際に認識されるグループ情報を含むリンクを中心に報告する。