TR-C-0015 :1988.9.1.

西村康,高橋友一,小林幸雄

文書画像データベース編集プログラム

Abstract:非言語による情報授受の研究の一環として、文書を画像として読み取り、レイアウト構造さらには論理構造を認識・理解する研究を行なっている。 従来の文書画像理解の研究においては、研究施設環境の制約のために大量の文書画像を用いたレイアウトの解析、大量データによる処理手法の検証などは行なわれていなかった。昨今のハードウエア環境の状況は、大量データの容易な取扱 を可能としている。 大量データを使用し、リレーショナルデータベースシステムを利用して効率的に解析、実験、検討が行える環境をつくることを目的として、文書画像データベース編集プログラムを作成した。 本システムは、文書画像データをドラムスキャナ装置から入力して、その画像データを補正し、レイアウト構造を抽出して、リレーショナルデータベースに登録するシステムである。 オペレータの介在により、文書画像上で一様な意味を持つ領域を指示し、その領域に属性ラベルを付加することができる。 このシステムでは、画像データの入力をVAX/VMS上で行ない、画像データ補正とレイアウト情報抽出、並びにデータベース登録をSUN/UNIX4.2BSD/3.2EXPORT上で行なう。 現在、本システムは、科学技術論文タイトルページの画像データベースシステムとして使用しており、以下では論文レイアウトデータベース編集プログラムと呼ぶ。 本報告では、論文レイアウトデータベース編集プログラムの概要及び機能についての記述を行なう。 システムのインストール、使用方法の詳細については、以下の関連資料を参照のこと。 関連資料:VAX/VMSドラムスキャナ画像入力プログラムDCSマニュアル、 理経光ディスク装置ファイルシステムVER2.1 OS301-1-OMマニュアル、 論文レイアウト情報抽出用ユーティリティプログラムマニュアル、 論文レイアウトデータベース編集プログラムマニュアル