パターン認知メカニズムの研究
ATR視聴覚機構研究所 認知機構研究室 乾 敏郎
最近の情報通信機器の進歩は目ざましいものがあります。そして高度な知的機能を通信機器に持たせようとする要求はますます高まるに違いありません。知的機能とはまさに人間の持つ高度な情報処理機能であり、このような機能を持たせるためには人間をはじめとする生物の柔軟な情報処理様式を通信という立場から明らかにする必要があります。
知的機能のなかで最も重要なのは言うまでもなくパターン認識機能です。人間はきわめて高度なパターン認識の能力をもっています。工学の分野においても長年パターン認識の技術開発が行われてきました。しかし、その能力は人間のそれと比較するとまだまだ未熟であると思われます。私たちの高度なパターン認識機能の特徴として、認識対象の特徴をうまく捉えられるということが挙げられます。言い替えれば、対象の構造を脳内で表現する能力が極めて高いと言えます。私たちは、このような人間のパターン認知機構、とりわけ視覚情報の脳内表現のしくみに関してモデル化を行うと同時にそれを工学的に応用しようとしています。
1.特徴点検出、補間、群化・分節機能の研究
私たちが対象の形状を把握するとき、さまざまな能動的機能を働かせています。形状を把握するときその特徴のある点に注目することが眼球運動の測定等により、よく知られています。さらに曲線の特徴点は個々の点に注意を向ける以前に並列に処理されていることが示唆されています。一般に曲線の特徴点には、(1)端点(terminating
point)(2)交点(intersecting point)(3)間隙(gap)(4)曲率の大きい点(high curvature point)などがあります。これら一見異なるタイプの特徴点に共通の性質は何でしょうか。それは、これらの特徴点においては接線の方向が定まりにくいということです。私たちは、このような性質に着目し、心理学や生理学の知見も考慮して、これらの特徴点を並列に検出できるモデルを考えました。図1は、並列計算機によってシミュレーションした結果です。
ところで人間が形状を把握する過程を考えてみますと、細かな特徴をすべて検出しているのではなく、大局的な特徴に注目することがわかります。そこでさらに上述のモデルの性質に加えて輪郭線の平滑化(図2a)も同時に行うモデルも考えられています(図2b)。
つぎに図3のようなパターンを見ますと私たちは頭の中で点列を補間して円を知覚します。一方図4のようなパターンを見ますと私たちは波線と線分が重なったものとして知覚します。このようにパターン全体をその部分に分解する機能を分節とよびます。このような補間や分節機能に関するモデル化をおこなっています。
2.網膜時空間特性の測定と不均一モデル
私たちが車を運転するとき、あちこちに視線を向けながら時々刻々変化する情況を的確に把握しています。また高度な認識を行おうとすると先に述べたように対象の重要な構造に注意を集中する必要があります。この様な注意(attention)機能は人間の高度なパターン認識にとって不可欠のものであることが知られています。注意機能を実現する基本要素として網膜の時空間特性がその中心部から周辺部になるにつれて変化している不均一な構造が挙げられます。従来網膜の時空間特性に関して数多くの研究がなされてきました。私たちは、これまでにない微細な網膜構造を心理物理学的実験によって明らかにしようとしています(図5)。
微細構造とは網膜の出力細胞が持つ局所的なフィルタ特性とその密度の空間分布です。このような微細構造を推定するために時間的、空間的な強度分布が正規分布となるよう制御された時空間ガウスパターンをさまざまな大きさで提示する新しい装置を作り実験を行っています(図6)。被験者が光を検出するのに必要な光エネルギーを測定し、光ガウスパターンの大きさとの関係を調べます。図7はこのようにして測定されたエネルギーと大きさの関係を3種類の提示条件で示しています。光ガウスパターンは時間的にもガウス状に輝度変調されて提示されており、グラフの右端に書かれた数字は、その長さ(2σ,提示時間)を示しています。時間σが小さいとき(2σが100msee,
400mseeのとき)は2つの屈曲点が見られますが、長くなると1つしか見られなくなります。これは、網膜に2つの時空間特性の異なるチャンネル(信号伝達経路)が存在することを意味しています。
一方、心理物理学的実験で得られたデータに基づきモデルを作成し、計算機シミュレーションを行うことにより、上述の微細構造を推定しています。しかし、網膜モデルを通常の計算機でシミュレートしようとすると、きわめて計算時間が長くなります。そこで私たちは前述の並列計算機を用いて、モデルのシミュレーションを行っています(図8)。
3.非剛体の階層的構造記述とその照合方式の研究
近年、各方面で画像・図面・文書などのいわゆる画像データの利用が盛んになってきています。これら大量の画像データを効率よく蓄積し、データベース化しておき応用分野のニーズに応じた形で、データの提供・操作・処理を行う技術を開発することはきわめて重要であると考えられます。一般に、画像データは、通常の文字、数値情報にはみられない次のような性質があります。
(1)対象の形・位置・相互関係をすべて表現しなければならない。
(2)形・位置・相互関係を考慮し、各種の検索・処理を実行しなければならない。
したがって、画像データを扱う場合、検索・処理を柔軟に、効率よく実行できるような対象の形状表現が重要となります。とくに形状のマッチングに関して、その構造記述の重要性が指摘されています。特に例えば生き物のように非剛体の形状マッチングには関節等の情報を用いた階層的構造記述が重要です。私たちは構造を表現する要素として図形のスケルトン(骨格)を用い、これを記号化することにより、さまざまな解像度で、しかも階層間“関係”記述を含めた階層的構造記述の自動生成を試みています。図9は、らくだのシルエットからその輪郭線を抽出し、輪郭線をいくつかの解像度で平滑化した後得られた骨格を示しています。一つの対象の輪郭線からさまざまな解像度で骨格を求めることにより、対象の構造を様々な水準で捉えることができます。これらの骨格をもとにして得られた階層的構造記述(木表現)を図10に示しました。現在、さまざまな動物で得られた木表現や同じ動物でも異なる姿勢の木表現の照合方式について検討を行っています。
4.画像の抽象化表現に関する研究
従来、コンピュータシステムを用いるには、システム設計者によって設計された文法に則った、数字や文字からなるコマンドを、キーボードを使って入力することが必要でした。アイコンを用いたメニューシステムは、言語に依存することなくメンタルモデル(機械の働きについてユーザが持つモデル)をダイレクトにユーザに提示出来ることから、万国共通のユーザフレンドリなヒューマンインタフェースとして非常に有効であると考えられます。私たちは人間の情報処理プロセスとの親和性に優れた使いやすいアイコンの設計指針を得ることを目的として研究を行っています。
これまでに、日常経験的に学習している図記号を対象にいくつかの心理実験を行い、・イメージ一致度によってある程度正答率の予測が可能であること、・具象的内容を表す場合には具象的な図柄で高い正答率が得られること、・抽象的内容を表す場合には表現内容とイメージ一致度の高い図柄で高い正答率が得られること、・評定値が正答率の向上に対してある程度安定な尺度であること等の結果を得ました(図11参照)。
すなわち、アイコン設計の指針として、
(1)具象的内容を表すには具象的な図柄がわかり易いこと。
(2)抽象的内容を表すには表現内容とイメージ一致度の高い図柄がわかり易いこと。
などが示唆されました。これらの検討結果に立脚し現在、具象的な図柄のアイコンを設計する手法について検討を進めつつあります。具体的には、まず多値画像から高品質な輪郭線を抽出する手法について検討し、更にある範疇の複数の線画像の平均的な線画像(プロトタイプ)を生成する手法について検討を進めています。
5.認知地図形成過程の研究
自律走行ロボットの研究が各分野で行われており、実現のためには数多くの問題を解決しなければなりませんが、その中にロボットが持つべき「地図」の問題があります。通常、ロボットの地図生成過程は、距離センサーやカメラからの入力を処理して「部分空間」を求める過程と、求めた部分空間を統合化することで「全体地図」を形成する過程に分けられます。しかし、前者「部分空間把握過程」が研究の中心であり、後者「全体地図形成過程」に関する研究がきわめて少ないのが現状です。その原因は、全体地図形成のためにどのようなデータを収集し利用すればよいか、どのような過程で全体地図が形成されるかなど「空間把握過程の本質的な部分」が明確でないためと考えられます。
認知地図は、「個々の状況」とともに「全体的なイメージ」も把握した知識です。したがって、全体的なイメージを利用しながら個々の行動を規定できるため、認知地図は、空間の把握に有効な概念と考えられます。しかし、認知地図に関する研究は、形成要因の抽出や統制の困難さや定量的な把握の難しさなどから現象の記述に留まり、工学的応用が難しいのが現状です。そこで、私たちは、形成要因のコントロールが可能な「コンピュータグラフィックス(CG)迷路を用いた実験」から「認知地図形成過程の定量的な解析」を行い、心理学で提唱されている人間の優れた空間認知特性を工学的に応用するため、「認知地図形成過程のモデル化」を行おうとしています。
6.おわりに
私たちは、高度なパターン認識機能の実現に向けて上記のような研究を進めています。群化・分節機能、注意機能、構造記述は、パターン認識機能を実現するのに避けて通れない問題だと考えられます。パターン認識機能の実現は基本的に人間行動のシミュレーションだと言えます。故David
Marr(1980没)は、情報処理研究において計算理論(Computational theory)の重要性を強調しました。計算理論とは、簡単に言えば、情報処理システムの入出力の関数関係を示すものです。計算理論を構築する背景には最適性という考え方があります。人間が行っている情報処理様式はおそらく何等かの意味で最適なものにちがいないと考えてモデル化することは、非常に重要なことだと考えられます。私たちのグループでは、人間の視覚特性を測定すると同時に計算理論の研究も行っています。実験と理論の両面を並行させて進めていくことがパターン認知機構の研究にとって重要なことだと考えています。
参考文献