視覚イメージを生成して三次元世界を認識する



1.はじめに
 私たちの脳には、外界の状況を正確にまた素早く捉えるために、柔軟かつ豊かな視覚認知システムが備わっています。このような生体の優れた視覚機構が明らかになれば、複雑な環境下で自律的に作動するロボットの眼や人と機械の自然なコミュニケーションが行なえる高度な視覚システムの実現が可能になると期待されます。しかし、脳の視覚系と同じ機能を機械に持たせることは、現時点では容易なことではありません。その実現に向かうためには、視ることの本質を深く探ってみる必要があります。私達は、脳の視覚系を実験的に調べるだけでなく、想定される視覚の戦略をモデル化し、それを計算機で実際に動かして検証するというアプローチをとってきました。

2.視覚イメージを記憶し活用する
私たちの優れた認識能力を示す一つの例として、まず図1を見て下さい。ここには何が描かれているでしょうか。画像が二値化されているのでかなり難しいかもしれませんが、実は「木の上にいる猿」が描かれています。右の輪郭図をヒントに、対象のイメージを想い浮かべれば見えてくるはずです。それでは次に、図1を上下逆さまにして見て下さい。「逆さまの猿」をイメージすることは難しいので、今度は先程のような対象の豊かな細部は見えてこないと思います。この現象は、脳が複雑な情景に対しても、記憶表象から生成される視覚イメージを入力像に適合させることにより、柔軟な認識を達成していることを示しています。
 このような過去の知覚経験を活用して、外界の情景を解釈し認識する脳の計算機構については、まだほとんど明らかにされていません。こうした柔軟な視覚機能は、図2に示すように三次元物体の圧縮表現を学習して記憶するとともに、入力からの画像情報と記憶からのイメージ情報を双方向的に循環させることで達成されるのではないかと考えています。次にこのような視覚情報の学習と循環を行なう物体認識モデルの概要を紹介しましょう。

3.三次元物体の表現を学習する
生物の優れた学習機能の一つに「自ら学び発見する」という能力があります。これは与えられた情報をそのまま記憶するのではなく、入力情報に潜んでいる構造や特徴を自律的に発見し、能動的に組織化する能力のことです。このような自律的な学習は、教師無し学習(unsupervised learning)と呼ばれ、モデル構成(architecture)や学習手順(algorithm)を工夫することにより、入力データだけからその構造や特徴を見い出そうという学習様式です。
 このような教師無し学習には、データの類別(clustering)機能があります。これは、入力データを幾つかのクラスに分類するという帰納的な働きであり、脳の優れた知的能力の一つと考えられます。最近の生理実験によると、サルの大脳皮質の下側頭野には物体のさまざまな画像特徴がそれらの類似度に応じて分類され、コラム状に保存されていることが報告されています。そこで、三次元物体を異なる視点から見たときに得られるさまざまな物体像(view)を類別して、それらがどの物体の物体像かを特定する課題を考えてみました。この問題の難しさは、物体のラベルを与えずに、異なる向きの物体像(例えば正面顔と横顔)をうまく一つきクラスとして分類できるかという点にあります。
 このように、類似度がクラス内で大きく変化するようなデータを類別するために、モジュール型ネットワークを用いた新しい類別モデルを構成しました。このモデルでは、各クラスを特定する神経回路モジュールを多数用意しておいて、それらが互いに競合しながらデータの類別を行ないます。このとき、最尤推定法に基づき、各モジュールの学習が行なわれます。従来の手法と異なる点は、各クラスを代表するプロトタイプではなく、各クラスのデータの分布構造自体を推定する点にあります。実際に異なる視点から撮像された三次元物体の画像を用いて計算機実験を行なった結果、従来の手法より良い精度で物体像の類別が行なえることを確認しました。

4.双方向計算に基づき三次元情景を認識する
学習により獲得された視覚情報は、そのまま保存しておいても、あまり役に立ちません。記憶情報は、さまざまな状況や課題に活用できて初めて、その価値が決まるといえます。特に私たちが複雑な情景を見るときは、図1で示したように、過去の記憶を辿りながら、視覚イメージを想起して画像の能動的な解釈を行なっていると考えられます。
 そこで、画像からの入力情報と記憶からのイメージ情報を双方向的に融合することにより、複雑な情景の分析を行なう計算モデルを構成し、計算機実験でその特性を調べました。このモデルでは、まず、前述のモジュール型ネットワークモデルを用いて、三次元物体の物体像を学習しておきます。このとき、各モジュールには、入力情報を圧縮する順方向とイメージ情報を生成する逆方向の二つのプロセスが獲得されます。こうして学習されたネットワークを用いて新しい情景の分析を行ないます。この情景には、さまざまな方向を向いた物体が複数含まれていて、それぞれが互いに一部分を覆い隠すように配置されています。このような複雑な情景に対して、本モデルでは、注視領域を移動させながらイメージを生成して個々の物体の向きを推定するとともに、物体領域の分節化を漸次的に進めていきます。従来の手法のように各処理を逐次的に行なうのではなく、双方向の情報循環により、複数の処理を同時に進行させることで柔軟な認識が可能になるわけです。
 さらに、従来、入力情報だけで決まると考えられてきた脳の視覚処理の多くが実は記憶情報やイメージ情報にも規定される可能性が考えられます。そこで、現在、動きから三次元構造を推定する課題などに対して、記憶や視覚イメージがどの程度影響するかを検証する心理実験も進めています。

5.おわりに
本稿では、これまで行なってきた物体認識の研究の一端を紹介しました。しかし、この分野には、まだ未知の問題が数多く存在しており、脳の視覚世界の豊かさと奥深さを示しています。このような未知の問題に取り組むには、既存の手法やアイデアの改良だけでなく、常に原点に立ち返って基本的な問題からじっくりと掘り起こしていく姿勢が必要ではないかと思います。そのためにも、素朴な疑問から出発して、独自の視点やアイデアを育んでいくことを大切にしていきたいと考えています。



Copyright(c)2002(株)国際電気通信基礎技術研究所