陰影から形を探る
−脳は何をどのように計算しているのか?−




(株)ATR視聴覚機構研究所 認知機構研究室 早川 秀樹
現ATR人間情報通信研究所



1.はじめに
 人は何を見ているのでしょう。そして脳は何をどのように計算しているのでしょうか。Marr[1]は、このような問いに対して、視覚の初期過程(初期視覚)の目的を、網膜に投影された2次元画像から3次元世界の可視表面の幾何学的構造を推測することと考えました(図1)。また、Poggio[2]らはこの初期視覚過程が、3次元物体から2次元画像への写像である光学のちょうど逆になっているので、これを逆光学と呼び、解が一意に決まらないという意味で不良設定であることを示しました。
 そして、Horn[3]はこのような初期視覚の問題の中で“shape from shading”という、ただ1枚の画像強度の分布から3次元形状を推定する問題を取り上げました。しかし、この問題の中で推定されるべき3次元世界の情報には、物体の形状だけでなく、その表面の反射率、光源の方向や明るさなど複数の要因があり、簡単には解くことができません。
 ところがこのような複雑な問題に対して、人間は常に安定な最適解を計算し、3次元世界を知覚することができます。そして時には、図2の絵のように多義的な解釈が可能なものでさえも、瞬時にかつ見事に解いてしまいます。このような素晴らしい人間の視覚情報処理機構を少しずつでも明らかにしていくことは、脳の計算原理や機能を調べるためにも有意義であると考えられます。
 このような観点から、私達は視覚大脳皮質の統一的な計算理論を提案し、その計算理論に基づいて、陰影から形状を推定する視覚情報統合モデルを構築しました[4,5]。本稿では、この視覚大脳皮質の計算理論の概要と、陰影から3次元形状を推定する統合モデルの構成について述べることにします。

2.視覚大脳皮質の計算理論
 網膜上に与えられる2次元画像データの生成過程(光学過程)をモデル化するには、様々なレベルでの記述が可能です。低いレベルでは、可視表面の奥行きや面の方向、各場所での反射率や照明光が決まれば、画像データを生成することができます。高いレベルでは、個々の物体が3次元空間内にどのように配置され、個々の3次元像は何で、それぞれがどのように動いているかを記述することによって、同じように画像データを生成することができます。人間の脳内では、これらの様々な階層的な記述がいろいろな形で使われていると考えられます。
 このような多くの階層的な表現の関係を統一的に表すことができないか。このような観点から、私達視覚大脳皮質の計算理論の基本モデルを提案しました(図3)。様々な3次元世界の状態Sから画像強度を決定する画像生成過程を、非線形関数Rで表してあります。これは3次元物体から2次元画像への写像、つまり光学に対応します。ここで、画像生成過程Rの逆関数が存在すれば、3次元世界の状態Sは一回の計算で正確に求められます。しかし、私達が解こうとしているこの問題は基本的には不良設定問題であるため、逆関数であるR-1は存在しません。従って、ここでは画像生成過程Rの近似的な逆モデルR#を用います。さらに、進化・成長の過程で学習により獲得された3次元視覚世界の内部モデルは、高次視覚野のような高いレベルにおいて表現されています。
 この基本計算モデルは、画像生成過程の順方向モデル、近似逆モデルそして3次元視覚世界の内部モデルにより構成される繰り返し演算によって、入力画像データをよく説明し、また内部モデルに照らして確率の高い、視覚世界の推定値を安定平衡状態として求めます。まず、急速眼球運動(サッケード)の後で画像データIが入力されると、画像生成過程の近似逆モデルによってSの粗い推定値R#(I)が計算されます。そして、今度は推定値Sから順方向モデルによって、画像データの推定値R(S)が計算され、それが実際の画像データと比較されて、誤差I−R(S)が求められます。この誤差は再び近似逆モデルにより計算されR#(I−R(S))が入力されます。一方、3次元視覚世界の内部モデルは、進化、成長の過程で得られた学習経験を反映するように、推定されたSに修正を加えます。
 従来このような構成の緩和型の神経回路モデルは多数の繰り返し演算に長い時間がかかるために、脳の情報処理モデルとしては不適当であると考えられてきました。しかし、私達が提案しているこのモデルは画像生成過程の近似逆モデルによって粗い近似解をまず求めてしまい、この解を繰り返しによって改善していくので、多数の繰り返しは必要ではありません。また、逆に計算時間が限られているとしても、ある程度良い推定ができるようになります。

3.陰影から形状を推定する視覚情報統合モデル
 視覚大脳皮質の計算理論に基づいて私達が構築した、陰影から形状を推定する視覚情報の統合モデルについて説明します(図4)。
 この統合モデルでは、画像データIを入力とし、不連続(画像エッジ)とその向きを示すオリエンテーションL、そして光源方向Sに関する情報をまず推定します。続いて、これら不連続Lと光源方向Sの2つの情報をもとにして、画像生成過程の順方向モデルR、その近似逆モデルR#そして面が滑らかであるという拘束条件(面の向きに関する内部モデル−∂U/∂Nに相当します)により、面の向きNを推定します。
 画像生成過程の順方向モデルRは、面の反射特性と最初に推定された光源方向Sから構成することができます。また、面が滑らかであるという拘束条件は計算された面の向きの空間的な変化量により評価することができます。但し、不連続Lの情報により、不連続な部分では滑らかであるという拘束条件が作用しないようにしています。さらに、画像生成過程の近似逆モデルR#としては、面の向きの方位を固定して修正するような新しい計算機構を用いています。このような3つのモデルにより構成される統合モデルは、これらを単純に繰り返すことによって、面の向きを少ない繰り返しで安定に得ることができます。
 続いて、繰返し計算により得られた面の向きNから奥行きZを計算します。ここでは、奥行きの微分値を計算するモデル、その微分値と面の向きとの誤差から奥行きを修正する近似モデル及び奥行きが滑らかに変化するという拘束条件(奥行きに関する内部モデル−∂V/∂Zに相当します)により推定を行ないます。
 最後に、以上の統合モデルを10回程度繰り返すことによって、山岳地方の陰影画像から推定された不連続、光源方向、そして3次元形状を図5に示します。

4.おわりに

 陰影のついた絵画や写真からでも、人が見れば3次元形状が分かるではないか。多分こんなことから、陰影からの形状復元(shape from shading)の研究は始まったのでしょう。今までにも多くの人々が物理法則の式を頼りに、様々な仮定条件を用いることによって、この難解な不良設定問題にアプローチしてきました。しかし、“人間はどのようにして形状を知覚しているか?”という偉大なお手本は、なかなか全望を明らかにしてくれません。
 本稿では、視覚大脳皮質の計算理論の概要とその理論に基づいた3次元形状を推定する視覚情報の統合モデルについて述べました。私達が提案している形状推定のモデルは、その構成が和田[6]らが提案している運動制御の計算モデルとほぼ同じであり、ある意味で脳の機能の根本原理を捉えているかも知れません。しかし、今回提案している視覚モデルの妥当性について評価できるだけの情報は、まだ科学的にも十分揃っているとは言えません。今後は、更に解明されて行くと思われる様々な心理学・生理学的知見を参考にしながら、面の向き、光源の方向、そして面反射率の3つの相互作用によって、より適切にこれらを推定する計算論的なモデルを構築して行きたいと考えています。



参考文献