一枚の絵の中の奥行きのある世界
－単眼視による情景理解をめざして－

ATR視聴覚機構研究所　視聴覚研究室　深田　陽司

1．はじめに
　私達は目を通してまわりの世界を理解することができます。つまり、何が存在し、その物体が私達からみてどの方向を向き、どれ位の距離にあるかを知ることができます。
　見えている物体が何であるかを認識する機能は、記憶と直接的に関連しています。回転角や傾きについては、物体を認識したのち、記憶されている物体の状態からのずれとして知覚しているものと思われます。物体までの距離は、両眼による立体視の機能を用いれば容易に知ることができます。
　ところで、一枚の絵を見たときにも私達はその情景を立体的に見ることができる、もしくは3次元物体を思いうかべることができます。例えば図1に示す円は球に見えるし（陰影特徴の利用）^[1]、図2は菱形3つからなる2次元図形ではなく、斜め上から見た立方体に見えます（角度特徴の利用）^[2]。
　このように、物体に関する距離や回転といった3次元の情報を復元する手がかりは、両眼視でなくても一枚の画像にも数多く含まれていることが分かります。どのような手がかり（画像特徴）があれば、どのような3次元情報を1枚の画像から復元することができるかを調べることは、通信情報の圧縮などにも応用できる重要なテーマの1つです。
　本稿では、手がかり（上に述べた陰影特徴や角度特徴もその1つ）としてエッジを考えます。エッジは最も基本的であり普遍的な特徴です。図3に示すようなエッジの集合として与えられた一枚の画像から、3次元情報（1種類の回転角と3方向への平行移動量）を復元し、物体を認識する研究を紹介します^[3]。

2．問題の定量的設定
　画像から情景を理解するためには、何の映像かという定性的情報の復元と、それらの位置・姿勢といった定量的な情報の復元を実現しなければなりません。そこで、基準となる座標系（ワールド座標系と呼びます）を空間に設定します。すると問題はこのワールド座標系に対する各物体の変位量を求めることになります。
ワールド座標系は一般的には、床面と鉛直方向に平行に3軸をとります。原点は床面上の任意の位置に設定します。図4に示す座標系では、XwZwが床面であり、Ywが鉛直軸です。
　情景が撮影できるように、空間にカメラを適当に設置します。撮像面はレンズ中心から焦点距離のところに存在します（図4では見やすくするためにカメラの外に撮像面を描画しています）。ワールド座標系に対するカメラの位置と回転は、物体の3次元情報復元に先だって測定しておきます。この測定結果を用いれば、カメラ座標系（カメラに固定した座標系）における点の位置座標やベクトルが、ワールド座標系における値として計算できます（4章でこの変換計算が用いられます）。
　認識すべき物体は、物体座標系で表現されています。つまり、物体の頂点位置座標などは物体座標系に固定されており、物体座標系が回転・平行移動するとともに物体が移動します。図4では1つの物体しか描いていませんが、実際には図3に示すように複数の物体がそれぞれ異なる移動をし、1つの情景を構成します。
　本稿では各物体座標系は鉛直軸まわりにのみθ回転し、ワールド座標系の原点からベクトル量t（Tx, Ty, Tz）だけ平行移動しているとします。すると問題は、認識すべき物体のθとtの4つのパラメータを画像エッジ集合から決定することになります。

3．仮説の生成と多数決原理
　物体認識を実現するためには、認識すべき物体を表現する何らかのモデルが必要になります。そして、記憶されているモデルのうちのどれかと画像上の図形との間で照合がとれる時、これらのモデルで表現された物体が認識されたとします。
　物体モデルをどのように表現するかは大きな研究テーマの1つですが、ここでは3次元情報復元が主眼ですので次のように単純化します。認識すべき対象は多面体とし、モデルは物体座標系での頂点の位置座標の集合で表現されているとします。
　これらの物体を含む情景を撮像し、画像に前処理を施しますと、多くの場合物体エッジは部分的（エッジが不完全になったり、エッジ全体の欠落がおきる）にしか抽出できません。それは、室内照明など一般的な照明条件を想定していることや、また後ろの物体はカメラにより近い物体に隠されてしまうからです。そこで本稿では、画像特徴としては必ずしも頂点を含まないエッジとします。このような考え方をとることにより、現実の情景にも適用できる手法となります。
　前処理を施された画像（M本の画像エッジを含む）に対して、認識したい物体をO（N本の物体エッジでできている）とします。ところで、個々の画像エッジはどの物体のどのエッジであるかに関して何の情報も与えられていません。そこで画像エッジは、物体Oの各エッジに対応していると仮定します。この対応を仮説と呼びます。すると、1つの画像エッジに対してN個の仮説が生じるので、画像全体ではMN個の仮説ができます。
　画像に物体Oのエッジがn本存在しているとすると、MN個の仮説のうちn個は正しく他は誤りです。1つの仮説から認識すべき物体の回転角や位置のパラメータが算出できるなら、すべての仮説から算出された値をそれぞれのパラメータ空間に分布させた時、正しい値は少なくともn個存在することになります。誤った仮説からは、ばらばらの値が算出されるのでこれらの値の頻度はnに比べて少なくなります。逆に、頻度の多い値は正しい仮説からの結果であると期待できる訳です。
　以下においては仮説からいかにパラメータが算出できるかを述べます。

4．仮説からの回転角パラメータの決定
　1つの仮説として、画像エッジp qが認識すべき物体のエッジA（鉛直軸との角度はφ_A）に対応しているとします。
　すると、物体は鉛直軸まわりにのみ回転しているので、物体エッジA上の単位ベクトルE_Aは、θにかかわらず常に鉛直軸とφ_Aの角度を成します。つまり、E_Aは図5に示す単位球上の曲線（水平な小さい円）上に存在しなければなりません。このような曲線を拘束曲線と呼びます。
　次に、画像エッジp qについて考えます。p qに対応する3次元空間内のエッジP Qは、視点とp qで張られる平面Γ上に存在しているので（図6）、PQ上の単位ベクトルE_Lは平面Γの法線ベクトルEnと直交しています。この事実は、先ほどと同じように図5に示す単位球を用いると、E_LはEnの大円上に存在しなければならないことを意味しています。この大円は、P Qに対する拘束曲線です。
　物体エッジAと画像エッジp qが対応すると仮定しているので、この仮説が正しければこれら2つの拘束曲線が同時に満たされねばならない、つまり交点をもたねばならないことになります（ただし充分条件ではないので、交点をもつからといって仮説が正しいとは限りません）。交点をさすベクトルのところに物体エッジAが存在するので、鉛直軸まわりの回転角θが算出できます。
　交点は一般的には2つ存在するので（図5）、この時点では解は2義的にしか決定できません。正しい解は1つですから、1義的に決定するためには、多くの仮説からの解を集めて、その頻度が多い値を最も確からしいと考え解とします。
　図3を対象画像とし三角錐を認識すべき物体として回転角を算出し、回転角空間に分布させた結果を図7に示します。この実験では画像内の三角錐は2つとも30度の回転角が与えられています。

5．仮説からの平行移動パラメータの決定
　前節の手法によって回転角θoが決定すると同時に、θoに寄与した仮説が分かります。これらの仮説の1つを、画像エッジp qと物体エッジAの対応とします。ここで以下の説明を簡単にするために、PとQは物体の頂点とします。すると求めたいのは、頂点PとQの奥行きです。即ち、奥行きが分かれば平行移動ベクトルtが分かります。
　回転角は決定しているので、図6に示す平面Γ上でP Qの方向は決定します。しかも物体エッジP Qの長さは分かっているので、P及びQのΓ上での位置が決定し、tの3つのパラメータが算出できます。
　ここで、θoに寄与した仮説から算出される平行移動パラメータをその空間に分布させると、正しい移動の値は多くの頻度をもちます。図3に示す画像では、2つの三角錐は同じ回転角θoをもち平行移動量が異なるので、θoからの復元値は図8に示すように、それぞれの移動量のところ（2箇所）で多くの頻度をもちます。
　本稿では、PとQは必ずしも頂点ではないとしています。この場合には3つの移動パラメータは、これらのパラメータ3次元空間における平面上に拘束されることを導くことができます^[3]。
　1組のパラメータの決定に最終的に寄与した画像エッジ群を集めれば、目的の物体を構成するエッジが決定し、物体を認識したことになります。

6．まとめ
　本稿では、単眼視による3次元情報の復元の方法を提案し、人間と同じように1枚の絵からでも立体的に認識できるメカニズムの1つが、数理工学的に説明出来ることを示しました。
　ここでは多面体を対象にしましたが、回転物体に対してもその回転軸に本手法が適用できると思われます。本手法及び本テーマを発展させることによって情報圧縮がはかれ、画像を媒体としたコミュニケーションの実現に大きく寄与できると考えています。

参考文献

一枚の絵の中の奥行きのある世界 －単眼視による情景理解をめざして－

一枚の絵の中の奥行きのある世界
－単眼視による情景理解をめざして－