人物像の認識と合成−実時間処理を目指して−




ATR通信システム研究所 知能処理研究室 大谷  淳



1.はじめに
 ATR通信システム研究所では、互いに離れた場所にいる複数の人々が、あたかも一堂に会している感覚で会議が行える「臨場感通信会議システム」[1]の実現を目指して研究を進めています。本システムにおいては、仮想の会議用スペース(仮想空間)を3次元コンピュータ・グラフィックス(CG)技術で生成し、遠隔地の会議参加者の人物像をやはりCG技術を用いて仮想空間に合成表示します。これにより、実世界と同じように、視点の位置や移動に応じて表示内容を変化させることができます。例えば、3地点で会議を行っているとすると、2地点の参加者が視線を合わせて話している間、他の地点の参加者は、話しをしている2地点の参加者の横顔を観察でき、円卓を囲んでいるかのように会議を進めることができます。このようなシステムを実現するためには、一人の参加者に対して、複数の視点(他の地点の参加者の視点)から観察される像を得る必要がありますが、視点毎に様々な位置や角度からの人物像を同時に撮像するのは実用性が損なわれます。これに対して、人物像を3次元的に扱うと、あらゆる位置や角度からの人物像を容易に合成することができます。臨場感通信会議システムを実現するための研究において、会議の話題となっている対象物を合成表示し、自由自在に操作し、会議の円滑な進行を補助する技術も重要ですが、既に紹介しましたので[2]、ここでは、実時間処理を目指した3次元の人物像の認識と合成について紹介致します。

2.人物像の認識と合成の概要

 これまで、実時間で、人物の動きを認識し、3次元の人物像を合成した例は無く、その有効性を確認するための実験システムを構築しました。図1に基本的な処理の流れを示します。人物像を3次元化し、かつ受信側(複数存在し得る)で必要な任意の視点からの人物像を合成することにより、従来のテレビ会議にはない、全く新しい通信会議システムの構築が可能となります。この3次元の人物像の合成のために必要な諸データ(これを3次元モデルと呼び、3章で詳述する)は通信に先立って受信側に送り、通信中は、送信側の参加者の顔の表情や手足の動作といった動き情報のみを認識して受信側に送り、受信側では、受け手の参加者の視点に合わせて、送信側の人物像を合成します。ただ、机の前に座った人物をカメラで撮影し、実時間で表情や動きを認識するのは、現状技術では困難であり、第一ステップとして、補助器具を装着しています。即ち、頭部等の動きには磁気センサ[2]、指の曲がり具合にはデータグローブ[2]を用い、顔の表情認識には顔に貼られたマーカを画像処理により検出することにより行います。このようにして認識された動き情報は、人物の3次元モデルの変形に用いられます。そして人物モデルを、3次元データにより作成された仮想的な3次元空間へ合成することにより、動きをもつ会議参加者の人物像が仮想空間に合成されます。

3.人物像の3次元モデリング

 人物の3次元モデルは、図2のように、人体の各パーツ毎(頭、手等)に3次元モデルを作成し、これらを接続することにより作成します。
 頭や腕のように回転体に近い形状のパーツについては、測定対象の周囲を回転しながら線状のレーザ光を照射し、その変形を計測することにより測定対象の形状情報を入力するとともに、測定対象表面の色彩情報(カラーテクスチャ)も併せて獲得します。
このようにして得られた形状情報は、円筒座標系で表現される3次元点データの集合です。一般に、3次元表面形状は、精度に応じた大小の三角形の集合により近似できるので、ここでも点データの集合を三角形の集合に変換します。以後、このような三角形を三角パッチと呼び、三角パッチの集合をワイヤーフレームモデルと呼びます。また、三角パッチ(三角形)を構成する三点それぞれを頂点と呼びます。前述のカラーテクスチャを、対応する場所の三角パッチに貼り付ける処理(マッピングと呼ばれる)を行うことにより、各パーツの3次元モデルが作成できます。
 手(指を含む)のように回転体とは言えないパーツについては、図2のようにTVカメラを利用してカラーテクスチャを入力するとともに、形状入力はマニュアルにより行っています。
 このようにして、各パーツの3次元モデルの作成を行った後、各パーツは関節の動きが再現可能な形で、互いに接続されます。現時点でのインプリメントでは、人物の上半身像が完成しています。

4.人物の動き認識
 人物の表情は、顔に存在する表情筋の動きにより生じる皮膚表面の時間的形状変化として現れます。従って、TVカメラにより顔画像を入力し、表情変化を認識するという非接触方式を実現するためには、どの表情筋のどの場所の形状変化を検出すれば、表情生成のための必要十分な情報足り得るかを明らかにする必要があります。現在我々は、表情筋に対応する場所の皮膚表面にマーカを貼付し、これらを画像中で追跡する方法により、必要十分なマーカ(検出位置)を求める検討を進めています。
 一方、このような方法は、マーカを顔に貼る必要があるものの、実時間表情認識に応用可能です[3]。TVカメラを顔に対して固定できれば、マーカ追跡の精度を高めることができます。これは図1のようにTVカメラをヘルメットに固定し、このヘルメットを被ることにより実現しています。現在は、図3(a)の位置に9個のマーカを貼付して、目から下の表情認識を行っています。また、図1のヘルメットに固定されたTVカメラの横に電球を取付け、その角膜反射像を画像中で追跡することにより、まばたきと視線を認識しています。
 頭、手、指等の各パーツの動きも、非接触な方式で認識できることが望ましいのですが、現状の画像処理の技術では、精度、速度の両面で課題が多いと言えます。従ってここでは、人物の頭、胸、両手甲の4箇所に磁気センサを取付け、それぞれのパーツの3次元空間(X、Y、Z座標空間)における座標値と各座標軸に対する角度を高速に検出します。また、両手にはデータグローブを装着し、各指の曲がり具合を検出しています。

5.人物像の合成
人物の動きを3次元モデルにおいて再現するためには、認識された動き情報を用いて、ワイヤーフレームモデルを構成する三角パッチの頂点を、適宜駆動する必要があります。
 表情の合成には、マーカの追跡結果から得られる移動ベクトルに基づき、対応するワイヤーフレームの頂点を駆動し、関連する三角パッチを変形します。図3(a)に示したマーカに対応するワイヤーフレームにおける頂点を図3(b)に示します。なお、1つのマーカの追跡結果により駆動される頂点は複数個の場合もあります。また、本来顔は3次元構造をもちますが、マーカの移動は画像中の2次元の動きとして検出されるので、3次元モデルを駆動するためには、知識や拘束条件が必要です。我々は、図3(a)の鼻の上のマーカを不動の基準点とし、無表情時の各マーカとの距離を求めておき、表情変化にともない、距離変化が生じたマーカの動き情報に基づき、3次元モデルを駆動しています[3]。例えば、下唇の下のマーカが動いたことが検出されれば、下顎に対応する範囲にある頂点を、顎の関節の動作に従い、移動させます。
 顔以外の各パーツについては、磁気センサとデータグローブにより時系列的に検出される前述の3次元位置と傾きの情報により、パーツを構成する頂点の3次元座標を決定します。自然な関節の動きを再現するため、関節部分に含まれる頂点の座標は、関節の両側のパーツの座標を数式に代入することにより計算します。  以上のようにして、認識される動き情報に従い、ワイヤーフレームモデルの三角パッチが変形され、これにカラーテクスチャをマッピングすることにより、人物の3次元モデルにおいて動きを再現することができます。そして、人物モデルは、仮想空間へ合成されます。

6.実験システム
 以上の原理に基づき、図4のように、二人の会議参加者による臨場感通信会議が行える実験システムを構築しました。図4に示すように、Site#1に生成された仮想空間に、Site#2の人物Bの3次元人物像が合成されているため、人物AはSite#1で人物Bと協調作業が行えます。現在のところ、Site#1の立体表示スクリーンとしては、左右目用の画像が交互に表示され、これと同期して左右目のシャッターが開閉する眼鏡を着用する方式を採用していますが、我々はこのような眼鏡の不用な立体表示ディスプレイの研究も進めてイマス[4]
 作成した人物Bの上半身像の3次元モデルの規模を三角パッチの頂点数で表すと、頭部が約1,400点、上半身全体で約6,700点です。本実験システムを用いて、処理速度を測定したところ、人物像の再生は6フレーム/秒程度の速度で行えることがわかりました。本実験システムにおいて協調作業(1シーンを図5に示す)を実際に行ってみたところ、会議参加者から、ほぼ自然な3次元人物像表示が行えている、という評価が得られました。因みに、通常のテレビにおいては、30フレーム/秒で表示が行われているので、表示速度の向上の研究は今後も必要と考えられます。

7.むすび
 二人の会議参加者による臨場感通信会議が可能な実験システムを初めて構築しました。本システムにおいては、約6,700個の頂点から構成される人物の上半身の3次元モデルの動きを、6フレーム/秒の速度で再現できることがわかりました。この結果は、実時間での人物の動き認識と、3次元人物モデルにおける再現の第一歩であると同時に、従来見られなかった世界で初めてのシステムとも言えます。
 今後は、表情合成のための必要十分な検出すべき特徴を明らかにするとともに、人物像の3次元表示の画品質の観点から、最適な頂点数を主観評価テストにより検討する予定です。また、現在は、顔のマーカ、磁気センサ、データグローブといった補助器具を使用していますが、これらを必要としてない非接触型の方式の研究も進めていく予定です。



参考文献