素手で計算機と対話する
−多数カメラを使った手の形と動きの認識−



1.はじめに
 人間が計算機に指示を与える場合、これまではマウスやキーボードといった装置が多く用いられてきました。しかし、このような装置は計算機の操作に慣れた人には極めて身近なものですが、計算機に馴染みの薄い一般の人にとっては計算機の存在を遠いものにする一つの要因でした。もし、人間が自分の手で直接計算機に指示を与えられれば、より多くの人にとって計算機は身近なものとなることが期待されます。
 人間の手で計算機に指示を与える(計算機と対話する)ためには、手の動きと指の曲がりを用いるのが有効と考えられます。従来、手の動きや指の曲がりを計算機に伝えるには、指の曲がり具合の計測のために光ファイバー等を内蔵した特殊な手袋と、磁界式の位置センサを手に装着する方法がありました。しかし、手袋やセンサを装着することは人間にとって快適なものとはいえず応用分野も限られるため、これらを装着せず素手で計算機に指示が与えられる方式の実現が望まれていました。
 素手で計算機と対話するためには、テレビカメラで人物の手を撮影し、計算機で画像処理を行う方法が有効です。ここで問題となるのがまず処理の実時間性(高速性)です。さらに、画像における手の見え方は、手の向きや指の曲げ方により大きく変化する問題があります。特に、手の向きや指の曲がり方によっては、テレビカメラから見えない部分が発生する「隠れ」(オクルージョン)が困難な問題となります。従来の画像処理を用いる手法では、これらの問題を併せて解決できるものはありませんでした。
 当研究室では、テレビカメラを複数台用いて、前述の手の多様な見え方と隠れの問題を解決するとともに、高速に手の追跡と指の曲がりの認識が可能なシステムを開発しました。以下に具体的な内容を述べるとともに、本認識法を適用した仮想シーン生成システムを紹介します。

2.手の形と動きの認識法
(1) 手のシルエットの重心位置の検出
 図1に示されるように、手の領域を含む画像をn(n≧2)台のカメラで撮影し、各入力画像を色情報および輝度情報に基づいて肌領域(手のひら領域のシルエット)と背景領域に領域分割します。得られたシルエット画像にエッジ検出処理を施し、手領域の平均エッジ方向を求めます(主軸検出)。続いて、シルエット画像に距離変換(各画素に領域境界からの最短距離を持たせる画像変換)を適用します(図2)。距離変換の値は、指のように細い部分では小さな値となり、掌のようにある程度の大きさを持つ部分の重心の近くでは大きな値となります。距離変換画像の極大点(スケルトン)を求めれば、指の曲がりに関わり無く、掌のシルエットの重心を安定に検出できることになります。
(2) 手の位置と向きの3次元情報の獲得
 n台のカメラで得られた画像においてそれぞれaの方法により手の重心点を求め、手の3次元位置をステレオ法により決定します。次に、3次元空間における手の方向まわりの回転角を推定します。3次元の手方向は各カメラで得られた平均エッジ方向(主軸)より位置と同様にステレオ法により決定できますので、手方向まわりの回転角を推定することで、3次元の手の位置・姿勢を完全に定めることができます。回転角の推定のため、まず指を除いた手のひら部を図3に示す楕円体によりモデル化します。楕円体モデルを用いて、各画像で観測される重心点(スケルトン)の持つ距離変換値を与える確率が最も高い回転角を求めます。
(3) 手形状の認識
 手の3次元位置・姿勢が分かると、手形状の認識処理に適したカメラを選ぶことができます。手の形状認識には、指どうしの「隠れ」を回避する必要があるため、手のひらを最も正面に近い位置から観測できるカメラの画像を利用します。ここでは、選ばれたカメラの画像を手先を上方に向けるよう回転変換し、重心点より上の領域でシルエットの輪郭線を抽出します。輪郭線はP型フーリエ記述子で表現し、低域フーリエ係数を特徴量とする認識器を構成します。図4に今回実験に用いた 7種類の手形状の入力画像の例とそれぞれの画像について検出された輪郭線を示します。

3.仮想シーン生成システム
 前節で述べた手振り推定手法を利用し、対話的に仮想シーンを生成できるシステムを構築しました。利用者は、手振りによって指定した形状を持つ仮想物体を生成し、生成した物体に対して配置・削除・拡大縮小等の操作を行うことができます。表1に今回用意したコマンドの一覧を示します。表中、「手位置」はコマンド発行時に利用者の手が仮想物体内にあるかどうかを、「形状遷移」はコマンドを実行あるいは開始するための手形状の変化を図4の番号で、それぞれ示します。
 図5はシステムの動作例です。ここでは、利用者が角状の物体を把持し移動している様子が示されています。本システムは、昨年行われたコンピュータグラフィクスの会議SIGGRAPH97等でデモンストレーションを行うことで、実際に多くの人に操作していただき、好評を博すとともに、動作の安定性が確認できました。

4.むすび
 多数カメラを用いた手振り認識装置とその応用例である仮想シーン生成システムの概要について述べました。今後は、任意形状の生成が可能なシステムの構築等応用面も視野に入れながら、両手の動きや複雑な手振りの認識法といった基礎的な研究を進めて行く予定です。


Copyright(c)2002(株)国際電気通信基礎技術研究所