臨場感通信のためのヒューマン・インタフェースの研究



ATR通信システム研究所 知能処理研究室 伴野  明



1.まえがき
 私達は、電気通信の究極のねらいを、臨場感通信に置いています。ここでは、例えば距離を隔てた相手と協調しながら複雑な作業を効率良く行なえるように、現実にそれが行われている場面に居るかのような感覚を持てるような架空“場”(以下「仮想空間」と呼ぶ)をコンピュータによって生成し、利用者の前に表示することを想定しています。
 利用者は、この仮想空間において、あたかも一個所に集まっているかのような感覚で、会議や作業が行なえるようになります。
 また、この方法は仮想的な場面を体験しながらのシミュレーションや、人が容易に立ち入れない場所等にロボットを送り込みその場に居るかのような作業感覚で遠隔操作する(テレイグジスタンスと呼ばれている[1])ような用途にも利用できます。
 これらは、電気通信技術の適用域を大幅に拡大するとともに、人の協調性や創造性を助長する大きな力になると考えられ、産業、教育、医療、娯楽などへの応用が期待されます。
 このような新しい通信方式のもとでは、利用者と仮想空間を制御する機械(主にコンピュータ)とのインタフェースは従来とは異なったものになり、また、その役割も重要に成ります。利用者が機械を使用していることを意識せず、作り出された仮想空間が自然に感じられるような、人間の生理、心理等に整合したインタフェース(以下、ヒューマン・インタフェース[2]と呼ぶ)を構築することは、臨場感通信方式の要と言えます。
 以下では、臨場感通信とこれに必要なインタフェースの考え方について述べ、次にこれを実現する第一歩としてこれまで検討を進めたヒューマン・インタフェースの基礎技術について紹介します。

2.臨場感インタフェースへのアプローチ
 図1は、臨場感通信の一例として私たちが考えている臨場感会議の概念とヒューマン・インタフェースの構想です。ここでは、各地に離れて在住する人々が、ある1つの場所に集まったかのような感覚で互いに協調して作業を進める様子を示しています。今までの電気通信が遠隔地にいる人々の意志疎通を図るため、そこに伝送路を設定すると言う主に距離を克服する立場を取っていたのに対して、本方式は、意志疎通を図ろうとしている人々を会議の内容に相応しい仮想空間に集めてコミュニケーションすると言う全く新しい考え方によっています。臨場感会議の究極的なシステムでは、人物の動きや行動が認識・理解され、この結果が伝送され、受信側ではコンピュータグラフィクスによって人物及び会議の場面が合成・出力されます。また、この場面には同図のように議題の対象が必要に応じて立体的に表示され、出席者はこの表示に直接働きかけながら自分のイメージを創造し、理解を深め討論できます。
 次に、臨場感会議システムに必要なインタフェースについて述べます。自然な仮想空間を生成するためには、私たちが現実の世界を捉える方法にできるだけ近い方法で再現することが必要です。視覚を例にとると、人間は両眼に写る画像の見え方の差(両眼視差)や頭を動かしたときの見え方の差(運動視差)などを利用して立体的な感覚を得ています。また、目を動かして視野を変え興味ある対象を捉え、対象に働きかけます。従って、利用者の頭の動きや視線を常時検出して、その位置、その方向から実際に見えるように画像を変換して表示すれば臨場感は増すはずです。また、現実の世界では、対象への働きかけに対して様々なリアクションがあります。端的な例は、物に触れたときの感触です。そこで、利用者の身振り、手振りを認識してそれを画面の中に表示し、対象との相互作用を検出して、利用者の身体に力学的なフィードバックを与えれば、臨場感は更に向上すると考えられます。また、利用者の言語の理解や、視線、表情、身振り等の認識から意図、意志が抽出できれば、その結果を表現方法にフィードバックすることにより、知りたい情報をより的確に伝えることが可能です。
 以上述べたような利用者が真に主体となったヒューマン・インタフェースを実現するための要素技術として、私たちは、人物の動きを認識するための画像処理技術、仮想空間を利用するための表示画像の操作技術が重要と考え研究しています。

3.人物の動き検出技術
 画像処理技術を用いて、利用者の状態、特に顔、や視線の動きの検出、及び、手振りを認識する研究を行っています。
(1)顔の向き及び視線の検出
 ここでは、簡単な画像処理により、顔の位置、方向を検出する手法として、1台のカメラ(単眼視)を用いた方法を紹介します[3]。本手法では、顔を3つの特徴点から成る三角形平面としてモデル化し、各辺の長さを予め測定し、既知情報とします。この3点をテレビカメラで撮影すると、投影面の三角形のかたちはモデルとは異なり歪んだものになります(図2)。この歪み量から3点の3次元位置を求めることができます。また、顔の向きは三角形の法線方向として求まります。顔の特徴点は将来的には、顔画像から自動的に抽出する予定ですが、現在は高速化を図るため、顔上にマーカを貼り、抽出処理を容易にしています。マーカには青色の点を使用し、クロマキーの手法によりこの部分を背景に対して強調します。この画像に対して2値化処理を行ない、特徴点の位置を検出します。
 実験システムでは、10回/秒の速度で顔の向きを検出し、その方向のディスプレイ画面上にカーソルを表示することができます(図3)。このシステムを用い、カーソルを顔の向きで制御し、画面に提示された目標を顔の向きで指示する実験を行いました。その結果、顔の向きによる指示は、提示された目標が大きい場合には速く、操作性も良いことが分かってきました。今後、メニュー選択などへの応用を考えて行く予定です。
 次に、頭に機器等を装着せずに非接触で視線を検出する方法について述べます。視線とは、図4に示す眼球の構造から眼球中心と瞳孔の中心を結ぶ線と考えられます[4]。また、眼球中心の動きは頭部骨格の動きとほぼ同じため、視線は頭部骨格の動きと眼球の回転運動の組合せで決まります。従って、視線検出は、これらの動きにより位置が変化する複数の特徴点を抽出すれば可能です。表1に主な特徴点と性質を示します。これらの特徴点の組合せで幾つかの視線検出方法が考えられますが、現在は、顔と瞳孔の位置を用いる方法と、瞳孔と角膜反射像の位置を用いる方法の2方式で検討を進めています[5]
 画像処理による視線検出の最初の課題は、カメラで捉えた画像から特徴点を安定に且つ高速に抽出することです。しかし、実際の室内では、ディスプレイからの光の放射や蛍光灯など外部照明の影響で利用者の照明条件は変化するため、常に安定な画像が得られるとは限りません。これを解決するため、人に知覚されない近赤外LEDを照明装置とした撮影方式を検討しています。瞳孔の抽出では、カメラレンズの光軸に対してLEDの位置を選ぶことにより瞳孔を虹彩より明るく撮影したり、暗く撮影したりすることができます。これらの画像の差分をとると、瞳孔の部分が背景から強調されます(図5)。この差分画像はS/Nが高いため、2値化処理が容易です。角膜反射像の抽出では、偏光化された光を照明に用いることにより、S/Nの高い2値画像が得られます。
 このようにしてカメラの投影面で特徴点の位置が分かると、この結果は、適当な拘束条件と投影幾何学により特徴点の実空間上の位置に変換されます。顔と瞳孔を用いる方式の場合を例にとると、顔の位置と方向が分かると適当な定数を用いて眼球中心の位置が分かるので、これと瞳孔を結ぶ線として視線を得ることができます。ここで、ディスプレイに対するカメラの位置を既知とすると視線はディスプレイ上の視点に変換することができます。
(2)手振りの認識
 画像処理を用いて手の形状を認識する試みとしては、手話認識の分野で幾つかの先例が有ります[6][7]。例えば、カメラで捉えた画像を予め決められた手の典型的なパターンと照合してその形状を幾つかに分類するようなアプローチ、人の体や顔に対する手の相対的な動きを検出、分類しその意味を理解するアプローチなどです。しかし、手の動きを前述のようなヒューマン・インタフェースに利用することを考えると、手話の場合とは異なり手の形状や動きに関する約束事は曖昧になります。つまり、最終的には利用者の無意識な手の動きからその意図を理解するようなことも必要になる訳です。従って、手の形状に関する情報は手話認識等の場合より多く必要と成ります。例えば、手の3次元的な形状認識も必要です。また、表示画面中の対象を指し示したり、更には対象をつかんで移動させたりするような場合には、画面に対する手や指の空間位置や方向を表示画像との相互作用が可能な程度に正確に検出することが必要になります。
 一般に物体の3次元位置を検出するには、幾つかの方法が考えられます。例えば、物体が剛体で幾何学的特徴が与えられている場合には、この特徴を拘束条件として単眼視投影像から位置を検出することができます。先の顔の向き検出はこれに相当します。しかし、手の場合は形状が変化するため剛体として扱うことは出来ません。そこで、私たちは複数のカメラで捉えた手の輪郭像から手の形状および位置を3次元的に検出する手法について検討しています[8]。この検出は、以下の3段階のステップにより行われます。
(1)設置条件が明らかな2台のカメラで、上肢を別々に撮影し輪郭像を得る。この輪郭像の線分に沿って凹凸箇所を特徴点として抽出し、これらの特徴点間を直線で近似する。このようにして、図6のように輪郭像を直線の集合として記述します。
(2)上肢を上腕、前腕、掌、指などの接続によって構成される準剛体であるとし、各要素を図7に示すような楕円底面を持つ円錐体にモデル化する。このモデルを先の画像データと照合し矛盾の無いように変形する。
(3)モデル化された円錐体の3次元位置は、2台のカメラの各投影面における円錐体の中心軸の位置から三角測量の方法で求めることができます。
 この方法の特徴は、手の3次元形状の認識と位置の計測が同時にできること、輪郭像による画像解析であることから画質の影響が少なく撮影条件が厳しくないなどが挙げられます。現在、撮影された画像から輪郭像を抽出し、その輪郭線の凹凸の大きさに応じて直線近似を階層的に行い、直線リストとして記述する手法を明らかにしましたので、今後は円錐体モデルとの照合手法を確立していく予定です。

4.仮想空間の利用技術
 仮想空間を利用するためには、この空間を構成する様々な視対象に働き掛けるための入力方法の開発、及び操作性の評価が必要です。入力方法には、前述の顔の向きや視線の検出、手振りの認識などを利用する方法[9][10]の他入力装置を用いる方法もあります。以下では、主に立体視表示された仮想空間を入力装置を用いて操作する研究について紹介します。
 人間が3次元空間を認識する際に利用している情報は、表2に示すように数多くありますが、認識のための各要因の関与度は視対象までの距離等によって異なります[11]。実際の会議“場”では視対象は比較的近くに存在するため、これらの情報は総合的に利用されその空間が認識されると考えられます。従って、臨場感会議“場”の生成に当たってはできるだけ多くの情報を取り入れて表示することが望まれます。しかし、実際にはディスプレイの制約などでこれらの条件を全て満たす表示方法は有りません。現在の実用化されている立体表示の手法は両眼視差を利用したものが中心です。
 この方法は、視差のある2つの画像を生成し、これを時分割など何らかの方法で、左右の眼に別々に提示するものです。なお、画像生成の際、輻輳や透視変換を正しく再現することが可能です。これだけでも臨場感はかなり向上しますので、仮想空間での作業は可能かも知れません。しかし、この方法では、眼の焦点はディスプレイ画面上に固定されるので眼の調節作用は働きません。また、表示装置の大きさによる視野の制限もあります。従って、現実の世界を見た場合とはやや異なって感じられるため、作業に不都合が生ずることも懸念されます。このように、両眼視差を用いた立体視が3次元仮想空間での作業にどの程度有効かについては、未だ明らかになっていないため、これを調べています[12]
 図8は実験環境です。右眼、左眼用の画像がワークステーションでコンピュータグラフィクスにより高速で生成され、時分割でディスプレイに表示されます。この表示に同期して左右が交互に開閉する液晶シャッター式眼鏡を装着して観測すると表示が立体的に感じられます。
 この装置を用いて画面操作の基本作業である目標にカーソルをあわせる指示操作実験を行っています。図9に示すように、原点から等距離にある各候補点の中からランダムに点を選択し、その位置に図9(a)の様な目標が認識できるように左右の画像に視差を付けて表示します。また、目標を指示するためのカーソルは指示入力装置に連動して仮想空間を動くように同様な手法で表示します。評価した指示方法を以下に示します。
(1)従来の2次元マウスを用いボタンで指示操作面を切り換えてカーソルの3次元位置を制御する方法。(2)空間の位置を直接検出する磁気センサを用いてカーソルを制御する方法。
 実験の結果、何れの方法でもカーソルで目標を正確に指示できることが分かりました。また、指示時間は指示入力装置の自由度に大きく依存するため、仮想空間の操作には直接空間位置を指示できる3自由度のものが向いていると思われます。また、この場合、手を空間に保持する方法などが問題になることも明らかになりました。
 今後は、安定した3次元指示入力方法の確立、表示画像との相互作用の結果を入力装置にフィードバックする方法の開発、更には、仮想空間での直接描画実験、都市の景観設計などをモデルした積木実験、頭部の動きを追跡しその位置から実際に見えるように画像を表示する運動視差モデル実験などを進めて行く予定です。

5.おわりに
 以上、臨場感会議の構想とこれを長期的な目標として研究を進めている主に視覚的な分野のヒューマン・インタフェース技術について紹介しました。画像認識のインタフェースへの応用、仮想空間の利用、何れも夢多くまた発展性のある分野と考えますが、解決すべき課題は多く、その意味で研究はまだ緒についたばかりです。また、臨場感会議を進めるためは、本報告で紹介した以外の技術、例えば、3次元データベースの構築技術、コンピュータグラフィクス、言語の認識・理解技術、曖昧な情報から人の意志を抽出する技術などが必要です。今後、これらの研究との協調を図って行く考えです。



参考文献