あなたの表情を理解します
−実時間表情検出・再現−



1.はじめに
 異なる場所にいる人々が、あたかも一つの場所に集合しているような感覚で会議や協調作業を行える環境を提供することを目的に、私達は臨場感通信会議システムの研究を進めています[1]。臨場感通信会議システムでは、視点の変化に応じた表示を可能とするため、コンピュータグラフィックス(CG)技術により生成された仮想空間に会議参加者の3次元像(3次元人物モデル)を配置し、立体ディスプレイに表示します。自然な人間同士のコミュニケーションを実現するためには、参加者の表情変化を実時間で検出し、3次元顔モデルにおいて再現する必要があります。
 当研究所で従来開発されたシステム[2]では、実時間で表情検出をするためにマーカを会議参加者の顔に貼付する必要がありました。また、再現される表情の自然性にも問題がありました。これらの問題を解決するために最近我々が新しく開発した、マーカの不要な実時間表情検出法、および忠実な表情再現法について紹介します。

2.実時間表情検出・再現の原理と従来システムにおける問題点

 実時間で会議参加者の表情を検出し、3次元顔モデルにおいて再現する処理は、図1の(1)〜(3)で示される3つのモジュールから構成されています。以下に、各モジュールの概要と問題点について述べます。
(1)顔の3次元モデリング
 人物の顔の3次元モデリングは、3次元(3D)スキャナ[2]図2)等を用いて会議に先立ち予め行っておきます。3Dスキャナは、人物の周囲を回転しながら、形状情報と色彩情報(カラーテクスチャ)の両方を同時に獲得します。この形状情報から、人物の顔の形状を細かな三角形(三角パッチ)の集合で近似する3Dワイヤーフレームモデル(3D WFM)を作成します。そして、カラーテクスチャを3D WFMにおける三角パッチに適宜マッピングします。
(2)実時間表情検出
 表情の検出は、ビデオカメラで撮影した顔画像から画像処理により行うのが理想的です。しかし、実時間性と処理の安定性の双方を満足するのは非常に困難でした。そこで、我々の従来システム[2]では、会議参加者は小型のビデオカメラを固定したヘルメット(図3)を破ることにより、顔の向きによらず常にカメラが顔に対して相対的に同一の位置にあるようにし、画像処理の負担を軽減していました。また、参加者の顔にマーカを貼付し、顔画像中で追跡することにより、実時間表情検出を実現していました。しかし、マーカを顔に貼付するのは自然なコミュニケーションの大きな阻害要因でした。
(3)実時間表情再現
 表情検出結果に基づいて3D WFMを変形することにより、3D顔モデルにおいて表情を再現します。我々の従来システムでは、数種類のモーションルールを予め定義しておき、マーカの追跡結果を3D WFMの変形情報に変換していました。しかし、モーションルールに定められていない入力に対する再現性が悪く、表情再現の忠実度に問題がありました。

3.マーカ不要の表情検出と忠実な表情再現

(1)マーカが不要な表情検出

 参加者がマーカを顔に貼付せずに、ビデオカメラから取り込んだ顔画像から表情検出を実時間で行うため、顔画像の周波数領域変換を利用する手法(図1)を我々は提案しています[3][4]
 人間の表情が表れる顔の部分として、目、口、額等があります。これら顔要素の表情変化に伴う動作により、周波数領域に特定のパターン変化が現れます。例えば図4のように、目の動きに注目してみると、周波数領域では目が細くなるに従って垂直方向の高域成分が増加し、目を大きく見開くことによって水平方向の高域成分が増加することになります。このように顔要素の動作に従って現れる周波数成分の変化(無表情状態からの)を実際の表情筋の動きに変換できれば、マーカを用いずに表情変化を検出することが可能となります。そこで、従来マーカか貼付されていた皮膚表面の位置を仮想マーカと呼び、周波数成分の変化を、顔画像における仮想マーカの動きに変換することを考えます。具体的には、遺伝的アルゴリズム[5]を用いて仮想マーカの動きを、周波数成分の変化に関連付ける多項式を求めておきます。なお現在、周波数領域への変換には、MPEG, JPEG等の画像符号化に用いられているDCT(Discrete Cosine Transform)を用いて実時間を実現しています[4]
(2)忠実な表情再現
 任意の表情を再現するために、各種表情表出時の顔形状の3次元計測結果を利用(図1)する手法を提案しています[6]図5に示すように、人間の表情表出に関連する主要な表情筋の動作を全て網羅するような表情(図5では無表情を含めて9種類;以後「基本表情」)を選び、顔の形状の3次元計測を行います。即ち、顔に多数のドットを描き、3Dスキャナにより各基本表情表出時の各ドットの無表情からの3次元変位ベクトルを求め、ビデオカメラからの顔画像に基準ベクトルとして投影しておきます(図6ではS0〜Sn)。表情再現時には、表情検出系からの仮想マーカの移動ベクトルXに対して、Xを挟む基準ベクトルSa、Sbを見出し、Xをこれらの線形結合和で表現します。これに基づき、その仮想マーカに対応する3D WFMの頂点の3次元移動ベクトルを合成します。仮想マーカに対応しない頂点については、仮想マーカの結果を伝搬して移動ベクトルを求めます[6]。この手法により、原理的には任意の表情に対応できます。図7に表情再現例を示します。

4.むすび
 臨場感通信会議における実時間表情検出・再現について我々の最近の研究を紹介しました。現在、表情検出を24フレーム/秒、表情再現を、20フレーム/秒の速度で実現しています。今後の課題としては、処理の高速化、高精度化および不特定多数の人物への対応が残された課題です。

参考文献


Copyright(c)2002(株)国際電気通信基礎技術研究所