人の振る舞いを視る:
非同期多視点観測による動作認識



1.はじめに
 我々は、人間の動作を画像処理により非接触で検出する手法について検討しています。非接触の動作検出は、体験を伝える次世代メディア[1]の入力手段として利用できるほか、装置着脱の煩雑さがないため計算機とのインタフェースとしても有効です。
 本稿では、非同期多視点観測を利用した複数のカメラによる人物追跡システム[2]について述べます。我々のシステムではカメラが自分のペースで観測することを可能にしています。そのため、例えば各観測の処理時間にばらつきがあった場合にも、全体の処理が滞るような事態を避けることができます。また、視点間の同期を行うための手段が不要になるためシステム構成が簡素化できます。これらの特徴により、システムを拡張・大規模化することが容易になります。本システムを大規模化することで、多数の人の振る舞いを一度に捉えたり、広範囲を移動する人を追跡したりすることが可能になります。
 次節以降では、非同期多視点観測を利用した人物追跡システムの概要と同システムを使った人物追跡・動作認識の例を示します。

2.人物追跡システム
 人物追跡システムの構成を図1に示します。このように、本システムは独立した複数の処理ノード(計算機)からなる分散システムです。
 処理ノードには、カメラごとの入力画像を処理する多数の観測ノード、各観測ノードからの情報に基づき新たに追跡エリア内に現れた人の検出を行う発見ノード、観測ノードに指示を出しながら個々の人物の追跡を行う追跡ノードの3種類があります。
 各観測ノードではカメラで撮影された画像を解析し、解析の結果得られる特徴量(画像上の人の位置や服の色など)を追跡モデルと対応づけ、観測時刻の情報とともに追跡ノードに送ります。追跡ノードでは、観測ノードから送られる観測情報を時系列で統合します。追跡エリア内に新たに現れた人についての特徴量は観測ノードから発見ノードに送られます。発見ノードでは送られてきた情報をもとに、新たに現れた人の初期位置等を計算し、追跡ノードに送信します。追跡ノードでは新規人物の追跡モデルが生成されます。
 これらの処理においてノード間でやり取りされるのは画像特徴や観測時刻等の少量の情報のみであり、通常の計算機ネットワークを介して通信が行われます。カメラ間の同期等のための新たな配線は必要ありません。
 現在の実装では、各観測ノードの平均的な処理速度は毎秒5〜6フレームです。

3.人物追跡・動作認識の例

 図2に本システムを使った人物追跡の例を示します。この例では5台の観測ノードを使用しました。図中、破線は被験者に指示した移動経路を、実線は追跡結果をそれぞれ示しています。追跡誤差は10cm以下であり、安定した追跡が行われていることがわかります。
 図3は追跡モデルの更新に用いられた観測について、隣接する観測間の時間差の分布を示しています。本実験における観測間隔の分布は約50ms付近にピークを持ちます。前述の通り各観測ノードの処理速度は毎秒5〜6フレームですが、独立に動作する複数の観測ノードの情報を統合することによって、追跡モデルの更新を密に行えていることがわかります。高頻度のモデル更新は、時間軸方向の変動を捉えようとする追跡処理にとって有利です。
 次に本システムによる動作認識の例を図4に示します。現在の実装では、人の位置や速度の情報以外に、歩行(Walking)、停止(Standing)、着座(Sitting)の3状態を検出します。図4は各時刻において検出された被験者の状態を示しています。検出された状態は人の位置・速度とともに遂次表示されます。今後、観測モデルの精緻化によって、より詳細な動作認識を可能にしていく予定です。

4.まとめ
 本稿では、非同期多視点観測を利用した人の動作認識手法について述べました。非同期型システムでは、視点ごとに独立した観測をすることによってシステムの実装を簡素化し、処理効率・追跡精度ともに向上することができます。同期型システムに比べ、システム規模の変化に柔軟に対応可能です。我々は、より使いやすく安定した動作認識を目指し、画素値分布特徴に基づく人物検出処理や多数のカメラの自動校正法などについても検討しています。
 今後の展開として、本研究を人の興味・意図・体験を理解できるシステムの開発につなげていきたいと考えています。


参考文献


Copyright(c)2002(株)国際電気通信基礎技術研究所