動きの情報が大切な顔と声のコミュニケーション



人間情報科学研究所 視覚ダイナミクス研究室 蒲池 みゆき



1.はじめに
 私たち人間は、顔を見ること、声を聞くことによってさまざまな場面での円滑なコミュニケーション活動を行っています。私たちの研究室でも、人間のコミュニケーション活動を探るため顔や声を中心として心理学的、工学的アプローチによる研究を進めています。特に今回は、心理学実験を通し、コミュニケーション場面で、人間が相手から受け取っている情報と、その情報を用いて行われる知覚・認知過程の特性を探る研究の動向をご紹介します。

2.顔の「静」と「動」

 顔は動くものであり、声も時間と共に変化を伴うダイナミックな特性をもつ、ということは少し興味をもって考えると誰でも思いつくことです。ところが、顔は写真を一枚見せただけでも「男性か女性か」「年齢はどのくらいか」「知り合いかどうか」「知っているなら、誰か」という情報を、十分に伝えることができる、という特殊な性質をもっています。視覚研究者として言えば、「基本的に二つの目があり、その下に鼻、口」という同じ静止パターンの微妙な違いから、このようにさまざまな処理を瞬時に行う能力を持っている人間の処理システムは、特異的だといえます。このため、顔の研究分野は、静止画から得られる情報に特化して発展を遂げたといっても過言ではありません。
 このような静止顔パターンを使った人間の処理機能については、主に「人物の同定」「表情」「年齢などの属性」に関して、二次元または三次元画像を使って研究が進められました。
 これらに対して、私たちのプロジェクトでは顔の「動き」に重点をおいた研究を行っています。
 前述したように、一枚の顔写真からでも情報の受け取り(コード化)が可能な範囲は広いといえますが、その人間の処理機能をさらに高めるために動きの情報が必要な場合、もしくは、静止情報のみではカバーできないために動きの情報が必要な場合が存在します。例えば、「発話内容の聞き取り」や「表情の変化」「目線などによる注意方向の変化」などがそれにあたります。この、顔の動的な情報に注目することで、顔から得られるもう一つのモダリティ情報である、「声」とのマッチング問題へと研究を発展させることが可能になりました。

3.顔と声
 声の知覚的研究分野では、主に「発話内容の聞き取り」が重要となっています。有名な例では「マガーク効果」として知られるように、唇の動きの有無が声の知覚に影響を与えることがわかっています[1]。例えば、「ga」といっている顔を見ながら「ba」という声を聞くと、「da」に近い声が知覚されるという不思議な現象が起こります。ここから分かることは、私たちは、見えるもの、聞こえるもののそれぞれから得る情報を個別に理解しているのではなく、モダリティ間の統合を行いながら認識を行っているということです。
 一方、顔と声を組み合わせるという人間の処理能力は、発話内容の聞き取りに限られたものではありません。私たちは、「顔と声の人物同定マッチング」に関する研究を進めています。これまで、人間の顔からの人物同定過程については、前述したように静止画を用いた研究が中心でしたが、近年では、人の顔の動き情報によって、知り合いの顔が特定できるという研究が進んでいます。例えば、バイオロジカルモーションと呼ばれる、顔の表面に付加した光点の動きを見せるだけで、あるいは、白黒に二値化した動画像を見せただけでも、人物の特定は可能です。
 私たちはさらに、全く知らない人の顔の動きだけを見せ、その後に声を聞かせることで、同一人物かどうかの判断は可能か、もしくは、その逆は可能か、という実験を行いました[3]。この研究で興味深いのは、顔だけ、あるいは声だけ、という単一モダリティから入ってくる情報が、別のモダリティから入ってくる情報と、時間をずらしても照合できること。さらに、個人を特定するような情報は「顔と声」の両者に含まれていて、情報を共有できる、という点にあります。さらに、モダリティ間の情報マッチングが可能なのは、顔が動画である場合のみで、静止画で共有できる情報は少ない、という結論に達しました(図1)

4.人の視線
 2003年度から総務省「戦略的情報通信研究開発推進制度」による委託研究「視線知覚・制御モデルの研究開発」を開始しました。人間の白目の部分は、特に他の霊長類には見られないような瞳孔とのコントラストを生み、「視線」の方向を検出しやすいパターンであるともいえます[4]。そもそも、相手の視線方向を、どの程度正確に検出できるのかをご存知でしょうか。例えば、図2を見てください。実は目の部分は全く同じなのですが、違う顔向きと組み合わさることで、左の顔は自分より右側を、右の顔は自分をまっすぐ見ているように感じられます。このように、視線は、目の部分のみから検出される方向だけではなく、頭部全体あるいは体の向きによっても変化します。今後、ダイナミックな環境下で、人間が視線をどのように検出しているかについて研究を進め、自然で最適な視線を提示できるインタフェース技術の基盤を確立したいと考えています。


参考文献