顔で話す



1.はじめに
 以前、テレビ会議・テレビ電話システムの開発をしていた研究者から聞いた話で、「視力の低い人が眼鏡をかけたらテレビが良く聞こえるようになった」ということがあります。眼鏡をかけてテレビが良く「見える」ようになるのは当然として、よく「聞こえる」ということは、映像情報はやはり重要な何かを相手に伝えているのだ、というのがその人の決まり文句でした。
 私にはそこまで極端な経験はありませんが、それに近いものとして、普段英語で会話をしている米国人と電話で話すときに(もちろん私はかたことの英語しか話せませんが)、面と向って話すときよりも"Pardon?"と聞き返すことが多くなる、といったことがあります。常に英語で四苦八苦している私が英語の読唇術に秀でているというわけでは当然ありませんが、やはり「音」として耳で聞く以外の発話に対応した映像情報が、対面会話のなかには含まれているのです。
 ここで人間が声を発する仕組みを簡単に説明すると、(1)肺から送られた空気が喉の声帯で振動を与えられ、(2)次に喉から唇・鼻に至るまでの声道と呼ばれる領域で音色が付加され、(3)さらに舌や唇により必要に応じて摩擦音や破裂音などの効果を加えられて、(4)最終的に声として発せられる、といったようになります。
 この声道は顎、舌、唇などを動かすことによってさまざまな形に変化し、この変化により複雑な音色の変化を産み出し、声を特徴づける大きな要因となっています。この声道の形を変えるための顎、舌、唇の動きが、顔の表面的に観測できる顔面の皮膚の動きや顔全体や唇の形状変化として現れ、対面会話の際の音声と同期した映像情報として聞き手に送られているのです。
 私たちの研究は、そういった対面会話の中に存在する、耳で聞く以外の情報で、発話と強い関わりを持った情報を「顔の動き」の中から得るという視点から始まっています。

2.顔で話す
 では、その「顔の動き」には具体的にどの程度「話す」ことに関連した情報が含まれているのか? という疑問が出てきます。そこで私たちは、米国人および日本人被験者について、音声信号と声道運動そして顔面運動の三つについて、それらの相関関係を調べてみました。
 声道運動に関しては、電磁場を利用した装置を用いて発話中の舌、唇、下前歯の中央に配置した米粒程度のコイルの位置を計測することにより、その形状変化を捉えることができます。また顔面運動については、赤外線ダイオードを利用した三次元位置計測装置により、発話中の顔の動きを計測することができます。
 そしてこれらの計測結果から、まず声道運動と顔面運動について、一方の動きのみから他方の動きをどれだけ予測できるかを調べました。その結果、顔面運動からは声道運動の約96%を、逆に声道運動からは顔面運動の約77%を予測できることが分かりました。
 さらに、顔面運動から音声情報(具体的には線スペクトル対と呼ばれる手法に基づくパラメータ)を約77%予測可能であることが分かりました。さらに顔面運動と声道運動の両方を用いれば約82%まで予測できることが分かりました。
 つまり、かなりの声の情報を顔の動きから予測できるということです。まさに人間は顔でも話をしているわけです。そしてその動きから、言ってみれば読唇術ならぬ読「顔」術によりその声を予測できるのです。

3.顔の変形のエッセンス
 さて、ここで話を発話の際の顔の形そのものに限ってみます。ある人の基本的な顔の形をいくつか知ることができれば、その人の顔がどのような変形の成分を元にそれぞれの形状を構成しているのかを主成分分析と呼ばれる方法で数学的に調べることができます。つまり発話の際の色々な顔の形状も、突き詰めればいくつかの基本的な変形の成分に分解できるということです。
 これまでに、日本人と米国人被験者の「あ、い、う、え、お」などの発話時の基本形状について調べたところ、これらの顔の変形を実現する成分は、どちらも同じ傾向があることが分かっています。(解剖学的には同じ基本構造を持っているわけですから、同じような顔・口形状を作れば同じ傾向が得られるのは当たり前といえば当たり前ですが。)例えば、第一の成分は顎の上下による口の開閉、第二の成分は唇の丸めによる口の開閉といったもので、これら二つの変形を使うだけでも解析に用いた基本形状について90%程度は実現できることが分かっています。やはり顎と唇の動きが重要であることがここからも分かります。さらに第三から第五の成分までを用いれば99%近く実現できます。
 実際この得られた変形の成分を用いれば容易に別の発話の顔形状も作ることができます。以前は「あ、い、う、え、お」などの顔形状を直接用いて、それらの合成から、別の発話の顔の形状を作っていました。しかしこれは例えて言うと、ある味のスープに似たスープを作るために、既に調味料が別々の割合で加えられたスープを混ぜ合わせて作ろうとするようなものです(形状合成の場合はスープを作る場合とは違い、足すだけでなく引くことができるのがみそですが)。それよりは、始めから調味料の比率を調節してスープを作るほうがまったく簡単なように、変形の成分の割合を調節して簡単に目的の顔を作ることができます。
 現在私たちのテーマでは発話時の顔形状のみを対象としていますが、同様の解析手法は感情を含んだ顔にも適用できる可能性があります。将来的にはこれらの表情形状も含めた変形成分の抽出も考えています。

4.他人の顔で話す?
 さてここで、私たちの調べた結果を使って簡単な遊びができます。まったくの他人同士でも、先に述べた顔の変形に同じ傾向があるのならば、ある人の顔の変形をまったく別の人の顔に投影させることができるのではないでしょうか? 実際、私たちは試験的に共通性の高い上位の変形成分を用いて米国人被験者と日本人被験者との音声と動きの相互入れ替えによるコンピュータグラフィックス:CGによるアニメーションを作成することができました。
 まだ個人の変形の特性、例えば口の聞き方などの微妙な調整は必要ですが、CGでは実に容易に他人の顔で話すことが可能となっています。特にこの技術は人の顔に限らず、アニメーションのキャラクタ等にも応用が可能で、将来の映像製作などにも大きく貢献できるのではないかと考えています。  さらに、顔の動きから違和感ない音声を生成できるようになれば、例えばAさんの発話時の顔の動きを調べ、そのAさんの顔の動きからBさんの顔の動きを作り出し、その作り出されたBさんの顔の動きからBさんの声とCGの映像を作れるようになります。つまりAさんの話すタイミングで、Bさんの顔と音声を合成できるようになるのです!
 そこまでできてしまうと、テレビや映画でいったい本当は誰が裏で喋っているのか分からなくなりますし、もしそういった技術が悪用されたりすると大変なことになります。何しろ、データさえ入手できれば、総理大臣や大統領のCG顔でどんな言葉でもその人の声で喋らせることができるのですから。幸いなことに(私たち研究をしている側の者にとっては残念なことに)、今の段階ではAさんからBさんへの動きの投影や推定の誤差、合成顔CGの映像品質、また顔から予測できる音の品質から言っても、顔と声の完璧な入れ替えは実現できていません。

5.おわりに
 今回は他人の顔で話すといった映像産業向けの応用例を挙げましたが、この「顔で話す」という技術は、他にもノイズの多い環境下での音声認識の補助情報入力などにも使えるのではないかと考えています。
 さらに、私たちはこのCG顔アニメーションを用いて、発話における映像情報が人の認識に与える影響について海外の研究機関と共同で研究に取り組んでいきます。



Copyright(c)2002(株)国際電気通信基礎技術研究所