知能映像情報通信の基礎研究




(株)エイ・ティ・アール知能映像通信研究所 代表取締役社長 中津 良平



1.研究の狙い

 本来のコミュニケーションは、人間同士が向かい合って、音声・身振り・手振りなどを用いて自分の感情・意思を相手に伝えるインタラクティブで全感覚的なものです。通信の歴史は、空間と時間をこえて相手とあたかも膝を突き合わせて話し合っているかのような臨場感あふれるコミュニケーションを可能にしようとしてきたものであるといえます。印刷術の発明は空間・時間をこえたコミュニケーションをある意味で実現しました。しかしながら、本来のコミュニケーションのもつインタラクティブ性が失われ、一方向的なものとなりました。また、用いられるメディアが文字に限定され、本来の全感覚的なコミュニケーションからすると大きい制限を受けることとなりました。電話の発明により、距離を超えたインタラクティブなコミュニケーションが可能になりました。したしながら、用いられるメディアが音声に限定されるという制限があると共に、時間の克服に関しては不十分です。このように、従来の通信は、用いられるメディアの種類が限定されていると共に、距離・時間の克服が不十分であるという2つの制限を持っていました。
 近年の電気通信技術・コンピュータ技術の急速な発展により、従来の文字・音声を対象とした通信に加え、大量の映像情報の蓄積・伝達が可能になりつつあります。このことは、文字・音声に加え映像・音などのメディアをふんだんに利用することにより、距離・時間さらには言語・文化の壁をこえた全感覚的なコミュニケーションを可能にするという通信の究極の目標を実現できる可能性が生じてきたことを意味しています。マルチメディアに対する期待が急速に高まりつつあるのはこのような状況を反映したものといえます。

2.研究計画

 上のような状況のもとで、1995年3月に7年間の研究プロジェクトとして設立されたATR知能映像通信研究所では、マルチメディアを駆使して従来なかった新しいコミュニケーションの方式を創出することを狙った、マルチメディア通信技術の研究を行っています。
 研究の狙いは2つあります。1つは、距離が離れた場所相互でface-to-faceに代表される自然なコミュニケーションを実現しようとするものです。従来の通信では相手側の情報を正確に伝達・再現することのみをめざしてきました。これに対し、人間同士の相互理解がコミュニケーションの本来の目的であるとの認識に立ち、コンピュータが積極的にコミュニケーションにかかわり、相互理解を援助することをめざします。これは、距離・時間をこえた相互理解の達成という通信の究極の目標に向けた研究を行なうことを意味します。もう1つは、現実のコミュニケーションの限界を超えた新しいコミュニケーションの創出につながる技術を追及することです。映像・音やその他のさまざまなメディアを駆使することにより、現実にはない環境を作り出したり、現実の環境では考えられなかった新しい通信の可能性を開くことが期待されます。
 具体的な研究内容、および、これらの研究の成果として得られる通信方式のイメージについて説明します。

(1)コミュニケーション環境生成技術
 コミュニケーション環境生成は、臨場感あふれるコミュニケーションの場を生成したり、現実にはないようなコミュニケーションの場を生成する技術を研究します。従来の臨場感研究では、遠隔地間のコミュニケーションを対面型のコミュニケーションに近づけるため、通信相手の姿形・声や背景の映像・音などを正確に伝送・再現することをめざしていました。現状の技術はまだ十分とはいえないため、眼鏡なしで3次元映像を生成したり、人物像のみならず、背景の複雑な物体をCGで生成・制御する研究等を行う必要があります。それと共に、現実世界におけるコミュニケーションを超えるために、従来なかった新しいコミュニケーションの環境を生成することも試みます。具体的には、現実とは異なるが人間の感覚・感性に強く訴える環境の生成を試み、このような超リアルな環境によって現実世界では不可能な新しいコミュニケーションの可能性を探ります。
 図にコミュニケーション環境生成技術の適用例を示します。ここでは、リアルな3次元の人物像や背景映像の生成、映像と同期した3次元の音場の生成、さらには、おとぎ話の世界や現実にはない世界などの超リアルな環境の生成とそれらとリアルな環境の自然な融合などが実現されており、このような仮想的なコミュニケーションの場において遠隔地の通信相手との意志疎通・相互理解が図られます。

(2)エージェントインタフェース技術
 人間同士のコミュニケーションのプロセスをコンピュータが支援することによって、コミュニケーションを促進・活性化し、相互理解の促進を図ります。具体的には、コンピュータの作り出した仮想的な人物(エージェント)を介在させることによりコミュニケーションの支援をさせることを狙っています。このためには、人間の姿・形をしたエージェントを生成すると共にその動作を制御する技術、エージェントが人間の会話を理解する技術、およびその結果に基づいてコミュニケーションを活性化する技術、を研究する必要があります。たとえば、専門家の議論の際、少し違った観点からの意見が出ると議論が活発化することは私たちが日常しばしば経験することです。人間と同様の機能を持つエージェントを作ることは極めて困難ですが、このように人間の機能の一部の代行によってもコミュニケーションの促進・活性化を図ることは可能であり、そのような立場から具体的なエージェントの機能実現を狙っています。
 図にエージェントインタフェース技術の適用例を示します。ここでは、コンピュータの作り出したエージェントが遠隔地間のミーティングを支援する様子を示しています。

(3)イメージ表現技術
 イメージ表現は、私たちの持つ「イメージ」を言語を介さずにダイレクトに映像や音などのメディアを用いて表現し、相手に伝えようとするものです。日常生活では、言葉で言い表しにくい考えを図などを使って相手に伝えようとすることがしばしばあります。また、感情・色彩などは言葉では伝達が困難である場合がよくあります。これに対しアーティストは、音楽・絵画などの手段を用いてイメージ・概念などを相手に伝える能力に優れています。このような能力を一般の人が使えるようになるとコミュニケーションはより豊かになると考えられます。そのためにはまず、イメージを表現するための種々の映像・音のデータベースが必要です。さらに、これらを自由に変形・合成する技術を開発することにより、頭の中にあるイメージを容易に表現出来る方法を開発します。
 図にイメージ表現技術を用いたアプリケーションの例を示します。これは、コミュニケーションを行う者同士が相互の持つイメージを言葉に加え映像や音などのメディアを積極的に用いて表現・伝達しようとしている様子をあらわしています。

(4)コミュニケーションの人間科学
 以上述べた研究を進めるにあたっては、人間がコミュニケーションをどのように行なっているかを理解することが必要です。
 まず、イメージの伝達が重要な研究テーマになっていることから、映像・音と人間のイメージの関連を研究することが必要です。種々の映像・音メディアを被験者に提示し、それらが被験者に与えたイメージを心理学的手法により測定することにより、メディアとイメージの関係を明らかにすることをめざします。
 次に、コミュニケーションの行なわれる環境が人間に及ぼす影響を明らかにすることをめざします。また、コミュニケーションにおける人間の行動原理を明らかにすることも必要です。社会学や心理学の分野では、現実の環境のもとでの人間の行動を観察・分析する研究が行われていますが、ここではむしろ従来なかった環境や超リアルな環境のもとでの人間の行動原理を明らかにすることをねらっています。コンピュータの作り出した非現実が近い将来我々の生活に入ってくることを考えるとこのような研究の必要性は高いと考えています。

3.研究の立ち上げ状況


 1995年3月の研究所設立以来、上記の狙い・研究計画のもとで、具体的な研究の立ち上げを行ってきました。その際、重点項目の1つとして、芸術、心理学、社会学など異分野とのcollaborationにより新しい研究領域を立ち上げることに力を入れてきました。以下では、具体的な取り組みの例として、アートと工学の共同研究の状況について述べます

(1)基本的な考え方
 現代ではアートと工学は正反対のものという見方が強いですが、本来は一体のものでした。種々のメディアが自在に扱えるマルチメディア時代において再びアートと工学が統合できる可能性がでてきました。
 1つの動きは工学からアートへの接近です。人工知能研究の主たる目的は人間の知的活動をモデル化し、計算機で代行することです。しかながら、知的活動を論理的な処理のみで置き換えることは困難であると考えられます。人間の代表的な知的活動であるコミュニケーションを例にとると、従来の音声認識や画像認識などの研究は、言語を用いたコミュニケーションの仕組みを解明し、それを工学モデルで実現することに精力を注いできました。しかしながら、コミュニケーションにおいては、言語の使用の他に、インタラクション、リアクションのようなより基本的な行為が重要な働きをしています。インタラクションは、うなずいたり適切なタイミングで相槌をいれたりというコミュニケーションにおける基本機能です。リアクションは、音の来る方へ振り向くといったより基本的な機能です。工学者はこれまでこのような機能に注意を払ってこなかったきらいがありますが、人間らしい振る舞いをするエージェントを作ろうとした場合、これを取り入れることは不可欠です。しかも、これらの機能が感性・感情と密接に結び付いているため、それらを主として扱ってきたアートとの協力が必要になってきます。
 一方で、アートの世界でも新しい動きが出つつあります。それは作品と観客のインタラクションが可能なインタラクティブアートの出現です。古典的なアートでは作者から観客へ作品という媒体を介して一方向的にメッセージが流れていたのに対し、インタラクティブアートでは観客の動きや声によって作品が変化することにより、作家と観客の間の双方向のコミュニケーションを実現しようとしています。これは、コミュニケーション工学とアートが同じ問題意識のもとで仕事を進めていることを示しています。しかも、工学の取り組みが論理的なコミュニケーションを主たる対象としているのに対し、アートは主として感情・感性的コミュニケーションを扱うという互いに相補的な関係にあり、相互に協力しあうことにより従来なかった新しいコミュニケーションの方式を生み出す可能性が大きいと考えます。このような考え方に基づいて、CGアーティストを客員研究員として採用し、具体的な取り組みを開始しました。
 具体的な研究の例を述べます。

(2)インタラクティブエージェント
 人間とインタラクション可能なエージェントの構築を目標としています。従来の研究では、音声やジェスチャーを理解する機能を付与することが研究の目標でしたが、ここではより基本的な機能と考えられる感情の認識機能を持ったエージェントの開発をめざします。これは、人間が意味内容の認識以前に感情の認識を行っており、この基本的なコミュニケーション機能の上に意味内容を理解する機能が付加されていると考えると、自然なアプローチであるといえます。また、抽出された感情に応じてエージェントが人間的な反応をすることにも重点をおきます。感情抽出の部分は音声の分析・処理技術を活用し、エージェントの反応・ふるまいの部分はアーティストがCGの設計・制作を行うことにより、アーティストの感覚・感性が反映されることを狙っています。でき上がったエージェントの例を図に示します。このエージェントは、喜怒哀楽などの7つの感情を認識しそれに反応して人間らしい種々のふるまいを行うように設計されています。

(3)インタラクティブ環境
私たちは、ビジネスに関連する話は会議室で、友達との会話は喫茶店で、家族とのだんらんは居間でというようにコミュニケーションの内容に応じて環境を選んでいます。これは、私たちがコミュニケーションに環境が大きな影響をもつことを無意識に知っており、コミュニケーションの内容に応じて環境を選択していることを意味しています。この考え方を発展させ、マルチメディア技術を用いてコミュニケーションの内容に応じてリアルタイムで変化する環境を実現することにより、より豊かなコミュニケーションが可能になると考えられます。
 インタラクティブ環境の一例として「MIC Exploration Space」を構築中です。図にあるように離れた場所にいる人達がそれぞれのスクリーンの前に立っています。スクリーンには2人の3次元の映像が映し出されています。お互いが身振り手ぶりを交えてコミュニケーションをすると、それに応じてスクリーンの中で3次元の仮想植物や仮想生物が成長し、姿を変えます。これによってあたかも3次元の仮想環境の中で環境と一体となって相手とコミュニケーションをしているかのような感覚を味わうことができます。これは、従来のテレビ会議が、言葉の内容を伝達することのみを重視した、いわばビジネスに使われることのみを考えたものであったのに対し、コミュニケーションによる感情の共有、相互理解の面に着目してこれをサポートすることをめざした新しいテレビ会議の姿を示したものということができます。

4.おわりに

 マルチメディ技術は私たちの生活に大きな影響を与えると考えられています。これは一方で負の影響を及ぼす恐れもあります。例えば、ゲームやバーチャルリアリティの技術動向からすると、コンピュータの作り出した非現実が今後私たちの生活に必然的に入ってくる機会が増加すると予想されます。それらを野放しにしておくのでなく、現実を超えた新しいコミュニケーションの形態や、それが私たちの生活にいかにかかわるかを検討しておくことの意義は大きいと考えています。ATR知能映像通信研究所では、そのような観点も踏まえながら新しいコミュニケーションの創出をめざした研究を進めて行きます。


プロジェクト概要(予定)

試験研究期間:1995年3月〜2002年2月(7年間)
試験研究費総額:123億円