中間時試験研究報告を終えて
－ヒューマンコミュニケーションの本質を探る－

（株）ATR人間情報通信研究所　代表取締役社長　東倉　洋一

1．はじめに
　来たるべきマルチメディア通信のインフラを充分に生かすためには、ユーザである人間の情報処理にフィットした技術の確立に重点を置く必要がある。このため、人間の優れた機能に学び、人間の情報生成・処理機構を解明することによって、豊かなヒューマンコミュニケーション実現のための感性に訴えることのできる要素技術を確立することが重要である。ATR人間情報通信研究所では、平成4年3月の設立以来、上記の目的のもとに研究を推進し、平成6年度末で3年が経過した（全研究期間は平成13年2月までの9年）。
　この間、工学、心理学、生理学などの異分野間の壁を乗り超えたトランスディシプリナリ（超分野的）な手法による研究の遂行に務め、情報発信基地としての役割を強く意識した運営を行った。これらの積極的な施策によって、人が人を呼び、情報が情報を呼ぶ好循環な環境を実現すると共に、研究員の雇用に関しても買手市場を形成し、当所計画を充分に達成する研究の進捗に結び付いたものと考える。
　本年5月、当研究プロジェクトへの最大出資機関であるKTC（基盤技術研究促進センター）の規定に基づき、研究内容と進捗状況などをまとめた中間時試験研究報告^（注）を提出した。これに対するKTCの技術評価結果によれば、研究の進捗とともにプロジェクトの運営が高く評価され、今後の研究の一層の進展への強い期待が示された。以下に報告内容を概観する。

2．研究内容
　本研究プロジェクト（試験研究）では、様々な情報が、大脳中枢で生成される過程、神経系によって大脳から末梢（目、耳など）に伝達される過程、更には、音声言語情報、視覚情報、運動情報などとして外界に表現される過程の解明を目指す。そして、その研究成果を利用したコンピュータモデルの構築とヒューマンコミュニケーション要素技術の確立を目的とする。このため、以下の3つのサブテーマを設定した。
（1）音声言語情報生成機構の研究
　生成と知覚（発話と聞き取り）の相互作用、更には、周囲環境まで考慮した新しい視点によって、音声言語情報処理（生成・知覚）機構総体を明らかにし、その成果を取り入れた音声インタフェース要素技術を提案する。
（2）視覚情報生成機構の研究
　視覚環境を総合的に認識・理解する人間の視覚情報処理機構を研究する。脳や神経系におけるイメージや視覚パターンの表現形式、自然な立体視のメカニズムなどを明らかにし、その成果を利用した視覚情報インタフェース要素技術を提案する。
（3）情報生成統合機構の研究
　視覚、聴覚、体性感覚などの異種複数感覚情報の統合的な（マルチモーダル）処理の過程を解明し、その成果を取り入れたマルチモーダル・インタフェース要素技術を提案する。また、人工生命や進化的計算論を方法論とした自律性と創造性に富む新しい情報処理系、新しい機能や構造をシステム自らが獲得・形成する進化システムを提案する。

3．研究活動と成果
　研究の具体化にあたり、研究期間の前期3年間を新しい研究の視点やアプローチによる研究計画具体化の期間と位置付け、研究費の人材への重点投資政策をとった。特に、歴史が浅く研究成果の蓄積が少ない未開拓分野には、適材を世界を集めるとともに、長期的視野に立った人材の育成を開始した。この結果、トランスディシプリナリな研究アプローチに必要なバランスのとれた研究者構成を実現できたことが、活発な研究活動と質の高い成果を生むための原動力となった。研究者の国際化も進み、海外研究者の比率は通年で約30％となった。しかし、これら異質性と流動性に富む研究環境の定着には今後の継続的努力が必要である。
　情報発信基地としての役割を強く意識した運営を行った。学会、国際会議、学術誌への積極的な研究発表は、3年間（平成6年度末まで）で総計619件という発表数で裏付けられるだけでなく、工技院電総研との研究交流による小脳の運動制御機構の研究における理論と整理実験を融合したトランスディシプリナリな成果が、英国科学誌ネイチャーに掲載されるなど、質の面でも高い評価を受けた^[1]。
　主たる研究テーマに関連するワークショップやシンポジウムなどを積極的に開催することによって、研究の成果を世界に問うとともに広く国内外に研究協力ネットワークの構築を行い、このネットワークを活用した研究の加速的推進に務めた。
　「顔と物体認識」に関するシンポジウムを2回に渡って企画・実施した。視覚の計算理論、認知心理学、神経生理学などの分野で世界的に活躍している第一線の研究者の参加を得て、顔の認知に関する国際的な研究ネットワーク作りに重要な役割を果すことができた。また、「音声知覚・生成における生物学的基礎」に関するワークショップを企画・実施した。人間の音声コミュニケーションを支える音声の知覚・生成能力が様々な感覚と密接に結び付いており、人間の総合的環境把握能力の上に構築されているという本プロジェクトの研究視点を国内外にアピールし、音声の知覚・生成研究に新しい流れを生み出すことに成功した。更に、「人工生命の最前線－情報と生命とCGの交差－」と題したシンポジウムの企画・開催（人工生命研究会および並列人工知能研究会との共催）、「進化的計算論に関する国際会議」及び「第4回人工生命ワークショップ（Artificial Life IV）」の両国際会議への積極的成果発表が国際的な関心と注目を集め、当研究所が人工生命研究の世界的拠点の一つであることが国際的に認められた。
　このような施策が、人が人を呼び、情報が情報を呼ぶ好循環な環境を実現すると共に、研究員の雇用に関しても買手市場を形成し、当所計画を充分に達成する研究の進捗に結び付いたものと考える。結果として、当研究所の研究活動と本プロジェクトの研究成果に関する新聞、放送などマスメディアの報道も研究進捗に伴って増加し、平成3年度末から平成6年度末に到る3年間の新聞報道は127件、TV放送は10件を数えた。また、本プロジェクトの成果等に対して、学会等外部団体から13件（19名）の表彰を受けた。主な賞に、平成5年度科学技術庁長官賞（研究功績者賞）、第11回大阪科学賞、1995年度日本文化デザイン大賞（10月受賞）などがある。
　尚、研究成果に関しては、紙面の都合により、極めて限られた内容の一部を具体例として示す［付］に留めることをお許しいただきたい。

4．今後の研究計画
　本プロジェクトで積極的に採用してきたトランスディシプリナリ（超分野的）な研究手法が効果的に働き、研究期間前期の研究成果に結び付いたことを評価し、今後のより一層の充実を図る。
　プロジェクト中期以降の課題である脳・神経系の高次機能の解明に向けて、非侵襲性脳活動計測技術等の研究遂行に必要な技術が成熟に達してきた。総合的な情報処理過程の神経計算論的アプローチによる大胆な仮説と非侵襲性脳活動計測技術による仮説検証を併用する研究手法が有力と考える。また、人間の情報生成・処理機構の解明への具体的アプローチにおいて重視してきた3つの視点（マルチモーダル処理、生成と知覚の相互作用、脳コミュニケーション機構）とともに、一見受動的と思われがちな聴覚や視覚の能動的な働き、人間と機械（コンピュータ）と自然（環境）の共生といった視点を重視する。
　21世紀には、マルチメディア社会のインフラ整備はより一層進展し、コンピュータのハードウェアが人間の頭脳に迫ることが予測される。インフラ整備の完了とハードウェア技術の成熟に調和するソフトウェア技術、インフラの性能を十二分に発揮させ、人間の感性に訴えるヒューマンコミュニケーション要素技術として、本プロジェクトの成果を活用することに照準をあわせた研究の遂行に注力する。

【付：研究成果の具体例】

（1）音声言語情報生成機構の研究
　発声発話機構の研究では、肉声の響を作り出す音声合成技術に向けた発声発話の要素モデルを作成した。磁気共鳴画像（MRI）などの新しい計測手段により、発声発話器官の構造や機能に関する未知の部分を明らかにしたことが、多くの成果をもたらした。
　代表例は、鼻腔の3次元モデルの構築である。鼻腔のモデル化においては、二つの問題があった。第一は、従来、標準とされていた鼻腔の形状データは死体解剖によって得られたデータであり、このデータを使った鼻腔モデルによる鼻音の合成では、満足すべき結果を得ることはできなかった。第二は、左右二つの鼻腔の非対称を考慮したモデルがなかった。MRIを用いることにより、生体の鼻腔の3次元形状の計測が可能となった（図1、図2）。これによって、従来の死体解剖データを塗り替えると共に、左右二つの鼻腔の非対称を考慮したモデルを開発し、このモデルを使って鼻音の合成を行ったところ、肉声の持つ鼻音の音響特徴を再現することに成功した。
　音声パターン神経情報処理の研究では、音声の生成と知覚（話すことと聞くこと）に関して、この分野のブレークスルーとして期待できる新しい実験とデータ解析の手法「変換聴覚フィードバック」を開発した。この手法を使って、発声中の音声の基本周波数（声の高さ）に微小なゆらぎを加えて変換し、発声に現われる影響を解析した。その結果、音声の基本周波数制御における知覚・生成相互作用の存在と基本特性を定量的に示すことができた^[2]。本方法の開発と、新しい知見の獲得、基礎データの蓄積は、音声知覚と生成に対する総合的アプローチを推進する核となる。
（2）視覚情報生成機構の研究
　視覚パターンの生成過程では、運動残効現象を利用した新しい実験による奥行き運動知覚機構の解明、両眼融合視での知覚ひずみの定量的把握など、視覚情報インタフェースにおいて重要な「自然な立体視」のための要素技術の確立にとって充分に有効な研究展開と成果を得た。
　視覚環境の認識理解機構の研究では、環境の認識・理解のための視覚基本情報の抽出について検討した。一つの画像の中で複数の物体の形やその動き等が重なり合った多重・多義的視覚情報抽出の統一的な数学理論を提案・体系化し、種々の視覚情報抽出課題における有効性を実験的に検証した^[3]。　これらの成果は、見ようとする意図に基づいた眼球運動や視点の移動等の行動を伴った視覚、いわゆる意図的（能動）視覚（インテンショナル・ビジョン）の研究等の今後の重点課題に対する基礎検討としても、着実かつ意味のある成果である。
　視覚イメージ認知・生成機構の研究では、3次元物体としての顔の認知モデルに関して、顔を見る角度によって同定能力が変化する顔認識の視点依存性に関する基本的性質を発見した。コンピュータグラフィックスを用いた陰影づけによって3次元形状情報だけを表わしている顔画像を刺激として心理物理学的実験を行った。その結果、顔認識の視点依存性に関する基本的性質（斜め顔を学習した場合には、正面顔や横顔を学習した場合と比較して、学習していない見え方の顔画像に対しても高い同定能力を持つ）を明らかにした。
（3）情報生成統合機構の研究
　学習と行動の神経計算原理の研究において、運動制御の学習の本質に迫る基本モデルの提案を行い、モデルの有効性に関して生理学的、実験的両面の検証を行うことに成功した。
　運動制御の逆モデル（腕の動きから運動神経情報を推定する）学習に焦点を当て、フィードバック誤差学習という新しいモデルを提案した。具体的には、このモデルは、未熟な運動と望みの運動との誤差を減少させる学習機能によって逆モデルを習得し、俊敏な運動も望み通りに達成できる逆ダイナミクスモデルである（図3）。モデルの生理学的検証にも成功した^[1]。
　順モデル（運動神経情報から腕の動きを推定する）と逆モデルの繰り返しによる運動軌道生成のモデルを提案した。このモデルによる最適化原理に基づく「見まね」学習（人の動作を見てまねる）モデルを提案し、けん玉学習ロボットによって、モデルの有効性を検証した（図4）。
　これらの成果は、学術的な質が高いだけでなく、マルチモーダル・ヒューマンインタフェース技術への応用可能性に関しても強い期待を与える。
　脳コミュニケーション機構の研究では、進化システムや人工生命などの未開拓の分野に挑戦し^[4]、ソフトウェア進化とハードウェア進化に関して、具体的な可能性を示すことに成功した。
　自己複製機能を基に新しい機能を自律的に生成・獲得するソフトウェア進化の可能性を検討するため、突然変異と自然淘汰をモデル化した仮想環境を超並列計算機上に構築し、計算機シミュレーションによって、新しい機能を自ら生成・獲得するプログラムの進化が、自然淘汰によって可能であることを実証した（図5）。
　セルオートマトンをベースに、任意のニューラルネットをハードウェアとして発生・成長・進化させる画期的なアイデアCAM-Brainを提案し、動作シミュレーション実験により、原理的な有効性を確認した（表紙および本紙12-13ページ）。
　高級言語を用いた記述性と了解性に優れ、かつ、ソフト／ハード／行動の進化実験に幅広く適用できる進化シミュレータの構築を進め、言語文法を書き換え規則に焼き直すことにより遺伝的操作を可能とする、プロダクション遺伝的アルゴリズムを提案した。
　これらは、コミュニケーションの中枢である脳と同様に自律性や創造性に富む新しい情報処理系の創出に向けた基礎検討として質の高い成果である。

中間時試験研究報告を終えて －ヒューマンコミュニケーションの本質を探る－

中間時試験研究報告を終えて
－ヒューマンコミュニケーションの本質を探る－