第2回中間時試験研究報告を終えて
−ヒューマンコミュニケーションの本質を探る−

(株) ATR人間情報通信研究所 代表取締役社長 一ノ瀬 裕



1.はじめに
 ATR人間情報通信研究所は1992年3月に設立され、2001年2月までの9年間にわたって「ヒューマンコミュニケーションメカニズムの研究」を行う試験研究プロジェクトです。このプロジェクトでは、視覚・聴覚などの五感から表情・ジェスチャーまでのあらゆる機能を特に意識することなく複合的に使いこなしている人間の優れた機能に学ぶという視点に立って、その情報生成・処理機構を研究し、豊かなヒューマンコミュニケーション実現のための要素技術を確立することを目的としています。具体的には、様々な情報が、人間の大脳中枢で生成される過程、神経系によって大脳から末梢に伝達される過程、さらには、音声言語情報、視覚情報、運動情報などとして外界に表現される過程を解明し、そのコンピュータモデルを構築することです。このため工学、心理学、生理学などの異分野間の壁を乗り超えたトランスディシプリナリ(超分野的)な研究体制により研究を遂行しています。
 本研究プロジェクトへの最大出資機関である KTC (基礎技術研究促進センター) の規程では、研究内容と進捗状況などをまとめた中間時試験研究報告書を一定期間ごとに提出することになっており、第1回目の報告書を1995年5月に提出しました。この内容については、ATR Journal 21号 (1995年秋) に掲載しております。
 その後も順調に研究を進捗させ、第2回目の報告書を1997年9月に提出し、これと並行して同年11月には中間時評価報告書 (経済性評価) を提出しました。 KTCの技術評価結果は、「今後、プロジェクト後期の課題として研究成果の技術移転には工夫が必要との指摘もありましたが、全般としては、研究者にとって魅力ある研究環境が実現され、本研究所がヒューマンインターフェイスに関する世界有数の研究所であることが内外に認められるようになったなど十分に満足できる進捗状況にある」とのことでした。以下に今回の報告の概要をご紹介します。

2.研究内容
 研究内容が多岐にわたることから、下記の3つのサブテーマを設定し研究を進めています。
(1) 音声言語情報生成機構の研究
 大脳中枢における音声言語情報の生成過程、神経系における音声パターン情報の表現と伝達の過程、声帯、口唇、舌などの運動による発声発話のメカニズムの解明を目標とし、発話モデルの高度化と発声発話の相互作用モデルの構築、音声生成総合モデルの構築、知覚統合モデルの構築を行います。
(2) 視覚情報生成機構の研究
 大脳中枢におけるイメージの生成過程、神経系における視覚パターン情報の表現と伝達の過程、表情などの視覚パターンの表出メカニズムの解明を目的とし、視覚情報生成認知・統合モデルの構築、顔イメージの認知・生成モデルの構築、視覚要素の能動的認知モデルの構築を行います。
(3) 情報生成統合機構の研究
 視覚、聴覚、体性感覚などの異種感覚情報の生成・処理における相互作用や情報の統合化および学習の過程、大脳中枢の構造と機能に関する脳コミュニケーション過程の解明を目的とし、視覚・行動制御情報生成統合モデルの構築、人工脳プロトタイプモデルの構築、感性・情動モデルの検討を行います。

3.研究活動と成果

 今回の報告対象期間はプロジェクト期間 9年中の最初の5年半に当たり、研究フェーズのほぼ前期と中期に対応しています。この間のプロジェクト運営に際しては以下の3点を重点施策として取り組んできました。
 その第一は、人材への重点投資です。これが功を奏し、世界から適材を集めることに成功しました。これらの人材によって、大胆な研究計画の具体化を行うことができました。また、本プロジェクトの実施に必要な工学、心理学、生理学などの異分野間の壁を乗り超えたトランスディシプリナリな研究体制を実現できました。
 第二は、情報発信基地としての役割の重視です。学会、国際会議、学術誌への積極的な研究発表は、約 5年半の間で総計1,187件に上るとともに、脳の運動制御原理に関する内部モデル仮説を提案し、それを生理実験やロボットを用いた行動実験で実証した成果が英国科学誌Nature、米国科学誌Scienceに掲載されるなど、質の面でも高い評価を受けました。また、米国経済誌Business Week (1997年6月23日号) の研究所ランキング、「生物に学んだ情報技術部門」においては、MIT AI-Lab と並んで世界第4位の評価を得ています。さらに、主たる研究テーマに関連するワークショップやシンポジウムなどを積極的に開催することによって研究の成果を世界に問うとともに、国際的研究協力ネットワークを作り、このネットワークを活用して、研究体制や研究の具体的実施を支えてきました。
 第三は、プロジェクト連携の推進です。産学官の壁を乗り越えた他の研究プロジェクトや研究機関との連携を積極的かつ着実に進めました。例えば、国内においてはトヨタ自動車、早稲田大学、NTT 、 NHKなど海外においては米国ハスキンス研究所やウィスコンシン大学などとの共同研究、科学技術振興事業団のプロジェクトERATOとの研究協力および奈良先端科学技術大学院大学や神戸大学との連携講座などを積極的に実施しています。これらが相乗的に作用した結果、人が人を呼び、情報が情報を呼ぶ好循環な環境を実現することができました。
 これらの研究活動や研究成果に対応し、新聞、放送などマスメディアにも約 5年半の間に424件が取り上げられました。また、学会など外部団体から24件 (34名、1研究室) の表彰を受けました。

4.今後の研究計画
 人間の情報生成・処理機構に学んだヒューマンインタフェース要素技術の確立をめざした本プロジェクトは、その後開始された国家プロジェクトの先鞭をつけるものであり、試験研究開始後の技術・経済上の外的環境の変化によりますます重要になっています。これまでに得られた成果は国内外で高く評価されているとの認識に立ち、これらの成果を導いてきたトランスディシプリナリな研究体制、情報発信基地としての役割を重視した運営、他の研究プロジェクトや研究機関との産学官の壁を越えた連携という方針を今後も引き続き発展させ、前期・中期で得られた成果に基づき、研究の集約・応用の探索を通して、研究成果としてのマルチモーダル・インタフェース要素技術の確立をめざします。また、プロトタイプ化や可視化も進め、成果展開に向けた布石とします。

5.研究成果の具体例
(1) 音声言語情報生成機構の研究
 発声発話モデルの研究においては、発話器官の形状と運動に関して、新しい計測手段を駆使して得られたデータを用いた発話モデルの高度化が成功し、発話形状の個人性のモデル化、3次元舌運動モデルの基本設計法、発話器官の滑らかな運動を効率よく表現できる通過点モデルなど高度な発話機構モデルの構築に不可欠な要素技術を導きました。さらに、当初目標には設定されていなかった発話表情モデルの研究への取り組みも開始しました。
 音声パターン認識過程の研究においては、識別的特徴抽出法を確立し、音声スペクトル表現法も包含する認識処理過程全体の最適設計を実現し得ることを示しました。
 時間知覚等の音声知覚基礎過程の研究においては、時間知覚がタイミングとピッチとの2つの異なる処理過程から構成され、さらにその基本メカニズムがタイミング手がかりの累積処理に基づくものであることを示唆する結果を得ました。
 高次言語機能との統合に関しては、英語/r/-/l/音を用いた訓練実験を具体例として、知覚と発話との間の高い相互作用や知覚訓練結果における高い恒久性が存在すること等を明らかにしました。
 これらの成果はいずれも、研究の最終目標である聴覚数理モデルの構築に大いに寄与する重要なものであり、識別的特徴抽出法や斬新な音声特徴表現法であるSTRAIGHT-TEMPO法は産業利用の優れた可能性を持つことも明らかになっています。さらに、聴覚情景分析の研究の主流となる計算論的聴覚モデルの研究を今後大いに促進させる重要な材料となるとともに、認知機構の解明と音声生成過程の問題との統合を試みる今後の研究展開にも示唆に富む材料となっています。

(2) 視覚情報生成機構の研究
 立体視覚パターンの生成過程においては、これまで水平視差のみが奥行き知覚に関与していると思われていましたが、垂直視差情報が重要な役割を担っていることが本研究で明らかになりました。このことは、水平視差情報のみを使用している現在の立体ディスプレイ装置よりもさらに自然な立体視のできる立体表示法の可能性を示唆しており、工学的応用の可能性を示すものです。また、立体ディスプレイの宿命とも言うべき画面が有限であることによって生じる画枠歪みを、簡単な手法で解消する方法を提案し、その有効性を示しました。
 これらの成果により、視覚パターン知覚・生成モデル構築のための立体視メカニズムと運動視メカニズムの解明が進み、目標を達成するために必要なデータを得たといえます。また、見るために動いたり、視野の中から認識対象を探索するなどの人間の高次視覚機能がもつ能動的な働きを工学的に実現するアルゴリズムの具体例として、1台のカメラによる観測において生じる奥行き情報の不完全さが、画像照合結果に応じたカメラ移動制御によって解決し得ることを示しました。
 さらに、人間が顔から感性的なイメージを認知する過程のモデル化をめざした研究の成果として、顔の3次元物体としての特質に起因する認知特性、印象や表情という顔特有の感性的情報の認知特性、顔と声の情報の統合性、顔の学習・記憶特性などが明らかになりました。これらは人間のイメージ認知特性とよく整合する顔画像の認識・生成の計算機情報処理の確立に向けての基礎検討として重要です。
(3) 情報生成統合機構の研究
 制御対象の逆モデル学習について、フィードバック誤差学習に基づいて小脳の異なる部位の学習機能を統一的に理解する新しい理論モデルを提案し、さらに、ヒト多関節運動における逆モデルの必要性を実証的に証明しました (米国科学誌 Science に論文掲載)。また、運動軌道の計算における最適な規範として、ダイナミックな運動規範を提案し、これを検証しました。さらに広範な実験データに基づいて運動指令変化最小モデルを統一的定量的に裏付けました。
 運動軌道生成と認識の研究については、順逆繰り返しによる軌道生成のモデルによる最適化原理に基づく「見まね」学習 (人の動作を見てまねる) モデルを提案し、けん玉学習ロボットによって、モデルの有効性を検証し、複数のタスクへの拡張を行いました。
 また、運動学習原理の解明と応用として、筋電位入力による仮想身体運動モデルの構築をめざして研究を進め、表面筋電図から腕の運動軌道を予測するダイナミクスモデルを、生理学データを訓練データとする学習によって人工神経回路網モデルとして獲得し、これをリハビリテーションに応用するための実験を開始しました。
 これらの成果は、学術的に極めて質が高く、また、複数情報統合 (マルチモーダル) ヒューマンインタフェースの要素技術への応用可能性に関しても強い期待を与えるものです。
 自然淘汰と突然変異をモデル化したソフトウェア進化の研究では、コンピュータ・ネットワークを環境としてプログラムが自律的に多様化・複雑化するプログラム進化の可能性を探るため、国際的なネットワーク実験系を構築し、本格的な進化実験を開始しました。現在、この実験系には、日本、米国、英国、スイス、ベルギ−の5カ国にわたる百数十台のワ−クステ−ションが参加しています。ソフトウェア進化のための環境構築という意義のみならず、ネットワーク上での“出会い”を実現する新たなサイバ−世界の創造にも展開可能な足掛かりを得たと考えています。また、新たに提案したプログラムされた自己解体モデルは、死のもつ利他的な側面が進化を加速するのみならず棲み分け型の生態系を創出する重要な概念であることを実証しました。今後、進化システムの究極的な制御性を保証する方法論への展開を図ります。
 ハ−ドウェア進化の研究では、セルオートマトン型人工脳の基本モデルを大幅に改良した、画期的なハ−ドウェア進化モデルを新たに考案しました。本モデルは、ハ−ドウェアとしての実現可能性の高いものであり、本年度ハ−ドウェア実装の試作に着手することができました。本プロジェクトの後期に予定している人工脳のプロトタイプに直接つながるものと位置づけています。また、自律進化シミュレータの研究では、遺伝的多様性の保持と頑強性の向上のため、優勢・劣勢遺伝を導入するとともに、複雑度に応じて環境を切り替えて進化を効率化する漸進進化モデルを提案し、シミュレーションにより有効性を確認しました。
 これらの成果は、コミュニケーション (情報処理・情報生成) の中枢である脳と同じように自律性と創造性に富む新しい情報処理系の創出をめざした進化システムの基本機構として極めて高い目標達成度を実現したものと考えております。さらに、第5回人工生命国際会議の日本での開催に際し中核的な役割を担い、人工生命や複雑系など生物に学んだ情報技術の分野で世界をリ−ドする研究所ベスト4にランキングされるなど、世界的COE (Center of Excellence) としての評価を得ることに成功しました。