人間情報科学研究所
(株式会社エイ・ティ・アール人間情報通信研究所)
(先端情報科学部)

ヒューマンコミュニケーションの研究開発



人間情報科学研究所
所長 下原 勝憲



 1.プロジェクトを振り返って

 昭和61年(1986年)4月、「人間の優れた機能に学ぶ」という当時としては画期的な方針のもと、視聴覚機構研究所が人間中心のヒューマンマシン・インタフェースの実現に向けた基礎研究を開始しました。人間の視聴覚情報処理の仕組み、特に、知覚や認識など人間の情報受信機能を中心にした研究を行いました。その後、平成4年(1992年)3月に発足した人間情報通信研究所では、ヒューマンコミュニケーションの研究をさらに発展させるため新たな視点を導入しました。第一は、「人のコミュニケーションは本質的にマルチモーダルである」とする視点、第二は、話すことと聞くこととの関係のように「情報の生成と知覚の密接な係わり」を重視する視点です。第三は、「脳コミュニケーション」として、人の脳の構造や機能に迫る新しい研究アプローチの採用です。
 平成12年(2000年)1月に設置された先端情報科学研究部及び平成13年(2001年)10月に発足した人間情報科学研究所は、このような「人間を理解する」立場からコミュニケーションの本質に迫る考え方を受け継ぎ、コミュニケーションのブレイクスルーをめざした研究を展開しています。
 人間の日常活動、個人的・社会的な行動や行為もコミュニケーション無しには成立しません。すなわち、コミュニケーションの研究は、情報通信分野の技術開発に留まらず、人間の存在、生活、人間と自然との関わりなど極めて広範囲にわたる発展性と応用を有しています。そのようなコミュニケーションの本質を理解するためには、「人間を理解する」とともにトランスディシプリナリかつ多様な研究展開を絶えず意識することが不可欠だと考えています。


 2.主要な研究成果

 以下では、視聴覚機構研究所から先端情報科学研究部までの15年間にわたるヒューマンコミュニケーションに関わる研究に関して、最近の5年間に得られた成果を中心に紹介します。

■MRIによる音声生成機構の研究
 磁気共鳴画像法(MRI)は体の断面を記録できるので口の中の形を観測する優れた方法です。平成3年(1991年)に高の原中央病院のご協力でこの研究を開始して以来、静止画だけでなく動画の記録を行えるようになり、新しい生理機構の発見に貢献しました。最近ではATR脳活動イメージングセンタの装置を使った3次元動画撮像法を開発し、最も進んだ発話運動観測法として活用しています。

■発話の生理的モデルの研究
 発話器官の動きから音声を合成する方法は調音モデルと呼ばれます。ATRでは、MRIを基に発話器官のレプリカを作り、筋肉の働きによってこれを動かす生理学的調音モデルの研究を続けてきました。舌と喉頭との相互作用を取り入れた2次元モデルから始めて(平成7年(1995年))、世界で初めて3次元モデルによる連続音声の合成に成功しました。

■STRAIGHT法の発明
 音声の中に含まれる『言葉の響き』と『声の高さ』をきれいに分離する方法を発明しました。普通の機械的な分析では、図1のように声の高さと響きが混ざってしまいます。STRAIGHTでは、それらをきれいに分離することができるため、図2のように滑らかに変化する声の響きを取り出すことができます。この発明は、音声の加工や人間の言語知覚の研究に広く応用されています。

■ATR CALL 書籍シリーズ

 音声学習研究の成果を講談社のブルーバックスシリーズから2冊、さらに講談社にて「ATR CALL」という単行本シリーズが新設され2冊、出版しました。いずれも、研究に用いたプログラムを一般の方が手軽に使えるよう改訂したものを掲載したところ、好評を博し、合計10万部を越える売れ行きを記録しました。

■3次元空間の情報取得
 人が主として両眼の情報から3次元形状の情報を認識するように、一台のカメラのみで撮影した画像から3次元の物体形状を復元するアルゴリズムを見い出しました。人が視覚対象を網膜上に捉えるのと同じように、位置をあらかじめ設定していないカメラで撮影した任意の動きから3次元物体の形状が分かります。

■両眼立体視による奥行き知覚と姿勢制御
 広視野の立体画像において安定した奥行き感を知覚するためには、水平方向の両眼視差のみでなく垂直方向の視差が有用であることを見い出しました。また、視覚により引き起こされる自己運動を計測することにより、このような奥行き感が姿勢制御に与える影響を明らかにしました。

■顔の動きの認知
 モーフィングにより速度を制御した動画像を用い、表情の認知機能を探りました。「悲しみ」はゆっくり、「驚き」はすばやく提示した場合に強く感じるなど、静止した顔の情報だけでなく、動きの情報が表情の知覚に大きく影響することを明らかにしました。

■けん玉ロボットによる見まね学習

 見まねによる学習とは、教師があるタスクを解決して見せて、それに基づいて学習者がタスクを解くことを学ぶことです。ロボットアームによるけん玉の見まね学習では、ヒトとアームの機械的な特性の違いやけんの握り方の違いなどにより、最初は成功しませんでした。しかし経由点を学習によって修正させることにより、けん玉が成功するようになりました。

■小脳内部モデル存在の証明
 左の図は新しい道具の操作方法を学習している最中の小脳の水平断面(上が前、下が後)です。学習の初期には、赤とオレンジで示した広い範囲で道具操作の誤りを表現する信号が計測されました。しかし十分学習した後では青とオレンジのごく一部に限られました。これは学習により小脳に道具の内部モデルが獲得されたことを証明するものです。右の図において、黄色い部分が小脳で脳活動の高いところを示しています。

■ソフトウェア進化
 生物の進化と同じように突然変異と淘汰を用いてシステム自らが新たな機能と構造を創り出していく進化システムの概念を提案しました。突然変異と自然淘汰をモデル化したネットワーク上の仮想世界において、プログラムが自律的に多様化・複雑化していくモデルがソフトウェア進化です。

■人工脳創出に向けたハードウェア進化
 種を畑に蒔くと作物が成長するように、情報(=種)に依存して再構成可能なハードウェア(=畑)に電子回路を成長させ、種を品種改良するように回路構造を進化させる概念がハードウェア進化です。脳の神経細胞がネットワークを成長させるプロセスを模擬して、ニューラルネットをハードウェアとして発生・成長・進化させる人工脳モデルを提案しました。

■感性脳機能としてのハイパーソニック効果
 こころよさ、おもしろさなどポジティブな情動に関わる脳のはたらきを「感性」ととらえ、感性のすみかである脳の機能に科学的にアプローチする感性脳機能の研究を進めました。大きな成果として、自然音に含まれる可聴域上限(20 kHz)を超える高周波成分が、脳深部の血流と脳波α波パワーを増大させ、可聴音をより快適に知覚させるはたらき(ハイパーソニック効果)を持つことを見い出しました。