人間の視聴覚機構に学ぶ





ATR視聴覚機構研究所 社長 淀川 英司



 パソコン、ワープロ、ニューメディアのキャプテンなどにみられますようにコンピュータを中心とする最近の情報通信機器の進歩には目覚ましいものがあります。しかし、これらの機器はだれでもが簡単に、気楽に使用できるようになっているでしょうか。おそらく、そうはなっていないでしょう。これは、どこに問題があるのでしょうか。最大の問題の一つは、キーボードやキーパッドの操作が面倒なことにあります。情報通信機器が進歩したといっても、情報の処理、記憶、伝送の技術は確かに目覚ましい進歩を遂げておりますが、情報の入力と出力の面ではあまり進歩しておりません。特に、情報の入力技術が遅れております。
 この情報の入出力の部分は、機械とそれを使う人間との直接の接触面、すなわちマンマシン・インタフェースとよばれている部分です。ほかの部分で機械の性能がいくら良くなっても、このマンマシン・インタフェースの部分が良くならないと、だれでもが、自然で違和感なく気楽に使用できるということにはならないでしょう。機械の使い勝手が良いということは、そのマンマシン・インタフェースが人間の認知特性、行動特性と調和が良くとれているということにほかなりません。したがって、このような良いインタフェースを実現するためには、これまでの技術一辺倒のアプローチではなく、人間の認知や行動のメカニズムの研究が是非とも必要です。
 このような観点から、当研究所では、人間の情報入出力機構のうち最も重要と考えられている視覚および聴覚機構を研究対象にとりあげ、それらの情報通信と処理のメカニズムを解明していくことにより、入出力技術としての文字・図形・画像の認識・生成技術、音声の認識・合成技術の飛躍的な進歩向上を目指しております。
 以下、現在進めているいくつかの研究について簡単にご紹介します。

(1)運動視と立体視
 物が動くとき、人間はその運動をどのように知覚しているのでしょうか。また、3次元の物体や情報の奥行きをどのように知覚しているのでしょうか。このような知覚はそれぞれ運動視と立体視とよばれております。本テーマでは、この運動視と立体視の問題をとりあげ、いろいろな条件での知覚の特性を測定するとともに、そのデータの分析を通して運動視と立体視機構を模擬する定量的モデルの構成を進めております。これらの研究は、人間が動きを知覚する際に、より滑らかに見える動画像生成手法や効率がよく自然に見える立体画像表示法の確立を目指しているものです。

(2)パターンの認知
 人間は円や三角形などのパターンを見て、それを記憶に照らし、即座に認知できるという優れた能力を持っています。この能力を発現させているメカニズムの解明を進めております。
 人間がパターンを認知するとき、何らかの特徴をとらえていると考えられます。この特徴がどのようなものなのか、また、図形の部分的なまとまりとしての分節はどのような法則に基づいてなされているのか、などについて心理実験とモデルの計算機シミュレーションによって検討を進めております。
 この研究は、新しいパターン認識法の開発のほかに、パターン情報の効率的な記憶法と検索法の開発を目指しております。

(3)神経回路網
 人間の視覚システムにおいては、情報の並列処理が大きな特徴の一つとなっております。そこで、視覚の生理・心理学的知見に基づいて、人間の優れたパターン認知機構を模擬する並列回路網モデルの構成を進めております。

(4)文字・文書情報の理解
 人間が文字を認識し、文書を理解していく過程の解明を進めております。現在、単語(熟語)としての文字認知特性の解明とそれに基づく文字認知機構を模擬する定量的モデルの構成を進めております。また、これらの研究によって得られる新しい知見の工学への応用を意図して、文字・図形認識および画像処理の実験ツール作りも進めております。

(5)聴覚末梢系における情報処理
 外界からの音響信号を受容する器官である耳は、入ってくる信号にたいして粗い周波数分析を行っていることがわかっております。このことは、音声信号の周波数分析結果である音声スペクトログラム(図1に示すような音声信号の画像的表現で声紋とよばれている)に対応して、聴覚末梢系(外耳、中耳、内耳)における音声の分析結果である聴覚・神経スペクトログラムとよぶことのできる情報表現形式が存在することを示唆しております。本テーマでは、この情報表現形式を追求しております。現在、聴覚末梢系の工学的機能モデルをコンピュータ・シミュレーションとして実現しつつあります。

(6)調音結合
 音声自動認識や規則による音声合成を困難にしている大きな問題の一つに調音結合の問題があります。これは、たとえば、同じ「ア」でも、「アカイ」と発声するときと「アオイ」と発声するときとで、「ア」の音響的性質が異なるという現象のことをいいます。この例の場合、「ア」がその後に続く音の影響を受けて変化するために、このような現象が生じます。現在、この調音結合現象のモデル化を目指して研究を進めております。

(7)韻律的特徴の知覚
 音声知覚における韻律的特徴(アクセントやイントネーションなど)の役割とその知覚機構について合成音声の評価と高品質化に結びつけながら研究を進めております。この問題は、人間にとって最も自然な音声受容形態は何かという音声知覚における基本的問題とも直結しております。現在、韻律情報の影響を調べるための音声知覚実験を行い、合成音声評価における韻律的特徴の役割を探るための基礎データを得た段階です。

(8)音韻の知覚
 音声スペクトログラム上にあらわれる音韻の視覚的パターン(図1参照)を用いて、画像処理的手法も取り入れた新しいアプローチにより、音韻の音響的不変量を追求しております。

 以上ご紹介した人間の視聴覚機構解明の研究は、非常に基礎的であり、かつ難しいため、長期的な取り組みが必要です。しかし、本当に使い勝手のよいマンマシン・インタフェースを開発するためには、避けて通れない最も重要な研究課題であります。