聴覚末梢系のモデル化



ATR視聴覚機構研究所 聴覚研究室 平原 達也



1.はじめに
 私達は日常、人々の話し声、ラジオから流れる音楽、犬の遠吠えや虫達の鳴き声、エアコンの風切り音、走り去る車の音などいろいろな音に囲まれて生活しています。そして、それらの音から、言語、感情、情緒、方向感などの多くの情報を受取っています。
 これらの音は五感の一つである聴覚を通じて知覚されていますが、私達は一体どのようなメカニズムで音を聴いているのでしょうか?そして、私達は一体どのようにして、多くの音や雑音の中から必要な音だけを聞き分けることができるのでしょうか?残念ながら、これらの問いに対する完全な答えを用意することはできません。惑星探査機が太陽系の果てまで飛んで行き海王星の素顔を茶の間のテレビに映し出すようなハイテクの時代であるにもかかわらず、私達自身のことについては分かっていないことが意外と多くあるのです。このような人間の機能に対する知識や理解の不足が、例えば、音声を媒体としたマンマシンコミュニケーションを実現しようとしても満足のいく性能を持つものを作ることのできない原因の一つであると考えられます。
 聴覚研究室では、人間の聴覚・音声知覚メカニズムを解明し聴覚・音声現象に対する科学的理解を深めるとともに、その結果得られる新しい知見を利用して音声情報処理の分野におけるブレークスルーとなる基礎技術に関する研究を進めています。本稿では、その研究の一端として、聴覚末梢系における音響信号処理機能のモデル化に関する研究について紹介します。

2.聴覚系内における音のスペクトル表現
 私達が外から見ることができる聴覚器官は、二つの耳介(耳たぶ)と耳の穴だけですが、その奥には図1に示すような末梢系の各器官と大脳皮質の聴覚野と呼ばれる聴覚中枢に至る複雑な神経回路網があります。外耳に到達した音は鼓膜を振動させ、その振動は耳小骨と呼ばれる3つの小さな骨(槌骨、砧骨、あぶみ骨)を通じて内耳(蝸牛)内のリンパ液に伝わります。そして、リンパ液に伝えられた振動は、蝸牛の内にある機械的な周波数分析器である基底膜を振動させます。基底膜の上には約3万個の有毛細胞と呼ばれる振動センサーが載っており、基底膜の振動幅に従って各周波数成分の強さの情報を神経インパルスに変換し末梢神経系を興奮させます。そして、この興奮パターンは、いくつかの神経核と呼ばれる中継点を経る過程で様々な特徴が抽出されながら中枢神経系へ伝搬し、最終的には大脳皮質に至って音の感覚を引き起こします。
 このような聴覚系の各段階における信号処理機能については、未だに解明されていない部分が多く残されていますが、比較的よく調べられている末梢系の各部位の機能をまとめると表1のようになります。これらの処理機能の多くは入力と出力との間に比例関係が成り立たない処理(非線形処理)であり、私達が通常用いている工学的な音響信号処理方法とは異なっています。従って、音響信号に対する聴覚末梢神経系の興奮パターン、即ち聴覚系内におけるそのスペクトル表現は、声紋(サウンドスペクトログラム)に代表されるような物理的なスペクトル表現とは異なったものとなります。[1]
 音声認識に代表される人間の優れた音知覚能力は、このような入力音に対する聴覚末梢系におけるスペクトル表現を基にして、言語や経験などの様々な大脳情報の助けを借りて実現されていると考えられます。従って、このような人間の能力を模擬したシステムを構築する場合、この聴覚末梢系のスペクトル表現を基本情報として把握することは大切なことですし、それに基づいた後段の処理系を検討することは一つの有効な問題解決のアプローチといえます。しかし、現在のところ、この聴覚系内スペクトル表現を得る手法が確立されていないために、非常に原始的な表現である音の物理的スペクトル表現を用いたシステムしか構築できず、その性能は人間に遠く及びません。
 そこで、音響信号入力に対してこのような聴覚系における信号処理過程を反映した聴覚系内スペクトル表現を高速に算出するモデルがあれば、それを様々な音響信号処理の分野に応用することができます。例えば、音声の自動認識や音声合成の分野では、人間の能力に近い耐雑音性や環境適応能力を持つ音声認識装置を構築することや、より品質の優れた合成音声を作成することの基本技術になると考えられます。また、このようなモデルを用いて、未だによくわからないことが多い人間の音声知覚機構を解明する手がかりを得ることもできると考えられます。

3.蝸牛における周波数分析機構
 前述したように、蝸牛は聴覚系における音響信号の周波数分析器ですが、その機能を模擬したモデルを構築するために、この蝸牛の構造と周波数分析機構について詳しく見てみましょう。
 蝸牛は図1に示されるようなカタツムリの殻に似た形をした骨性の管で、長さ35mmの管が螺旋状に23/4回転しています。その内部は二つの膜によって3層に分けられ(図2)、各層はリンパ液に満たされています。鼓膜の振動は耳小骨の一つであるあぶみ骨を経てこのリンパ液に伝えられ、さらに蝸牛内の膜の一つである基底膜の振動を引き起こします。ところが、蝸牛管は奥へ行くほど細くなり、基底膜は奥へ行くほどその質量と固さが増加しているために基底膜に生じる振動は進行波となり、各周波数成分ごとに基底膜の長さ方向上の異なった場所を最も大きく振動させます。具体的には、高い音に対しては基底膜の根元の部分が、低い音になるに従ってより先端が振動します(図3)。そこで、基底膜は入力した音響信号を各周波数成分毎にふるい分ける帯域フィルタ(BPF)が多数並んだものとみなすことができます。
 von Békésyによって基底膜振動の様子が観察されてからごく最近まで基底膜振動系が構成するフィルタの共振特性はあまり鋭くないと考えられてきました。しかし、最近の生理学的な研究結果は、基底膜振動系は音の大きさによってその共振特性が自動的に変化する能動的な非線形システムで、弱い音に対する共振特性は非常に鋭いことを明らかにしました。図4は、入力信号の周波数を変化させた場合に共振周波数18kHzに対応する場所における基底膜の振動幅を、入力信号の強さをパラメータとして描いたものです。この図に示されるように、弱い音に対しては基底膜振動の共振特性は鋭くなっていますが、大きな音に対しては共振特性はブロードになるとともに、相対的な利得が減少し、共振周波数も低い方へシフトしていきます。
 このように、基底膜振動系は、弱い音に対しては系の利得と共振の鋭さを増加させることによって信号のS/N比を上げて周波数分析を行なう合理的なシステムであるといえます。

4.適応Q型蝸牛フィルタモデル
 聴覚モデルを構築する第一歩として、私達はこの基底膜における周波数分析機構をシミュレートする適応Q型蝸牛フィルタモデルを開発しました。Qというのは共振回路の共振特性の鋭さを表わす指標であるQuality Factorの頭文字をとったもので、Qの値が大きいほど共振特性が鋭いことを表わします。従来の蝸牛フィルタモデルの多くが単純に帯域フィルタを並べたも[2][3]であるのに対し、このモデルでは前述した入力レベルに依存した基底膜の適応フィルタリング特性を実現しています。
 モデルの構成は図5に示すようなもので、帯域フィルタを多数並べた線形蝸牛フィルタ部分とそのフィルタの各チャンネル出力に接続された適応Q回路とから構成されています。適応Q回路は図6に示すようなもので、Qの変化にともなう2次の低域通過関数の周波数特性の変化を利用して入力レベルに依存した基底膜のフィルタリング特性を実現しています。[5][6]
 さて、現在私達が実現している蝸牛フィルタモデルは汎用計算機上に実現した61チャンネルのものですが、実際の基底膜振動系では何チャンネルのフィルタが存在するのでしょうか?この答えを得るために、少しずつ中心周波数をずらした二つの帯域雑音を被験者に聴かせた場合それらの中心周波数のずれがどの程度の値に達すれば二つの帯域雑音の音の高さの違いが分かるかを、心理物理実験によって測定しました。その結果、人間の基底膜振動系には100Hz〜8,700Hzの周波数範囲で、少なくとも400チャンネル以上のフィルタが存在することが分かりました[7]。しかし、このような多チャンネルの適応Q型蝸牛フィルタモデルを実現するためには、莫大な演算量とデータ量を扱える専用のハードウェアシステムの構築か超高速並列計算機の利用を検討する必要があり、今後の課題として残されています[4][8]

5.適応Q形蝸牛フィルタによる音声分析
 図7は同じ音声を二つの異なった方法で分析した結果得られるスペクトルパターンを比較したものです。上段は短区間フーリエ分析によって得られた物理的スペクトルパターン(いわゆる声紋)で、下段は私達が開発した適応Q型蝸牛フィルタによる分析で得られた聴覚系内スペクトルパターンです。入力音声は男声が発話した「3月9日(サンガツココノ〔カ〕)」という文で、各図とも縦軸は周波数軸、横軸は時間軸で、各時刻・各周波数における信号の強さが濃淡で表現されています。
 両者を比較すると、まず、適応Q型蝸牛フィルタによって得られるスペクトログラムの方が、周波数軸の方向にスペクトルパターンが広がって分布し、有効に周波数軸が利用されています。これは、短区間フーリエ分析ではHzで表わされる周波数軸を用いているのに対して、蝸牛フィルタ分析では基底膜上の等しい距離を基準にしたBark周波数という対数的な周波数軸を用いているからです。
 次に、短区間フーリエ分析の結果では、文頭/s/、無声音化した/tsu/ 子音/k/といった音圧レベルの低い部分がスペクトログラム上にはっきりと表れていないのに対して、適応Q型蝸牛フィルタによって得られたスペクトログラム上ではこれらの部分が鮮明に表現されています。これは、適応Q回路の利得変化がもたらした自動利得制御の結果です。
 さらに、フーリエ分析の結果では基本周波数の逆数に対応した縦縞とフォルマント軌跡に対応する太い横縞がスペクトル上に認められるのに対して、適応Q型蝸牛フィルタでは、基本周波数の調波構造を表わす細い横縞もスペクトログラム上に現れています。例えば、母音/a/や/o/の低域周波数部分では基本周波数の調波構造が現れているのに対して、高域周波数では基本周波数の逆数に同期した縦縞が現れています。また、高域周波数のフォルマントパターンもより明瞭に表れています。これらは、各時刻・各周波数のスペクトルレベルに応じて適応Q型蝸牛フィルタにおける各チャンネルのフィルタリング特性が変化した結果です。一例として、t=150msec.およびt=500msec.における各チャンネルの周波数特性を図8に示します。
 このように、適応Q型蝸牛フィルタを用いて得られるスペクトログラムは、声紋や従来の蝸牛フィルタの分析結果よりも音声の特徴をはっきりと表わしていることがわかります。

5.むすび
 本稿では、聴覚末梢系における重要な情報処理機能の一つである蝸牛の基底膜振動系における周波数分析機能を模擬した適応Q型蝸牛フィルタモデルについて紹介しました。
 このモデルは聴覚末梢系のモデルを構築する第一歩として位置づけられます。今後は、聴覚末梢系における振動センサーである有毛細胞における情報処理機能のモデル化を進め、適応Q型蝸牛フィルタモデルと結合するとともに、末梢神経系から中枢神経系に至るシステムのモデル化についても研究を進めていく予定です。そして、このような聴覚モデルを用いた音声認識実験[9]や音声合成実験を行い、モデルの有効性を評価するとともに、聴覚モデルに基づいた新しい音声処理の基礎技術を確立することが重要であると考えています。さらに、このような聴覚モデルは人間の音声知覚メカニズムの研究にも大いに役立つと考えられ、従来の音声の物理的スペクトル表現に基づいた研究とは異なった観点から、音声現象についての科学的理解を深めることができるのではないかと考えています。



参考文献