TR-A-0042 :1988.12.2

Tatsuya Hirahara, Takashi Komakine

マルチDSPで構成する多チャンネル 蝸牛フィルタバンクの試作

Abstract:聴覚系の音響信号に対するスペクトル分析機能をモデル化することによって、 ヒトの聴覚特性を反映させた音声分析処理系を構築するための第一ステップとし て、蝸牛における周波数分析モデルの一つであるカスケードパラレル型の線形蝸牛フィルタの設計とパラメータの最適化について検討を進めてきた。 これまでの検討は総て汎用ワークステイション(Masscomp MC5600)上で行っ てきたが、たかだか60チャンネルのフィルタリングに対して実時間の約百倍の処 理時間が必要であった。プログラムをミニスーパーコンピュータ等に移植して走 らせることによって処理速度は向上するが、チャンネル数を1桁ないし2桁上げ ようとした場合には、同じ問題が生じる。従って、数百から数千チャンネルの蝸 牛フィルタバンクを構築するためには専用のハードウエアが不可欠である。 それが実現されることによって生じるメリットとしては次のようなものがある。 まず、チャンネル数増加のメリットの一つは周波数分解能が上がることである。 また、FFTでは線形な周波数軸上で等間隔なスペクトルしか得られないのに対し て、フィルタバンクでは、対数周波数軸やBark周波数軸上で等間隔なスペクトル も得ることができる利点もある。その結果、側抑制などのチャンネル間に渡る相 互作用の導入をより連続的に実現できるという利点もある。 従来、この種のフィルタバンクは主に音声の自動認識装置用の特徴パラメータ 抽出のために用いられてきているが、東工大の原田らによる96チャンネルのシス テム以外ではそのチャンネル数はたかだか数十チャンネルどまりである。音 声認識用の特徴パラメータを考えれば、チャンネル数の増加はデータ処理量の増加をもたらし好ましい方向ではないが、側抑制処理などを導入して特徴ベクトルの情報圧縮などを行えば大きな問題とはならない。 多チャンネル聴覚フィルタのその他の用途としては、①生理モデルの検証、② 心理物理モデルの検証、③音声知覚モデルヘの応用などがあるが、後に述べるように生理データからみれば約2万チャンネル、心理物理的な周波数分解能からみれば約1500チャンネルが必要となり、本格的な応用はいまだに成されていない。 本稿では、多チャンネルの実時間蝸牛フィルタリング処理を実現するために 試作した第一次システムのハードウエア、制御ソフトウエア、ホストとのインタ ーフェイスソフトウエアについてその詳細を述べるとともに、今回の試作で明ら かになった問題点等について言及する。具体的な蝸牛フィルタの設計法について は別稿で詳細に述べているのでそれらを参考にされたい。