「切取り,仕分け,補う」聴覚系の能力
−外界を捉える手段としての聴覚系の機能を探る−




ATR人間情報通信研究所 第1研究室 津崎  実、河原 英紀



1.外界への窓
 よく知覚とは外界に対する窓であるという言い方がされます。これは私たち人間が周囲の環境を知るために、目、耳、鼻、舌、皮膚といった限られた(これだけでも非常にたくさんの情報を伝えてくれますが)感覚チャンネルを通じて情報を取り入れているという意味です。「窓」という喩えのとおり、私たちには「窓枠」の内側にはいるものしか知ることはできません。例えば視野のことを思い浮かべていただければ容易に理解していただけると思います。どんなに目のいい人でも視野の外にあるものを見ることはできません。
 「窓」の喩えのもう一つの適切な点は、窓枠の中には複数の外界の事物が折り重なって存在しているという点です。人間の知覚の働きのすばらしさはこの幾重にも折り重なった入力信号を「解きほぐし」、外界の本来の姿を推定するという点にあります。窓枠の中の情報から外の世界がどのようになっているかを分析することを情景分析と呼ぶことにしましょう。
 ただし、この窓の喩えにも不適切な点があります。それは、この喩えを用いると視覚的に捕えられる事物のみが知覚の対象であるかのような印象を与えてしまうことです。実際は、情景分析には利用可能な感覚が総合的に用いられます。但し、その際に用いられる手掛かりや方略はそれぞれの感覚チャンネルの性質、またはそこに入力される物理エネルギーの性質に応じて変わってきます。
 多様な環境に対応できる人間の優れたコミュニケーション能力は、このような情景分析能力を高度に利用しているものと考えられます。この観点に立てば、これまで感覚チャンネル毎に個別に捕えられてきた聴覚、視覚、動作といったコミュニケーションの媒体の性質や相互の係わりを情景分析という統一的な観点から明らかにしていくことは、将来の高度情報通信システムをより人間に適合したものとするための重要な課題となります。
 それでは、具体的な研究内容をご紹介する前に、まず特徴的な聴覚現象を取り上げて情景分析としての性質を見ていくことにしましょう。

2.聴覚による情景分析と群化
2.1カクテルパーティー問題
 パーティー会場で大勢の人が談笑しているような状況でも私たちは自分の話したい相手、あるいは自分が注意を注いでいる相手の声を聞き取ることができます。もちろん聞き取りは周囲に騒音のないときよりも困難にはなりますが、非常に単純な機械処理系の出力に比べれば驚くべき能力を有していると言えます。例えば一般に音声の特徴を捉えて視覚的に表現する手段としてスペクトログラムというものがあります。カクテルパーティーの状況で採録された音に対してスペクトログラムを求めても目標となる音が実際に存在しているか否かの区別さえも困難です。聴覚系は観測されたエネルギーのうち目標となる音源から由来するものをひとつの「群れ」−即ち「図」としてまとめ、残りを別の群れ−即ち「地」としてまとめあげることができるわけです。この群にまとめる処理(群化)に影響を与える要因として、音源、すなわち話者の位置に対する手掛かりや、話者の声質の違い、発話速度の違い、会話の内容の連続性、唇の動きのような視覚的刺激の存在などが挙げられています。
 ここでいう聞き取りを詳しく調べると複数の階層が存在していることがわかります。例えば雑音を背景として目標となる音の存在が断片的にではあっても分かるという、検出に相当する階層。目標となる音が雑音に対して明らかに「浮出て」聞こえるという、音脈化(音の流れの分離)に相当する階層。目標となる音が何と言っているか分かるという、認識に相当する階層などです。これらの諸階層のそれぞれについて吟味することにより、カクテルパーティー問題における人間のすぐれた知覚機構を明らかにすることができます。
2.2瞬間的妨害音と音韻修復現象
 カクテルパーティーの状況では目標以外の音が背景雑音としてほぼ持続的にあります。これに対して、雑音が非常に短い間相当の強度をもって出現するような場合でも聴覚系は巧みに作動します。会話の最中に突然バタンと扉が閉まったようなときでも会話は普通に続けられます。この時何が起こっているかについて実験室で詳しく調べると面白いことが分かります。例えば、雑音によって音声の一部をそっくり置き換えて提示しても、雑音で置き換えられた音声区間が補なわれて聞こえることが知られています。即ち、音声は雑音によって途切れたようには聞こえません。
 このように雑音で失われた音声の一部が補なわれて聞こえる現象を音韻修復現象と呼びます。雑音によって音声が置き換えられた状況に対して聴覚系が出した答えはある意味では「間違い」であるとも言えます。しかし、実験的な環境でもない限り雑音によってある連続的な信号の一部が置き換えられるということは起こりません。実際の環境では雑音が重ねられる場合がほとんどですから、このように欠けてしまった部分を前後の音で埋めてしまうような機能の存在はむしろ情景分析の目的にかなったものと考えられます。
 音韻修復現象が起きているときは、聴覚系は連続して音声を発している音源(話者)と瞬間的に雑音を発した音源の少なくとも2つの音源が世の中に存在するとして情景分析を行っているわけです。修復の対象となる音は音声に限られてはいません。定常波や周波数スウィープ音などでも構いません。さらに興味深いことに、この時に瞬間的な雑音の位置が時間的にずれて聞こえるという体験を伴う場合が多くあります。このような時間関係のずれはこの後に紹介する音脈分凝の現象についても共通して観察されるものです。
2.3単声ポリフォニー音楽と音脈分凝
 バッハやテレマンなどのバロック期の単旋律楽器による無伴奏楽曲を思い浮かべてください。演奏に使用されているのはフルートやバイオリンなどの楽器で、奏法上は同時にひとつの音だけしか鳴らしません。従って楽器が奏でているのはひとつの旋律だけであるはずです。しかし高い音と低い音を早いテンポで交替させることによってふたつの旋律が同時に存在する、あるいは並行して流れているような印象を与えることに成功しています。音楽学ではこのような手法を使った音楽にたいして「単声ポリフォニー」、または「潜在的ポリフォニー」という名前をつけています。
 心理学者は単声ポリフォニー音楽を聞いたときに生じている知覚現象に対して音脈分凝(stream segregation)という名前を付けています。音脈分凝は音楽というような複雑な事態に限ったものではありません。高低ふたつの周波数を持つ純音が交替するような場合でも生じます。このとき、ふたつの周波数の差が拡がるほど、また交替の速さが速くなるほどふたつの音の流れ――即ち音脈へと分かれて聞こえやすくなります。
 音脈分凝には2種類のタイプがあると考えられています。ひとつは、交替して出現するふたつの高さの音の系列をひとつの音脈として聞くように努力しているにもかかわらずふたつに分かれて聞こえてしまうような場合を指します。これを原始的分凝(primary segregation)と専門的には呼んでいます。もうひとつはスキーマ的分凝(schema-based segregation)と呼ばれるものです。例えば2つの旋律を一音一音交互に出すと、最初はゴチャ混ぜになった訳の分からないものにしか聞こえません。しかし、一方の旋律の題名を教えてもらうと突然その旋律が浮かび上がって聞こえてきます。このようなときがスキーマ的分凝が生じているときです。
2.4周波数方向と時間方向の群化
 ATR人間情報通信研究所ではこのような人間のすぐれた情景分析能力を解明するために以下の観点から研究を進めています。聴覚による情景分析に関連する現象を見てみると、音響的エネルギーを外界の事象に基づいた適切なまとまり(群)へといかに仕分けるかという群化の問題が重要な鍵であることがわかります。音響的エネルギーは周波数方向の拡がりと時間方向の拡がりを持っています。人間による巧みな群化の過程を明らかにするためには周波数方向と時間方向に対する人間の群化の特性を調べる必要があります。周波数方向の群化について検討するために、競合する音声が同時に存在するときに周期性情報を人間がどのように活用するかについて調べます。時間軸方向の群化について検討するために、知覚的な補充が生じたときに音声の時間構造がどのように修復されるかについて調べます。以下それぞれの実験とその結果について具体的に説明していきましょう。

3.周期性に基づく周波数方向の群化
 (競合する母音はどのように分離されるか?)
 私たちが日常耳にする音のうち明確なピッチを与えるような音、すなわち旋律楽器の音、人の声の母音部などは、基本周波数とその倍音成分によって構成される複合音と呼ばれる種類の音です。このような音では各成分が基本周波数の整数倍の周波数を持つという性質を利用することができます。基本周波数とその整数倍の周波数の成分を見つけ、それらをひとつの群としてまとめることにより適切な群化が達成できるはずです。
 このように整数倍の関係にある成分を見つけていくには原信号に含まれる時間情報を利用する必要があります。生理学的には聴覚神経細胞が音源の周期的振動のある特定の時点に同期して発火することが分かっています。この知見に基づいた自己相関係数表示(autocorrelogram)を使用して、同時に競合して存在する母音の分離に対するモデル化とモデルの検証のための聴取実験を行いました。
 この周期性による情報の利用の仕方には2通りの方略が考えられます。ひとつは各チャンネルの出力のうちあるひとつの周期性に従う出力を「選択」することによって分離を行うというものです。もうひとつの方略はある周期性に従う成分を全体の出力から「減算」することによって分離を行うというものです。このふたつの方略の有効性の違いはどのようなときに顕著に現われるでしょうか?場合に分けて考えてみましょう。  競合して存在する2つの母音の周期性の有無を変化させます。通常の母音は周期性を持っているのに対し、ささやき声は周期性を持っていないという音響的性質を利用します。片方の母音が目標となる声でもう片方は妨害する音とみなすと、図1に示すような4通りの組み合わせが考えられます。
 目標音、妨害音の両者が周期性を持ち、それぞれの周期が異なる場合は目標音の周期性を利用して「選択方略」を用いても、または妨害音の周期性を利用して「減算方略」を用いても分離は達成できます。目標音が周期的で妨害音が非周期的であるときは「選択方略」が有効と考えられます。逆に目標音が周期的で妨害音が非周期的である場合は「減算方略」が有効となります。両者とも非周期的な場合は周期性は利用できませんから分離は達成できません。
 聴取実験では受聴者に上に紹介したようないろいろな聴取条件でどのような母音が聞こえたかを答えてもらいます。図2は実験の結果得られた目標音を正しく認識した正答率について条件別に示したものです。その結果人間は「選択方略」、「減算方略」のいずれも有効に利用していることがわかりました。

4.時間軸方向の群化
 (音韻の長さはどのように修復されるか?)
 聴覚情景分析機構の仕事は、同時に存在する複数の成分(部分)を適切な音源へと仕分けることばかりではありません。先に単声ポリフォニー音楽について述べたように、時間的に分散して存在する部分を集めてひとつの「群」としてまとめることも重要な仕事のひとつです。たとえ一人の話し手が話した音声であっても例えば子音と母音の部分では音響的な性質は異なります。それにもかかわらず私たちはこの音声を一続きのものとして知覚することができます。その一方で句や単語などの切れ目を知ることもできますし、話し手がどのような速さで話しているかについても知ることができます。これはひとつながりの音声として群化したものの中を、更に文節、単語、モーラ(拍子)といった単位で分節化――即ち更に細かく群化していることを示します。言い換えれば、群が階層的な構造をなしているということになります。
4.1スキーマによる群化
 文節、単語やモーラといった単位は言語学の領域で定められたものですが、これらが知覚においても基本的な単位となっているとは限りません。しかし情景分析の目的は意味のある事物へと感覚情報を仕分けることですから、例えば文節という単位がコミュニケーションをする上で重要な意味を持っているのであれば知覚上もこれに対応した区切り方を体得していると考えられます。ところが、同じ単語という言語学上の単位であっても日本語と英語の間ではその区切れの音響的特徴はかなり異なります。その意味ではこのような時間軸方向の群化についてはスキーマに基づいた分凝の占める比重が高くなっていると考えられます。
 さて先に瞬間的な妨害音によって音声区間の一部がマスクされたりあるいは置き換えられたりした場合に知覚的な修復が行われることを紹介しました。修復というからには「もとどおり」にするということであるはずですが、ここで「もと」になるものとはいったいどのようなものなのでしょうか?この問いに答えるひとつのアプローチとして修復された音韻の長さがどのように知覚されているかについての聴取実験を行いました。
 実験で用いた音声刺激は次のようなものです。まず基準となる刺激としてアナウンサーが話した単語音声をもとにした合成音声を作成します。これに加えて、この単語の中のある音韻区間をいろいろな長さに引き延ばした合成音声を何種類か用意します。更にこの延長の対象となった区間の一部を雑音で置き換えた刺激も用意します。受聴者に、長さについて加工を加えていない合成音を標準として長さの延長を施した刺激を比較してもらい、2つの刺激の間に差が感じられるかどうかについての判断を求めていきます。標準となる刺激と比較する刺激の間の差が非常に小さいうちは実際には差が存在するのにもかかわらず人間には同じように聞こえます。この実際の差が次第に拡大していくと知覚的にも差が認められる点に到達します。この点に到達したときの物理的な隔たりのことを弁別閾と呼びます。今回の実験では長さの変化に対する弁別閾を求めることになるわけです。実験条件は次の4通りがあります。(1)標準、比較両刺激とも雑音置き換えのない条件、(2)比較刺激のみ雑音置き換えのある条件、(3)標準刺激のみ雑音置き換えのある条件、そして(4)標準、比較両刺激とも雑音置き換えのある条件です。
 図3のBからDに示すような3通りの修復の形態が予想されました。まず、図3.Bに示すように完璧にもとの物理的状態を復元するように修復するという形態で、この場合雑音の置き換えは全く特別な効果をもたらさないことになります。次に図3.Cに示すように、音韻修復は置き換えられた雑音部分を取り除けて、雑音によって分断されてしまった端と端の点をつなぎ合わせようとするために知覚される時間長は収縮するという形態が考えられます。もしこの形態ならば、条件(1)に比べて条件(2)では弁別閾は大きく、条件(3)では小さく、条件(4)ではほとんど変らない、という結果が出るはずです。最後に図3.Dに示すように、修復は人間の脳内に貯えられたスキーマないしテンプレートに従って行われるという形態が考えられます。今回の実験では標準として用いた音声資料はその長さが非常に自然なものを事前の調査によって選択していましたから、もしこの最後の形態ならば、条件(1)に比べて、条件(3)は変化がなく、条件(2)、(4)ではともに同じ程度だけ閾値の増大を招くということが予想されます。
 実験結果は図4に示すものとなりました。これは図3.Dの形態で修復が行われていることを支持する結果です。音韻修復については従来から文脈情報が豊富であるほど修復されやすいことが報告されています。今回の実験結果によって、音声知覚ではこのような文脈情報もしくはスキーマに基づいて、「何を」修復すべきかだけでなく、「何を」「どのように(どのくらいの長さで)」修復すべきかについても決定していることが示されました。

5.「静かな」環境とは
 ATR人間情報通信研究所には無響室と呼ばれる実験室があります。この部屋は壁、床、天井などからの反射音を極力小さくするような構造になっていて、外部との遮音効果も充分に設計されています。研究所へ見学に来られた方をこの部屋に案内する機会があるのですが、無響室に入るのが初めての方の入った直後の感想の代表的なものは、「何だか変な感じがしますね」というものや、「耳がキーンと痛くなったような気がします」というものです。ここで興味深いのは誰一人として「静かですねー」とおっしゃらないことです。暗騒音のレベルが静けさを決めるのだったらこれほど静かな環境は他にはそうないはずです。
 どうやら私たち人間は全く音がしない環境を静かだと思っているのではなさそうです。聴覚による情景分析が容易に行え、聴覚という「窓」を通して外の世界がどのようになっているかがよくわかる環境を「静かだ」と表現しているのではないでしょうか。無響室のような非常に特殊な環境では通常働いている情景分析機構がうまく働かずに、自分の置かれている環境がどのようなものか分からなくなっていることから「静かさ」を感じられないのでしょう。
 逆の見方をすれば情景分析能力の程度によって全く同じ環境であっても静かさが違ってくるということになります。その意味では現在の音を入力インターフェースとして用いる機械たちを取り巻く環境は私たち人間が感じている以上に「騒々しい」ものとなっているでしょう。環境に対する認識のずれの存在は、人と人、人と機械の間を問わず、円滑なコミュニケーションの妨げとなります。人間の情景分析能力の探求によってこのようなずれを少なくし、人間にとって自然なシステムの実現につなげていきたいと思っております。