耳を使って話す
−40年来の懸案にブレークスルー−



1.話せなくなった大統領

 某国の国立競技場の竣工の式典での事件です。雰囲気も盛り上がりいよいよ大統領の演説となりました。大統領は壇上に上がり、演説を開始しました。しかし、何か変です。まともに話せないのです。つっかえたり、妙に間延びしたり、抑揚さえも大きく乱れています。いったい何が起こったのでしょうか?犯人は、会場に設置されていたスピーカーからの音でした。自分の声がそれらのスピーカーから約1/5秒ほど遅れて聞こえていたことが、大統領のなめらかな演説を妨害していたのです。

2.動かなくなった音声認識システム

 20年ほど昔の某研究所での事件です。新しい音声認識システムのデモンストレーションの日です。この日に向けて、認識システムは担当者の声に合わせて注意深く調整されていました。当日の会場の混雑も予想して、話者以外の騒音を拾わないように接話マイクを使用する等、音響的な条件にも十分注意がはらわれていました。しかし、いざ蓋を開けて見るといつもの性能が出ません。たびたび生ずる認識誤りを機転と話術で切り抜けたものの、担当者は薄氷を踏む思いでした。何が悪かったのでしょうか?実は、機械に問題があったのではなく、周囲の騒音と興奮とで発声者の声の方が変化してしまっていたのです。

3.忘れられていた発声と知覚との相互作用モデル

 先の二つの例は、発声に聴覚が深く関わっていることを示す証拠として知られている現象の典型的な例です。最初の事件は、遅延聴覚フィードバックとして1950年代から知られている現象の実例の一つです。第二の事件は、Lombard効果として19世紀から知られている現象の影響を示す例の一つです。これらの例は、発声に対して聴覚が関わっていることを示すための効果的なデモンストレーションではあります。しかし、通常の発声のときに聴覚からの情報がどのように用いられているかをこれらの現象に基いて調べることは困難でした。遅延聴覚フィードバックの結果を説明するために、既に1950年代には発声の多重フィードバック制御モデルが考えられていました。しかし、遅延聴覚フィードバックでは正常な発声が破壊されてしまうため定量的に影響を評価することが困難であることと、影響の現われ方の個人差が非常に大きいこともあって、このモデルはその後40年以上にわたって実証されることがありませんでした。

4.相互作用の非破壊測定:変換聴覚フィードバック
 私たちは、正常な発声状態を破壊することなく音声の知覚と生成との関係を調べるために、変換聴覚フィードバックと呼ぶ方法を開発しました。この方法では、に示すような実験系を用います。マイクたら入力された発声者の声は、信号処理によって特定の音声の特徴量(例えば声の高さや音色等)が操作された後に再合成されて、発声者の装着しているヘッドフォンを通してほぼ実時間で提示されます。つまり、発声者は、ほんの少し変化した(音の性質が変換された)自分の声を聞きながら話すことになります。ここで音声の特徴量の操作を微小な範囲に留めて発声に異常が生じないようにしておきます。この時に音声の特徴量の操作方法を工夫することにより、提示される音声の特徴量の変化とその時に発声される音声を分析して得られる特徴量との関係を定量的に求めることができるようになります。
 特徴量の操作には、デジタル通信の暗号化にも用いられることのある特別な不規則な信号を用いました。その結果、音声信号に本来含まれている特徴量の揺らぎを排除して、操作により生じた影響だけを分離して測定することが可能になりました。また、被験者の意識的な構え等による影響も排除することができるようになったのです。

5.声の高さの自動制御機構を実証
 こうして開発した変換聴覚フィードバックを用いて、聴覚からの情報がどのように声の高さ(基本周波数)の制御に影響するかを測定しました。その結果、提示される声の高さに変動が生じた場合には、その変動を打ち消すように発声される声の高さが自動的に変化することがわかりました。また、それだけではなく、この聴覚を介した声の高さの調整には、2つの異なった特性の機構が関わっているらしいという実験結果が得られたのです。一つは無意識のうちに生ずる反射的な成分で、1/10秒程度の比較的速い応答速度をもっています。もう一つは、声の高さの知覚に関係すると考えられるもので、1/2秒程度の比較的遅い応答速度をもっています。
 こうして測定された機構が、変換聴覚フィードバックのような人工的な操作を加えた状態だけでなく通常の発声でも確かに働いていることを実証することが次のステップになります。ここまでの実験で、変換聴覚フィードバック条件での音声の特徴量の変動と発声された音声の特徴量との関係が定量的に求められています。したがって、普通の発声の場合にも同じ関係が成立するのであれば、聴覚が声の揺らぎにどのように影響を与えるかを定量的に予測できることになります。この様な実験をしたところ、予測通りの性質を持ったゆらぎの成分が見つかりました。また、特定の提示条件を設定すると、予測通り音程が不安定になって、どんどん揺らぎが拡大して行くことも確認できました。こうして40年以上前に想像されていた多重フィードバックモデルの実在が証明され、具体的なモデルを規定するパラメータの一部が明らかになったのです。

6.人と馴染む技術に向けて
 今回の変換聴覚フィードバック実験によって、音声の発声と知覚が密接にからみあったものであることの一端が明らかになりました。言葉を変えれば、「私たちは耳を使って話している」ということが、定量的にも実証されたのです。
 私たちの仲間の研究により、成人であっても音声の知覚特性が環境に応じて変化していくことが証明されています。さらに、このような知覚の変化が実際に発音を変えてしまうこともつい最近実証されました。変換聴覚フィードバックの結果やこれらの事例は、人間が本来マルチモーダルな生き物であることを示す証拠であると考えられます。様々な機能を総動員して、置かれた状況と相互作用を行なうことで常に自分の特性を変化させながら適応して行くものであるということが、次々と具体的に明らかになって来ているのです。これまでの技術が一見成功を修めて来た背景には、このような高度の柔軟性をもつ人間にしわ寄せすることによってシステムの硬直性を覆い隠して来たということがあるのではないでしょうか? このような相互作用や可塑性をシステムの側にも取り入れることで、むしろ人間を助けるようなコミュニケーションシステムを実現することが将来の課題になります。私たちは、変換聴覚フィードバックを用いた研究により、そのようなシステム実現のための鍵となる情報を明らかにしていこうと考えています。



Copyright(c)2002(株)国際電気通信基礎技術研究所