音を聞き分けるテクノロジー
─ 耳の能力に迫る ─



1.はじめに
 我々人間はいろいろな音を「聞き分ける」能力を持っています。もしこのような聞き分けをコンピュータでできればどんなにすばらしいことでしょうか。そうしたコンピュータができれば、例えば騒音の中から特定の人の声のみを聞き分ける音声認識システムあるいは怪しい物音や足音を聞き分けて住人に知らせるセキュリティシステムなどに応用できます。以下に我々の研究室が取り組んでいる研究内容と今後の目標について話をしたいと思います。

2.基本技術:パターン認識
 まず、コンピュータで音を聞き分けるための基本技術であるパターン認識について簡単に説明します。パターン認識とは、得られた情報を予め定めておいた複数のカテゴリの一つに割り当てる技術です。例えば、マイクで拾った音声を一つの言葉カテゴリに割り当てるのは音声認識と呼び、スキャナなどで取り込んだ情報を文字カテゴリに割り当てるのは文字認識と呼びます。ここでは音声認識を例にとって説明しましょう。
 音声認識ではまず、観測された音声(の波形)からその内容を聞き分けるための手がかりとして、いくつかの値を計算します。この操作を「特徴抽出」、得られた値を「特徴」と呼びます。仮にこの特徴の数が2個の場合、観測音声は図1に示す二次元空間(すなわち平面)上の▲で表されます1(もちろん実際には、僅か2個の特徴というのは極めてまれですが、3個以上でも考え方は同じです)。
 音声認識では、この得られた特徴(▲)を複数のカテゴリ(つまり言葉)の一つに割り当てます。この操作を「分類」と呼びます。分類するには、前もって各カテゴリごとにそのカテゴリの代表的な「プロトタイプ(モデル)」を用意しておき(図 1の×)、観測音声の特徴(▲)に最も近いプロトタイプを選び、それが所属しているカテゴリ(言葉)に音声が振り分けられます。数多く存在するパターン認識システムは、いずれも近さの測り方が異なっていることを除いて、この分類方法をとっています。
 音声を精度良く聞き分けるには、騒音などに強くしかもカテゴリ判断の誤りをなるべく少なくする特徴抽出方法とプロトタイプの学習が必要となります。

3.学習 ─── 「中心」から「境界」へ
 それではプロトタイプはどのように予め用意したら良いのでしょうか? 従来から良く使われている方法では各カテゴリ毎に学習用音声サンプルをたくさん集めて、それから抽出された特徴(図1中の●と○)のカテゴリ毎の平均を求め、それをプロトタイプとしていました。確かに、カテゴリごとの代表を選ぶという観点からはそれは妥当なように思えますし、実際、多くの音声認識システムはその考えに基づいて開発されてきました2。しかしこの方法ではカテゴリの「中心部分」が重点的に学習され、これは大きな問題点なのです。というのはカテゴリの判断が誤りやすいサンプルは中心部分よりも判定の境目(カテゴリ境界、図1)付近にあるからです。ですから誤りを最小にしたいならば、この「カテゴリ境界」こそ学習精度を上げなければなりません。
 そこで我々は、学習サンプルが誤って分類された時にカテゴリ境界を作り直す学習方法に着目しました。ただそれはやみくもに修正するだけではだめで、分類誤りが最小になるようなものでなければなりません。この要求に答えるべく、我々は一般化確率的降下法(GPD)を開発しました。GPDは、原理的に分類誤り確率が最小となる状態を達成できることが数学的に証明されています。我々はこのGPDを、いろいろな音声認識システムの設計に応用し、その結果認識精度が飛躍的に向上することを実証しました。さらにGPDは、音声認識に限らず、文字認識など一般のパターン認識に広く利用できる、極めて汎用的なアイデアです。

4.学習 ───「分類」から「特徴」へ
 以上により、「分類」の誤りが最小となる学習法が実現できましたが、分類が行われる土俵、すなわち、「特徴」の抽出方法はこのままでいいのでしょうか? 仮に学習用のサンプルに対しては誤りが最小になったとしても、学習外の未知のサンプルに対して精度が高いかどうかはわかりません。騒音、話し手の違い、話し方の違い ... などが未知サンプルに対する変動をもたらします。よって、このような変動に左右されない、聞き分けるためだけに本質的な特徴を探ることが重要です。
 前節で紹介した学習方法の対象は「分類」でしたが、これを「特徴」の抽出方法にまで拡張できないかに着目しました。そうすれば聞き分ける誤りを少なくする特徴を見つけ出すことができます。今日まで、人間の耳の働きを真似た特徴抽出方法が数多く提案され、実際に広く用いられていますが、前節で述べた学習方法と異なる方法で設計されているため、システム全体の性能を考えたとき、必ずしもベストなものとは言えません。
 そこで我々はGPDを拡張し、特徴抽出部と分類部を同時に誤り最小化の目的の下で学習する理論:「識別的特徴抽出法(DFE)」を開発しました。このDFEもGPDと同様に一般のパターン認識に応用できる汎用性の高い理論ですが、主に音声認識で有効性が実証されています。例えば、音声認識の精度の向上に対して重要な周波数がどの辺りなのかを自動的に見つけ出すことができて、同時に認識精度が大きく向上することが示されたのです3

5.「音声」から「音」へ
 今までは人の話す内容,すなわち音声を聞き分ける技術についての話しでした。しかし,普段耳にするのはもちろん人の声だけではありません。鳥のさえずり、エンジンの音、電話の呼びだし音など、様々なたくさんの種類の音があります。そこで我々は今まで述べてきた学習理論を使って、音声だけでなくいろいろな「音」を聞き分けるシステムを作ることを考えました。
 我々は、日常の音環境の中で拾いたい音のみを選択的にキャッチできるシステムを開発しました。ここでは、2.で述べたものと同様の考え方で、予め「拾いたい音のプロトタイプ」を用意し、そのプロトタイプとの近さが、ある規準の値(しきい値)より小さい音のみを検出します。そしてGPD を拡張し、観測音が拾いたい音と同じカテゴリであれば検出し、異なるカテゴリであれば検出しないように、プロトタイプとしきい値を同時に学習する「最小検出誤り学習法(MDE)」を生み出しました。
 このMDE に基づく音響検出手法が、長野オリンピックに設営された交換器設備のセキュリティ音響監視システムに試験運用されました。突然の救急車の音や空調の音、会場の大歓声などで誤作動も起きましたが、拾いたい音(電話の呼び出し音や足音)が精度良く検出され、システムの基本性能が確認できました。

6.これからの研究
 これまでは音声や音を正確に聞き分けるシステムの学習方法を、特に数理統計学的な視点で研究してきました。しかし、得られたシステムはまだまだ人間の能力には及びません。例えば、人が苦もなくできる重なり合った音を分けて聞き取ることが、今のコンピュータではほとんどできません。そこでこれからもっと必要になるのは、人が本当はどのような方法で音を聞き分けているのか、そのメカニズムを探る研究です。今後は、人が音を聞き分けているメカニズムの数学的なモデルを作り、そのメカニズムをコンピュータで動かせる形に持っていこうと考えています。これが実現されれば、音の情報通信技術が大きく飛躍することは間違いないでしょう。



Copyright(c)2002(株)国際電気通信基礎技術研究所