「声の乱れ」に耳を馴らす



1.コンピュータは「声の乱れ」に弱い
 人間が話した音声をコンピュータで聞き取る、いわゆる自動音声認識(以下、音声認識)においては、音声中に含まれる「乱れ」によって認識誤りが起きてしまうことがあります。この「乱れ」の中には、注意深く聞けば人間でも検知できる文字単位の置き換わりのようなものから、人間が全く意識できない、スペクトル構造の微妙な崩れに至るまで様々なものが含まれます。前者のように人間にも検知可能な乱れはともかく、後者のようなほんの些細な乱れによってさえも認識誤りが起きてしまうことがあるのは、一体なぜなのでしょうか。

2.人間のように「声の乱れ」に慣れたい

 人間は、音声を聞き取るとき、「“ホ”の音はこんなふうに聞こえる」といった、音の特徴に関する知識とともに、言葉のつながりに関する知識を利用しています。例えば、ある文章の先頭部分が「オテル」と聞こえた気がしても、その後ろに「の予約」と続けば、前後のつながりから、先頭部分は「ホテル」であったと、特に意識しなくても聞き換えることができるでしょう。コンピュータによって音声を認識する場合も、これを真似て同じような処理を行なっています。音の特徴と言葉のつながりに関する知識はそれぞれ、「音響モデル」、「言語モデル」と呼ばれる情報として格納されており、認識結果は、これら両モデルに基づいて入力音声を総合的に評価することによって得られます。つまり、原理的には、先に述べた人間の場合と同じように、音声中に多少の乱れがあったとしても言語的な知識によるカバーが可能であり、実際、言語モデルの効果が極めて大きいことは明らかになっています。しかしながら、それでも取り除けない残り僅かの認識誤りに対しては、さしもの言語モデルも、もはや力及ばず、音響モデルで解決するほかなくなります。私達音声認識研究者にとっては悔しいことですが、それらの認識誤りが、人間には意識できないほどの些細な声の乱れに起因していることもあるのです。何とか、声の乱れに音響モデルを慣らすことで、この問題を克服することを考えなければなりません。

3.「声の乱れ」に弱いわけ
 では、実際に乱れによって認識誤りが起きている付近の音声は、音響モデルによって、どのように評価されているのでしょうか。図1は、本来結果として出力されるべき正解の文章に対する、音響モデルによる評価値の時間的推移を示したものです。ところどころ値が落ち込んでいるのが分かります。これらの落ち込みは、ほんの些細な乱れがあったことによるもので、ごく部分的なものですが、音声認識においてはこれらの部分的な落ち込みが誤りにつながってしまうことがあるのです。このことは、音声認識処理で通常用いられることが多い「ビーム探索」と呼ばれる手法と深く関係しています。ビーム探索とは、一種の限定的探索手法で、認識処理の中間段階で、ある一定値以上の評価値を持たない結果、候補を認識処理の終了を待たずに「枝刈り」する、つまり捨て去ってしまうというものです。このビーム探索は、認識処理に要する計算時間やメモリ量の観点から極めて効率的であり、また、全体としては、限定的探索に起因する認識性能の低下も小さいので、非常に実用的な手法ですが、先に述べたように、正解文章に対する評価値が些細な声の乱れによって部分的な落ち込みを起こした場合に、誤ってこれを枝刈りしてしまう危険性をはらんでいることになります。逆にいえば、音響モデルの性能向上によって、このような落ち込みを少しでも減らすことができるなら、ビーム探索の利点をそのままに、認識誤りを減らすことができる、ということになります。そこで私達は、この評価値の部分的な落ち込み修復にターゲットを絞り、声の乱れに音響モデルを慣らすための検討を行ないました。

4.音響モデル中の「乱れに弱い部分」を探す

 音響モデルの中では、実際の音声データ(一般に「学習データ」と呼びます)から抽出した、音素などの認識単位ごとのスペクトル構造に関する情報が、確率分布の組み合わせとして表現されています。確率分布の種類としては、複数の多次元ガウス分布を確率的に混ぜ合わせた「多次元ガウス混合分布」(以下、単に「混合分布」)が一般的によく用いられています。もしも、音響モデルの中で、どの混合分布が特に声の乱れに弱いのか、あらかじめ知ることができるなら、その分布を集中的に改善することでかなりの修復効果が期待できるでしょう。そこで私達は、上述の学習データと音響モデルを再度突き合わせることにより、乱れに弱い混合分布を探しだす方法を考えました。まず、学習データ中の正解音素列にしたがって混合分布を並べ、その混合分布の列と学習データ中の波形を照合し、全体の評価値が最も大きくなるように、混合分布と単位時間ごとの波形の細切れの対応関係を決定します。この対応関係は、学習データが認識対象の音声であったときに、正解文章についての、各細切れ波形に対する評価がどの混合分布によって行なわれるのかをそのまま示しています。次に、各細切れ波形に対して上述の正解音素列を使わずに音響モデル全体の中で最も高い評価値を与える混合分布を選びます。これら各細切れ波形に対して割り当てられた 2つの混合分布が同一のものであれば、認識時の正解文章についての評価に用いられる、いわば正解混合分布が最も高い評価値を与える、という意味で非常に望ましいといえます。ところが、実際には、約半数の細切れ波形において、これら 2つの混合分布は別のものであることが分かったのです。これらの細切れ波形においては、本来高い評価値を示すべき正解混合分布が相対的に低い評価値を示してしまっているわけですから、細切れ波形単位での誤りが起きていると考えられます。さらに、この誤りの回数を各混合分布ごとに集計することにより、それぞれの混合分布について、どのくらいの確率で誤りを起こすかを知ることができます(図2)。誤り確率が高い混合分布は、まさに声の乱れに弱い混合分布であると考えらえれ、実際、そのような混合分布において正解文章に対する評価値の落ち込みが高い頻度で起こることも、実験を通して知ることができました。

5.音響モデル中の「乱れに弱い部分」を修復する
 ここまでで声の乱れに弱い混合分布を知ることができたわけですが、実際にこれらの混合分布を修復するにはどうすればよいのでしょうか。実は、その鍵は音響モデル自身の中にあったのです。先程、混合分布は複数の多次元ガウス分布(以下、単に「ガウス分布」)を混合したもの、と言いました。つまり、音響モデル全体としては、混合分布の数倍〜数十倍の数のガウス分布が存在することになります。これらのガウス分布はいずれかの混合分布の一部なわけですが、これを一旦忘れて、各々単独のガウス分布として各細切れ波形をどのように評価するかを考えます。つまり、誤りが起きた各細切れ波形に対して、音響モデル全体の中で最も高い評価値を与えるガウス分布を選ぶのです。この情報を上述の混合分布毎の集計に組み込むことにより、それぞれの混合分布について、どのくらいの確率で誤りを起こし、そのとき高い評価値を与えていたガウス分布はどれであったかを知ることができます。私達は、この方法で知り得たガウス分布を追加混合することで(図2)、混合分布の修復が行なえると考えたのです。私達はこれを「混合分布の再構成」と呼んでいます。図3は、再構成前と再構成後の正解文章に対する評価値の時間的推移を比較したもので、評価値の部分的な落ち込みが減っていることが見て取れます。本手法を用いて修復した音響モデルにおいては、音声認識誤り全体の10〜15%が取り除かれていることを音声認識実験により確認しました。

6.さらに「声の乱れ」に慣れるために
 ここで御紹介した混合分布の再構成は、もともとの音響モデル作成に用いた学習データを再度用い、比較的簡単な処理で認識誤りを削減することができる実用的な方法といえます。現状で得られている効果は、ほぼ再構成そのものによってのみもたらされていると考えられますが、私達としては再構成後に適切な基準による分布パラメータの再推定を行なうことで、よりその効果を高めることができると考え、さらなる研究を進めています。


参考文献


Copyright(c)2002(株)国際電気通信基礎技術研究所