aka(赤)とaki(秋)の/k/は同じ音?
−前後の音素を考慮した高精度音声認識−




ATR自動翻訳電話研究所 音声情報処理研究室 鷹見 淳一、永井 明人、嵯峨山茂樹



1.「赤」と「秋」の/k/は同じ音?
 まず、自分で「あか/aka/」と「あき/aki/」を発声して見て下さい。どちらも/k/という音素が含まれていますが、同じ音でしょうか。「あか」の/k/は、口を広く開けて発声される破裂音です。しかし「あき」の/k/の場合は、口を狭くして発声される摩擦性の音になります。これらの音声波形を図1に示します。後に続く音素(後続音素)によって、かなり違う音になることに気がつかれると思います。
 他の例を挙げましょう。「湯を売る/yuouru/」を発声してみて下さい。この場合は母音/u/が3つ含まれますが、全部違う音の作り方をしています。最初の/u/は先行音素/y/の影響を受けてやや口を平たくした/u/、次の/u/は先行音素/o/に引かれて唇をやや丸めた/u/、最後の/u/は唇をあまり丸めずに比較的緊張がとれた/u/ではないでしょうか。これは先行音素の影響が大きい例です。
 このように、同じ記号で表されている音素でも、先行音素や後続音素の影響を強く受けて、調音(口や喉を動かして発音する仕方)的にも音響(発声される物理的な音)的にもいろいろと変動します。上の例で示した先行音素や後続音素のように、ある音素を調音的・音響的に変化させる要因として働くものを、広い意味で「音素環境」と呼んでいます。音素環境には、先行音素や後続音素の他にも、声の高さ(ピッチ)や話者、発話速度、言語、パワー、アクセントの有無、語頭からの位置、感情、発話意図など、多くの要因が考えられ、これらの要因で音素の音響的なパターンはさまざまに変動します。音素のパターンは、人間同様、環境に左右されやすいのです。

2.音素パターン変動への対処
 音素環境の違いにより生じる音素パターンの変動が、音声認識を難しくしているひとつの大きな原因となっています。
 これまでの音声認識では、なぜ音素パターンに変動が生じているのかという原因については特に考慮せず、そのような変動をすべて音素モデルの表現能力で吸収してしまうという方法が多く採用されてきました。この場合の音素モデルとしては、かなり表現能力の高い、複雑なものが要求されます。
 しかし、このような音素パターンの変動は、全く予測できないものでしょうか。そうではありません。先の例のように、各音素のパターンがどのような音素環境でどのように変動するのかがわかっていれば、ある程度予測することができます。そして、その変動の傾向が同じであるような音素パターンごとにモデルを作成することにより、簡素で高精度の音素モデルを実現することができるのです。

3.これまでの音声認識
 本題に入る前に、ATRを始めとする多くの研究機関でこれまでに研究されてきた音声認識手法に関するいくつかの基本的な要素技術について説明します。
3.1音声のパターン化
 まず始めに、音声のパターンとはどのようなものであるかを考えてみましょう。音声は人間の調音器官によって作り出される空気の波、すなわち波形信号です。しかしこの波形信号には、音声の認識にとってあまり重要ではない、位相成分や声の高さなどの情報も含まれているために、見かけ上のばらつきが大きく、そのまま扱うことは少々厄介です。そこで、「音響分析」と呼ばれる処理によって、波形信号の中から認識に役立つ情報(主に音声のスペクトルに関する情報)のみが取り出されます。こうして得られる情報は、音声の短時間スペクトルの時系列となります。これが音声のパターンです。
 この音声パターンは、音声スペクトル空間上の点(すなわち音声の短時間スペクトル)が、時間の進行と共に、比較的ゆっくりと移動しながら描く軌跡であると考えることができます。この様子を図2に示します。この場合、音声の特徴が似ているほど、音声スペクトル空間上の点も似たような軌跡を描きます。したがって、この軌跡が音声を認識するときの手がかりとして使えます。
3.2隠れマルコフモデルの原理
 次に、隠れマルコフモデル(Hidden Markov Model:HMM)[1]を用いた音声パターンのモデル化手法について紹介します。このHMMを用いた音声認識手法は、大語彙・連続・不特定話者音声認識の実現に向けて、現在もっとも有望な手法であると考えられています。HMMは確率理論を基盤とした数学的に厳密な確率モデルですが、ここでは、その原理を直観的にとらえてみましょう。
 まず、様々な値の信号を、それぞれある一定の確率分布に従って生成することのできるような確率的な信号源を想定します。そして、音声スペクトル空間上の点の軌跡を、いくつかの異なる出力特性を持つ信号源が、時間の進行と共に切り替わりながら出力した信号であると考えてみます。
 この場合、音声パターンの短時間スペクトルのばらつきが大きい区間には、その大きさに見合う程度に広がった確率分布を持つ信号源を使い、そのばらつきが小さい区間には、狭い確率分布を持つ信号源を使えばよいことになります。また、音声パラメータの時間的な変化が激しい区間では、信号源を頻繁に切り替え、それが穏やかな区間では、一つの信号源を繰り返し使えばよいのです。
 このように、確率的な信号源という概念を導入することで、音声パターンをうまく表現することができます。そして、これがHMMの原理です。すなわち、HMMは、音声の短時間スペクトルのばらつきおよびその時間変化を、いくつかの確率的な信号源の切り替えにより表現したモデルである、ということができます。この場合、各信号源の出力確率の分布形状が複雑なほど、また信号源の切り替え回数が多いほど、HMM全体としての表現能力は高くなり、複雑な音声パターンが表現できます。
 音声認識でよく用いられるHMMは、いくつかの信号源(HMMでは、これを「状態」と呼びます)と、その信号源の出力特性を表す確率分布、および信号源の切り替えタイミングを表す確率値で構成されています。この様子を図3に示します。
 HMMを用いて音素の認識を行なうためには、まず、「学習」アルゴリズムを用いて、音素カテゴリごとのパターンの特徴を表現した「音素HMM」を、音素カテゴリの数だけ形成します。そして認識時に入力パターンが与えられると、そのパターンがどのHMMから出力される確率が最も高いかが「評価」アルゴリズムにより検証されます。こうして選ばれたHMMで表現されている音素カテゴリが、入力パターンに対する認識結果となります。
3.3隠れマルコフモデルによる連続音声認識
 ATRでは、音素カテゴリごとに学習された「音素HMM」による音声パターンの評価を、「予測LRパーザ」により文法規則に基づいて効率よく行ないながら、連続的に発声された音声を認識するための「HMM-LR」法が考案され、文節区切りで発声された音声に対する高速の認識が実現されています。なお、このHMM-LR法については、参考文献[2]で詳しく説明されていますので、ここでの説明は省略いたします。

4.HMMにおける課題
 高性能な音声認識を実現するためには、高精度で頑健な音素モデルが必要となります。ここで、高精度なモデルとは音素パターンの本質的な特徴をうまく表現したモデルを、頑健なモデルとは多少のパターンのばらつきがあってもそれを吸収できるようなモデルを意味します。このようなモデルを作成するためには、次のような課題があります。
4.1高精度なHMMの実現に向けて
 高精度なモデルを作成するためには、音素のパターンのばらつきが少ない学習サンプルを用いて学習を行なうことが有効です。
 しかし、単純な音素HMMでは、各HMMが、それぞれ音素環境の違いにより様々に変動した音素パターンを含んだサンプルで学習されるため、精度の高いHMMを形成することが難しくなります。
 これに対して、最近では、音素カテゴリを音素環境ごとに細かく分類し、それぞれ別々のHMMで表現しようという方法が多く用いられるようになりました。これにより、それぞれのHMMの学習に用いられる音素パターンのばらつきが減少し、精度の高いHMMを形成することができるようになります。このようなHMMは「音素環境依存HMM」、あるいは「異音HMM」と呼ばれています。
 しかし、実際にこのような音素環境依存HMMを実現することは、それほど簡単なことではありません。それは、起こり得るすべての音素環境下で得られる音素パターンを含んでいるような膨大な量の学習サンプルを手に入れることが難しいので、異なる音素環境ごとに別々のHMMを学習することができないためです。したがって、音素パターンに与える影響が似ていると思われる音素環境は同じカテゴリとして扱う、といった対策が必要となってきます。
 さらに、このような方法では、音素環境の細分化に伴ってHMMの数が増えてしまうため、一つのHMM当たりの学習サンプルの量が少なくなってしまうという問題もあります。したがって、この点についての対策も必要です。
4.2頑健なHMMの実現に向けて
 一方、頑健なモデルを作成するためには、学習サンプル中の音素のパターンの持つ本質的な特徴だけをうまく表現することが大切です。音声パターンには常にある程度のばらつきがあり、全く同一のパターンを持つ音声が再現されることはありません。しかも私たちが実際に使用することのできる学習サンプルは、量的にも制限があり、また質的にも統計上の偏りがあったり、ノイズ等の汚れがある場合が普通です。したがって、そのような学習サンプルの偏りや汚れなどの「くせ」も含めて必要以上に忠実に表現したようなモデルでは、音声の普遍的な特徴を表すことができません。一般に、学習サンプルの量が少ないほど、あるいはHMMの表現能力が高いほど、普遍的に乏しいモデルが形成されやすくなります。このような現象は「過剰学習」と呼ばれ、未学習の音声パターンに対する認識性能を低下させる大きな原因となります。過剰学習を避けるには、必要最小限の表現能力を持つHMMで、学習サンプルの持つ本質的な情報のみを効率良く表現するための工夫が必要となります。

5.隠れマルコフ網(HMnet)による音声認識
 ここまでの説明で、HMMを用いて高精度で頑健な音素モデルを形成する際に問題となるいくつかの点が明らかになりました。これらをまとめると次のようになります。
 ・音素環境の分類をどのように行なえばよいか?
 ・各HMMの表現能力をどの程度に設定すればよいか?
 ・HMMの増加に伴う一モデル当たりの学習サンプルの減少をどのように克服すればよいか?
 ATRでは、これらの問題を同時に解決し、高精度で頑健なHMMを生成するための手法を考案しました[3]。この手法は、その原理から「逐次状態分割法(Successive State Splitting:SSS)」と名付けられました。この手法により、隠れマルコフ網(Hidden Markov Network:HMnet)と呼ばれる、表現効率の高い音素環境依存HMMが実現されます。
 ここでは、このHMnetを用いた音声認識手法について紹介しましょう。
5.1隠れマルコフ網(HMnet)
 HMMの表現効率を高めるための一案として、部分的に似ているパターンに対しては、たとえそれらが異なる音素環境に属する音素のものであっても同じ状態で表現することを考えます。例えば、音素のパターン変動に最も影響の大きい先行音素や後続音素について考えた場合、先行音素の影響はそのパターンの前半部分ほど強く、後続音素の影響は後半部分ほど強く現れると考えられます。したがって、先行音素が違うためにそれぞれ変動した音素パターンであっても、それの後半部分では似たようなパターンになる可能性があります。このときは、その後半部分は共通の状態で表現できます。
 このように考えると、いくつかの状態を特定の音素環境における音素パターンを表現するためだけに用いるよりも、個々の状態を複数のHMMで共通に使用する方が、全体の状態の数が少なくなり、表現効率の高いモデルになることがわかります。これにより、学習サンプルも複数の状態で共通に使用することができるため、限られたサンプルを有効に使った学習が行なわれ、モデルの頑健性も向上します。HMnetは、このような考えに基づいて考案された、高精度で頑健な音素環境依存HMMです。
 HMnetは複数の状態を網状に結合したものとして表されます。各状態にはそれぞれ以下の情報が個別に与えられ、その独立性が高められています。
 ・状態の番号。
 ・この状態で表現できる音素環境の集合。
 ・この状態に先行および後続する状態の集合。
 ・出力確率分布のパラメータ。
 ・後続する状態への切り替えタイミング。
 ここで、日本語子音/k/の音素パターンを、先行音素と後続音素の影響を考慮して15個の状態で表現した場合のHMnetの構造を図4に示します。この図では、各楕円が一つの状態を表し、その中に記されている情報は上から順に、状態の番号、先行音素の集合、後続音素の集合を示しています。
5.2逐次状態分割法
 HMnetは、逐次状態分割法(SSS)により自動的に生成することができます。ここでは、このSSSの原理について説明しましょう。
 学習によりHMMを形成すると、音素パターンのばらつきが大きい区間を表現している状態ほど、その出力確率の分布は大きく広がったものとなります。したがって、HMMの各状態の出力確率分布の大きさを調べれば、どの状態で表現されている区間で音素パターンが最もばらついているかがわかります。
 この最も大きく広がった分布を持つ状態を新たな二つの状態に分割し、それらの状態を独立した信号源として形成し直すことによって、それぞれの状態が表現すべき区間での音素パターンのばらつきを減らし、表現精度を向上させることができます。つまり、そこでのばらつきが、音素環境の違いにより生じている場合には、その音素環境を分割してそれぞれを新たな状態で表現すれば各状態でのパターンのばらつきは大きく減少します。また、そのばらつきが、その区間における時間的なパターンの変化が大きいために生じている場合には、その区間を新たな二つの状態の連結により表現すればよいのです。この様子を図5に示します。
 SSSは、このような考えに基づいて状態の分割を、たった一つの状態から始めて繰り返し行ないながら、モデルの精密化を徐々に進めていくというアルゴリズムです。これにより、音素環境の分類やモデルの構造、各状態の出力確率分布などが、すべて学習サンプルから自動的に最適化されるため、その表現に無駄が少ない効率的なモデル、すなわちHMnetを生成することができます。
5.3連続音声認識への適用
 HMnetを、これと並行してATRで開発された音素環境依存型の予測LRパーザ[4]と組み合わせた「SSS-LR」方式を用いて、高性能連続音声認識システムを構築しました[5]。ここで、このシステムの連続音声に対する認識性能を紹介します。
 このシステムで用いているHMnetは、日本語の全音素を、先行音素と連続音素の影響を考慮してモデル化したもので、全体で600個の状態を持っています。そして、このHMnetでは、1,688通りの異なる音素環境に対応するHMMが表現されています。
 評価用音声には、男性話者1名が発声した国際会議への参加問い合わせに関する会話を用いました。
 約1,000単語の語彙を持つ文法を用いて行なった認識実験の結果、第一位認識率で93.2%、第五位までの累積認識率で99.6%という、高い認識率を得ることができました。この認識性能は、これまでATRで行なわれていた音素環境を考慮しない方法と比べて、認識誤りを半減するまでに至っています。
 HMnetは、現在、ここで紹介した特定話者の音声認識の他にも、話者適応による多数話者の音声認識[6]や、不特定話者の音声認識[7]などに応用され、いずれの場合においてもこれまでの方法を上回る良好な結果が得られています。

6.むすび
 ATR自動翻訳電話研究所で行なっている、音素環境を考慮した高精度な音声認識手法について紹介しました。高精度で頑健な音素環境依存型HMMである隠れマルコフ網(HMnet)と、その自動生成アルゴリズムである逐次状態分割法(SSS)の開発により、連続音声に対する認識率を大幅に向上させることができました。
 なお、ここで紹介した「SSS-LR」方式は、ATR自動翻訳電話研究所の連続音声認識システム「ATREUS」の主要部分に用いられ、今年度で終結する自動翻訳電話プロジェクトの最終実験システム「ASURA」の音声認識処理部として使用されます。


参考文献