音韻モデルと文法を融合した音声認識
ATR自動翻訳電話研究所 川端 豪、北 研二
1.はじめに
自動翻訳電話に代表されるような、自然言語による音声入力システムにおいては、種々の高度な特性が実現されている必要があります。すなわち、
(1)不特定話者音声認識:不特定多数の人の音声を認識できること。
(2)大語彙音声認識:会話に必要な数千種類以上の単語が認識できること。
(3)連続音声認識:個々の単語ではなく、連続して発声された単語を認識できること。
これらの項目のうち(1)については、既に第3号に紹介されているので、本稿では(2)(3)の項目に重点を絞って説明します。
2.大語彙音声認識
まず「大語彙」について考えてみます。私たちの日常使う単語は、辞書の見出し語を数えるならば約7万5千語、そのうち頻繁に用いられる重要語だけで約5千語もあります[1]。実際には会話、ある局面に用いられる単語の種類はもっと限られているのですが、それでも会話の認識を行うためには数千以上の単語を認識することが必要です。このような大語彙の音声認識を行う場合、従来の音声認識手法では数千の単語を前もって発声し、登録しておくことが必要でした。しかし使用者にこのような大きな負担を課すのは、自動翻訳電話の性質からいって不適切なだけでなく、それでもまだ連続音声の場合には十分とはいえません。
そこでATRでは、これまでに「音韻モデルを用いる音声認識法」を研究してきました[2]。基本的な考え方は、音声を音韻という細かな単位に分割し,音韻認識の組み合せで全体の音声を認識します。音韻とはローマ字表記の個々のローマ字に相当し、例えば「朝日」という音声を認識するのには、これを/a/、/s/、/a/、/h/、/i/の各音韻に細分し、その各々を認識するわけです。この方法によれば、たかだか数十個の音韻を認識することで、数千の語彙を容易に取り扱うことができます。また、固有名詞もローマ字表記の登録だけで語彙中に含めることができます。
高精度の音韻認識を実現するために、各音韻をHMM(Hidden Markov Model)と呼ばれる手法によってモデル化します[3]。これは確率モデルの一種で、大量のデータを用いた学習によって、音声の多様な変化に対応することができます。
3.連続音声認識
次に「連続音声」について考えてみます。初期の音声認識システムでは、精度などの点から、孤立して発声された単語を認識するのが精一杯でした。これに対して、私たちが日常使っている音声は、いくつもの単語が連続しています。例えば「行きますか」という表現は、「行き・ます・か」と単語に分解できます。もし音声認識システムの入力として、このように単語ごとに区切った発声を要求するならば、システムの使用感は非常に悪いものになってしまいます。連続して発話された単語を認識する技術は自動翻訳電話の実現に不可欠といえます。
ところで、音声は単語の連続であるといっても、あらゆる単語が無制限に連続するわけではありません。例えば、丁寧語「ます」は「行き・ます」のように動詞に続いて用いられますが、「山・ます」と名詞に続くことはありません。このような、ある単語がある単語に連続できるか否かの制限は、「文法」によって規則化されます。ATRでは、この文法の果たす役割に着目した連続音声認識システムを研究してきました。音声認識システムでは、入力された音声を時間順に処理していきますが、その各段階で、次にくる単語・音韻の候補を予測します。このとき、予測される候補の数が小さければ小さいほど認識精度は高くなり、計算時間も少なくてすみます。こ「文法に基づく音韻予測」はLRパーザ*)と呼ばれる構文解析機構を改良することによって実現され、音声認識システムの高精度・高効率化に大きく貢献します。
4.音声モデルと文法を融合した音声認識
以上述べてきたように、自動翻訳電話に適した特性を備える音声認識システムを「音韻モデルを用いる音声認識」及び「文法に基づく音韻予測」の融合によって実現することを考案しました。この方式を、HMM-LR方式[4]と呼ぶことにしました。
4-1音韻モデルを用いる音声認識
精度よく音韻を認識するために、HMM(Hidden Markov Model)を用いて音韻をモデル化します。
図1に音韻/k/のスペクトログラムを示します。横軸は時間、縦軸は周波数を表しています。このような時間−周波数パターンは、音声の特徴を精密に観察する方法として、一般的によく用いられます。この図から音韻/k/は3種類の異なるスペクトル(A、B、C)の時間的な連結によって構成されているということがわかります。これと同じようにして、それぞれの音韻は各々複数のスペクトルの連結で構成されていると考えられます(母音の場合は1つ)。
このような時間遷移を表すためには、確率モデルの一種であるマルコフモデルを用いるのが、たいへん便利です。図2にマルコフモデルの例を示します。モデルはいくつかの状態とそれを結ぶ遷移からなっています。例えば図1/k/の音声が入力すると、あるスペクトルが継続する間、マルコフモデル上ではループ状の遷移によって状態(A)が継続し、音声が次のスペクトルに変わると、マルコフモデル上も隣の状態(B)に遷移します。このように、マルコフモデルの3つの状態は、各々スペクトルの3つのパターンに対応づけることができます。
マルコフモデルの状態とスペクトルの対応づけは、前もって収集した音声の色々なバリエーションを用いて、統計的な処理(学習)によって自動的に行われます。この方法によれば、極めて高精度のモデル学習が行える反面、学習結果がモデル中の多数のパラメータ中に分散するため、形成された対応関係を外から観察するのは難しくなります。このため、このモデルは「隠れマルコフモデル(HMM)」と呼ばれます。
HMM法では音韻モデルの形成に人手を介さないので、独断や思い込みによるモデル化の限界がない反面、学習のために大量の音声データを必要とします。HMM音韻認識に基づく高精度の音声認識には、ATRの大規模音声データベース[5]が大きく貢献しています。
4-2文法に基づく音韻の予測
ATRの音声認識システムでは、音韻を一つ認識するごとに、予測LRパーザ(Predictive Left to Right Parser)を用いて、後続音韻の予測を行います。LRパーザは、もともとは計算機言語などの人為的言語の構文解析のみに用いられていた手法でしたが、冨田[6]によって文法の曖昧さを取り扱えるように拡張され、自然言語への利用の道が開けました。これを、さらに発展させ、単語・音韻の予測を行えるように改良したのが、予測LRパーザです[4]。
図3に簡単な文節文法の例を示します。この例では「薪は」「豆を」など非常に限られた文節のみが許されています。LRパーザは、この文法を図4のような表形式に展開します。表の縦軸は「パーザの状態」、横軸は「音韻」です。まず状態0の横一行をみわたすと/m/の列にs1という記号がみつかります。これは図3の文法に従う文は必ず/m/で始まるということを意味しています。記号「s」に後続する数字は「行先」と呼ばれ、次の状態を指定します。状態1において同様に次の音韻が必ず/a/であることがわかり、状態2に進みます。状態2では、/k/、/m/、/r/の列に項目がみつかり、複数の音韻が予測されたことになります。音韻が/k/のときは状態3に進み、次の音韻が/i/であることがわかります。音韻が/m/のときは状態6に進み、次の音韻は/e/となります。この操作によって次々と音韻を予測し、表中に特殊記号「acc(accept)」が現われるまで繰り返します。
4-3音韻モデルと文法を融合した音声認識[4,7]
このように予測LRパーザでは、LR表の横一行の探索によって、音韻予測を行うことができます。HMM-LR法では、この予測結果に基づいて音韻モデルを連結し、文章のモデルを合成していきます。この様子を図5に示します。まず状態0で/m/が予測され、/m/の音韻モデルを左端に配置します。次に状態1で/a/が予測され、/a/の音韻モデルを先程/m/のモデルに接続します。状態2では、複数の音韻/k/、/m/、/r/が予測され、モデルが分岐します。このようにして生成されるモデルの中で、入力音声に対し最も確率の大きくなるものが選ばれ、認識結果として出力されます。
この方式の性能を文節認識実験によって評価しました。まず、ある特定の男性話者が発声した5240単語を用いてHMM音韻モデルの学習を行います*)。これは発声のバリエーションの標準の基本データをとるためです。文節認識用の文法は、約1000単語を取り扱えるものを人手によって作成し、実験に用いました。認識対象は同じ話者によって発声された25会話文(279文節)で、国際会議の参加登録に関する問い合わせをタスクに設定しました。認識実験の結果、第一位で認識できた文節が85.3%、第五位までの累積認識率は98.9%という性能が得られました。これは従来の手法では全く考えられなかった優れた結果です。
5.むすび
自動翻訳電話に組み込まれる音声認識システムに必要な特性のうち、大語彙及び連続音声認識の2点を取り上げ、これらを「音韻モデルを用いる音声認識」と「文法による音韻予測」との融合によって達成する、新しい手法を提案しました。実際、この考え方を具体的に実現したHMM-LR音声認識システムは、文節認識実験による評価において、従来法とは比較にならないほどの高性能を示します。近い将来、話者適応技術と組み合わせ、また語彙数を拡大することによって、この技術が自動翻訳電話の実現に役立つことと期待しております。
参考文献