多言語音声認識技術

音声言語コミュニケーション研究所
音声音響処理研究室、音声言語処理研究室
中村　哲、菊井　玄一郎

1．はじめに
　機械による音声の認識は、人類の長年の夢であり、古くから研究開発が行われてきました。音声の認識は非常に複雑な問題で、個人ごとの口や歯などの発話器官の構造の違い、発話器官の動かし方の違い、前後の発話に依存した発話器官の動かし方の違いにより引き起こされる音声信号の違いが、音声認識を困難にしてきました。さらに、複数の単語からなる文発声の認識は非常に難易度の高い課題でした。これらの課題に対し、音声の音の高さの成分分析を精密に行うスペクトル分析法、線形予測分析法が開発され、また、発話毎に長さの異なる発話の照合を行うために、時間構造正規化を含んだパターンマッチング法である動的計画法が開発されました。特に、1970年後半に開発された隠れマルコフモデル（HMM：Hidden Markov Model）は、時間構造の揺らぎと周波数的な音声の特徴の揺らぎを統計的に表現でき、データに基づく学習と認識を一貫して行える枠組みであるため、今日の音声認識の基本手法となっています。本稿では、これらの手法をさらに発展させた実環境における多言語連続音声認識技術の研究成果について述べます。

2．音声認識のモデル
　図1に、音声認識部のブロック図を示します。音声認識は、ある単語列を仮定したときの音声の確率（声｜単語列）（音響モデルと呼ぶ）とその単語列の確率（単語列）（言語モデルと呼ぶ）の積を最大化する単語列を見つける問題と考えることが出来ます。音声の特徴は、10ミリ秒周期、20ミリ秒窓の短時間の周波数スペクトル分析により抽出されます。この特徴を元に、隠れマルコフモデルを用いて、単語や音素の音のモデルを構成します。また、単語列のモデルには、単語の連鎖出現確率を表すN-gramと呼ばれるモデルが用いられ、このモデルは対象分野の大量のテキストから学習が行われます。

3．音響モデル
　当研究所では、統計的モデルによる音声認識の研究にいち早く取り組み、主として隠れマルコフモデルの研究を行ってきました。このモデルは、通常、3つの状態を有し、状態遷移しながら観測された音声の特徴ベクトルの確率を計算する方法です。各状態では、複数の正規分布の重み付き和により複雑な音声の特徴量分布を表現します。当研究所では、特に音声の特徴を前後の音素の関係を考慮して最適に表現する音響モデル^[1]、さらに、HMMの学習データ量に応じて音響モデルの構造を自動的に変化させ、最適な状態数を割り当てる最小記述長による音響モデル構築法を開発しました^[2]。これにより、学習データ量が変わっても、自動的に最適な音響モデルを構築することが出来るようになりました。この方法を用いて、現在、日本語については地域を考慮した400人発話者、英語については約570人発話者、中国語については約540人音声コーパスを用い、音響モデルを構築しています。

4．言語モデル
　言語モデルについては、現在の単語が生起する確率を過去N個の単語の連鎖確率により表すN-gramと呼ばれる手法に注目して研究を行ってきました。当研究所では、この方法を発展させ、単語でなく品詞などの単語クラスを単位として確率を計算するクラス言語モデル、前後の文脈を分離し前方文脈と後方文脈とを別々に考慮する多重クラスN-gram、言語モデルの単位を可変長にする複合N-gramを開発してきました^[3]。また、地名、人名などの辞書に登録されていない単語については、音節を用いた階層型言語モデルを用いることで認識を行う手法を開発しました^[4]。現在、言語モデルの学習には、旅行文コーパス（BTEC：Basic Travel Expression Corpus）の学習セット約60万文と疑似旅行対話文を使用しています。クラス言語モデルのクラス数は8000ないし20000としています。

5．音声認識性能
　音声認識性能をBTEC旅行文コーパスの日本語、英語、中国語510文をテストセットに選び評価致しました。音声認識実験では、各言語40人より発話されたものを評価データとしました。認識語彙は約35000語で、発音の変形も入れると約50000語です。音響モデルとしては、最小記述長による音響モデル設計法を用いました。言語モデルには、前後の文脈を分離し前方文脈と後方文脈とを別々に考慮する多重クラス複合2-gramを用いました（MCC 2gram）。従来の単語2-gram（Word 2gram）と比較した場合の認識結果を表1に示します。テスト文の複雑度、つまり、現在の単語に続きうる平均の単語数を表すテストセットパープレキシティは、単語2-gram、単語3-gram、前後の文脈を分離し前方文脈と後方文脈とを別々に考慮する複合2-gramに対し、30.6,17.5, 24.8でした。

6．雑音抑圧処理
　音声認識を実際の音響環境で使用する際には、さらに音響的な外乱への対策が必要となります。音響的な外乱には、対象話者以外の話者の音声、雑音などが存在します。当研究所では、図2に示す携帯情報端末用の8個のマイクフォン素子を取付けた専用マイクロフォンアレー信号処理ユニットを新たに開発し、指向性制御、雑音抑圧により、雑音下における音声認識を実現しています^[5]。このシステムでは、まず、8チャンネルの信号をA/D変換した後、ワイヤレスLANを介してサーバーに送ります。処理は、雑音源からの信号を抑圧し、目的方向の音を強調する一般化サイドローブキャンセラと呼ばれるマイクロフォンアレー信号処理と、混合ガウスモデルに基づく雑音除去フィルタの従属接続の2段構成になっています。図3に1ch使用時、マイクロフォンアレー処理時、雑音抑圧フィルタ処理時、両手法使用時の認識結果を示します。

7．まとめ
　音声翻訳の要素技術の一つである多言語音声認識部に関して述べました。音声翻訳の対象にしている旅行会話の認識性能として現在、日本語94.6％、英語89.1％、中国語87.3％の単語認識率が得られました。また、マイクロフォンアレーと雑音除去フィルタにより雑音のある環境でも動作するシステムを構築しました。しかし、実環境での性能向上、安定化のためには、さらに、実環境での実証実験を行い、データを収録し、そのデータを使用して各モジュールを改良してゆく必要があると考えています。

参考文献