自然発話音声の認識

1．音声認識用特徴パラメータ表現
　音声認識に用いる音声特徴量としては、従来、音声符号化のための音響パラメータが流用されてきた。しかし、各音素の識別という音声認識の目的からすると、これらは必ずしも最適なものではない。このため、人間情報通信研究所と協力して各音素の識別器にあった特徴表現の認識誤り最小化基準に基づいた設計、聴覚マスキング特性を考慮した音響パラメータ表現を考案した。また、使用環境によらないロバストな認識特徴表現として、サブバンド・スペクトル・セントロイド・パラメータを考案した。

2．音響・発音モデル構築技術
　音素等の音声単位の同定を行うための統計的音響モデルとして、尤度最大化基準に基づく隠れマルコフモデル（HMM）構成法（ML-SSS）を考案し、学習データ量に応じた効率的なモデル作成法を確立した。また、誤認識特性を用いたHMMモデルの発音記述、分布モデルパラメータの再学習法を考案し、ゆれの大きな自然音声に対して頑強な統計的音響モデル作成法を確立した。発音モデルとしては、自然発話中の発音変形を発音記号レベルで吸収するため、言語統計と音声知識を反映した統計的発音辞書の学習法を提案した。

3．話者適応・不特定話者モデル
　年齢、性別、出身地など話者個人の違いに起因する音声特徴のばらつきへの対処は、パターン認識としての音声認識の大きな課題である。入力音声を利用して、システムの持つ音響モデル特性を話者の特性に近づけて性能向上を図る。このため、少量学習データの補間と平滑化を行う移動ベクトル場平滑化（VFS）と大量不特定話者データを有効利用する最大事後確率推定法（MAP）を統合した MAP-VFS話者適応法を考案した。また、極少量の学習サンプルだけで適応ができる音声生成機構モデル適応法、発話と共に漸次的に学習を行え、最終的には一括学習したモデルに漸近する動的話者適応法を考案した。話者適応法に加え、少数のサンプルで学習が可能な話者重み学習法、木状の話者クラスタリングを用いた不特定話者モデルを考案した。認識時にはこれら複数の認識モデルを同時に起動し、最も音響特性の近い話者モデルを選ぶ。これにより男女声等声質の自動識別が可能となった。

4．言語情報利用による単語候補の統計的推定と効率的探索法
　音声認識は探索問題であり、発話内容の同定には言語情報が持つ制約の利用が不可欠である。話し言葉が持つ柔軟な表現を許容する言語制約として単語連接統計量（単語Nグラム）を用いる。従来の単語Nグラムに比べ省メモリかつ高性能な品詞・単語の可変長Nグラム、活用を持つ言語に有効な前後別多重単語クラス、品詞と単語属性のMAP補間、タスク毎に異なる連接特性の適応法、未登録単語用言語モデルを考案した。効率的探索法としては、単語仮説の融合、効果的候補削除により候補単語グラフを出力とする時間同期探索法、高速で省メモリの縦型探索法に基づく実時間単語候補探索法を完成した。また、音声翻訳全体を考えた認識部を構成するため、言語翻訳部が受理可能な文を出力するための有限状態トランスジューサ、隠れマルコフモデルや決定木を用いた統計的音声理解系を構築し、音声翻訳システムの一部としての音声認識機能の拡充を図った。

5．音声認識システム化、自然音声データ収集、性能評価
　研究の進展にすばやく対応した要素モジュールの組替え、音声言語データのオンデマンド利用、中間データの効率的な受渡しを可能とするため、モジュラー型システム・アーキテクチャを設計した。この設計のもとに、研究成果による各要素技術のソフトモジュールを音声認識研究用ツールキットATR SPRECとしてまとめ上げた。また、認識性能を定量的に評価してゆくため、「旅行に関する会話」自然発話音声対話データ、日本全国にわたる広い年代層からなる大規模日本語不特定話者音声データベースの収録を進めた。これらのデータベースを用いた評価実験を数カ月毎に3年間にわたって行った結果、初期システム作成時と比較して誤認識が約70%削減され、最終的に語彙数27,000語の、旅行に関する対話音声の認識において単語認識率87.7%を達成した。