音声の個人差の克服をめざして
−話者適応の研究−



ATR自動翻訳電話研究所 音声情報処理研究室 鹿野 清宏



1.はじめに
 自動翻訳電話を実現するには、連続発声された大語彙音声、それも、不特定多数の人の音声を認識する技術を確立する必要があります。音声認識技術のこのような飛躍的向上を目指して、ATR自動翻訳電話研究所では、種々のアプローチをとっています。
 特定話者の大語彙連続音声認識について、統計的モデル(Hidden Morkov モデル)[1]、神経回路網モデル(Neural Network)[2]、特徴ベースのアプローチ(Spectrogram Reading アプローチ)[3]等の研究を精力的に進めており、パターンマッチングに基づく従来手法よりも高い認識結果が得られ始めています。
 また、不特定話者音声認識について、話者適応を行う種々のアルゴリズムの検討を行っています。話者適応とは、音声認識装置等のシステムの性能、機能の向上を達成するため、話者の個人差に対応してシステムパラメータを変化させることです。
 人間が音声を認識するとき、数音節の短い音声を聴くことにより、話者への適応が行われるという報告もあります[4]。人間の持つ能力には及びませんが、私どもで進めている話者適応を用いた不特定話者音声認識の研究について紹介します。

2.ベクトル量子化による話者適応

 ここでは、ベクトル量子化を用いた不特定話者音声認識に対する話者適応について紹介します。
 図1に、男女二人が単語〔Koonyuu(購入)〕を発声した場合の音声波形および周波数分析されたスペクトル包絡(以後単にスペクトルと言う)列を示します。同じ単語の発声にもかかわらず、音声波形、スペクトル列とも、たいそう異なっていることがわかります。このような音声を同じ単語と認識するには、何らかの正規化(適応化)の技術が必要となります。人の声は、人の顔つきが違うように、千差万別です。音声は、声帯・口の中・唇等の発声機構を駆動して生成されるので、兄弟のように身体的特徴が似ていない限り、違ってきます。また、音の変化のさせ方、イントネーション、間の置き方等の発声方法の差によっても違ってきます。
 したがって、不特定話者の音声を認識するには、少なくとも次の二つの正規化の問題を解決する必要があります。
 (1)発声機構の差に対する正規化(スペクトルの正規化)
 (2)発声方法の差に対する正規化
 個人の違いを吸収する最も単純な手法は、発声者毎の単語音声を登録しておき、入力音声と登録音声とのパターンマッチングにより認識する手法です。この手法は蓄積情報量および処理量が大きくなるため、対象語彙数が少ないときにのみ可能です。
 また、話者の正規化の問題を、スペクトル空間のある種の線形変換に帰着させる研究がなされていますが、変換がたいそう複雑なために満足すべき結果が得られていません。
 最近、著者等が提案したベクトル量子化を用いた話者適応の手法について、紹介します[5]
 発声者の音声スペクトルは、発声者毎に最も適した選び方をした256個程度のスペクトル群で精度よく近似できることが知られています。このようにスペクトル空間を256個程度のスペクトル(各スペクトルに番号を付与し、これらのスペクトル集合を符号帳と呼ぶ)で効率よく表現することをベクトル量子化(各時刻の音の大きさを有限数個のレベルで近似するスカラー量子化に対して、有限数個の音声波形又はスペクトルで近似することを言う)と呼びます。
 発声者の音声のスペクトル例は、符号帳中のスペクトルの番号列として表わすことができます。そこで、話者適応の問題を、標準話者の符号帳と発声者の符号帳との間の対応関係を求める問題に帰着させることを考えます。
 符号帳の具体的作成方法については省略しますが、まず、標準話者の符号帳を予め用意しておきます。100単語程度の発声で、ほとんどのスペクトルが出現しますので、発声者に100単語を発声させ、発声者に最も適した256個のスペクトル群から成る符号帳を作成します。つぎに、標準話者と発声者が同じ単語について発した音声スペクトル列を動的計画法による時間軸伸縮マッチング(Dynamic Time Warping)を用いて、両者のスペクトル間の対応づけを行います。100単語すべてについて対応関係を求め、発声者の各スペクトルに対応する標準話者のスペクトルの頻度分布を求め、この分布に基づくある種の平均操作により、対応する標準話者のスペクトルを決定します。このスペクトルで発声者の符号帳内のスペクトルを置き換えます。このような手順を数回繰り返します。これにより、発声者と標準話者それぞれの符号帳の中のスペクトルの間に対応づけがなされます。図2に単語音声/koonyuu(購入)/のベクトル量子化による正規化の例を示します。そこで、この手法を利用して音声認識実験を行いました。422個の異なる単語を含む英語の文章を単語毎に区切って発声した場合、従来の方法では48.1%の単語認識率が80.9%まで向上しました。

3.話者適応アルゴリズムの高度化

 音声の特徴パラメータとしては本来、スペクトルおよびパワーが含まれます。しかしながら、前節の話者適応アルゴリズムの場合、一個の符号帳しか用いないため、元の信号と処理後の信号との差である歪を十分小さくできません。そこで、スペクトルとパワーに対し、別々に符号帳を用意するセパレートベクトル量子化を考えることにしました[6]
 セパレートベクトル量子化により歪がさらに39.5%減少できました。図3に単語音声/koonyuu(購入)/のセパレートベクトル量子化による正規化の例を示します。(a)は発声者(男性)のスペクトル列、(c)は標準話者(女性)のスペクトル列、(b)は正規化処理後のスペクトル列です。この例からも母音部の男性フォルマント周波数(スペクトルの共振周波数)が、標準話者の女性のフォルマント周波数に近くなっていることがわかります。さらに、女性3名の発声した100単語を用いて、単語音声認識実験を行いました。92.8%の単語認識率が得られ、前節の手法よりも1.5%高い単語認識率が得られました。
 上記のセパレートベクトル量子化による手法を用いても、まだ量子化歪を被ります。256程度のスペクトル、パワーの対応づけで複雑な変換を記述するという考え方をくずさないで、ベクトル量子化歪を減少させるために見い出したのが、ファジィベクトル量子化の考え方です[7]。ファジィベクトルは、音声スペクトルの量子化を標準話者の符号帳中のスペクトルの線形結合で表現することにより、歪をさらに小さくできます。つまり、音声スペクトルに近い数個のスペクトルを符号帳の中から見付け、近さの度合い(ファジィ度)で重み付けすることにより、音声スペクトルを近似します。このときの線形結合の重み(ファジィ度)も、ファジィベクトル量子化の理論により計算できます。このファジィベクトル量子化を用いることにより、ベクトル量子化歪をセパレートベクトル量子化に比べてさらに13.5%減少させることができました。この場合、副次的に話者適応処理後のスペクトル歪も9.7%減少します。図4に単語音声/koonyuu(購入)/のファジィベクトル量子化による正規化の例を示します。図3と同様に、(a)は発声者(男性)のスペクトル列、(c)は標準話者(女性)のスペクトル列、(b)は正規化処理後のスペクトル列です。セパレートベクトル量子化の処理に比べてスペクトルの過度部分の連続性に優れていることがわかります。このファジィベクトル量子化により、標準話者の符号帳内の対応するスペクトルを求めるのに要する学習単語の個数も約半分(50単語)程度に減らすことができる見通しがついています。

4.声質変換への適用

 現在の音声応答システムでは、あらかじめシステムに蓄えられた音素片の編集により応答音声が作られています。自動翻訳電話では、発声者自身の声らしい合成音が望まれます。つまり、発声者が日本語を話し、それを英語に機械翻訳し、発声者自身の音素片を用いて英語音声を合成して出力することが望まれます。そこで、標準話者による英語音声から、発声者の音声への声質変換の技術が必要となります。
 ベクトル量子化による話者適応の手法は、声質変換にも適応可能です。セパレートベクトル量子化のスペクトルと、パワーに対する2つの符号帳に、さらに、声の高さを表すピッチの符号帳を加えることにより、音声を合成するものです。この手法を男声から女声への声質の変換と、男声間の声質の変換に適用しました[8]。その結果、男声の声質が女声の声質にほぼ完全に変換できました。これにより、ベクトル量子化による話者適応のアプローチが声質変換にも有効であることがわかりました。現在、ファジィベクトル量子化による音声品質の向上、ピッチ等の音源情報の変換の精密化等の研究を続けています。

5.むすび

 当研究所で現在進めている話者適応、声質変換の研究について紹介しました。ベクトル量子化による話者適応の手法を、セパレートベクトル量子化、ファジィベクトル量子化まで拡張することによって音声認識率を飛躍的に改善することができました。この話者適応の手法は、当研究所で現在研究されているHidden Markovモデル、スペクトログラム特徴による音韻認識エキスパートシステム、ニューラルネットワークによる音声認識システムの前処理として有効です。さらに、この手法は、声質変換にも適用できます。今後、この手法を不特定話者音声認識、個人の声質変換を持った規則合成システムへの適用にまで発展させていく予定です。また、大語彙連続音声認識についても研究中ですが、これについては研究の進捗をみて、また別の機会に紹介します。



参考文献