人見知りをしない音声認識機械
−誰の越えでも認識できる技術を目指して−



1.いろいろな人の音声を認識するために
音声翻訳のように、音声を入力して使用するシステムを実現する上で、大きな課題の一つに、人による声質の違いの問題がありますが、入力された音声を認識するには、パタン認識技術が用いられます。認識の際には、母音や子音の音響的パタン特徴を覚えておき、入力された音声が持つパタン特徴とそれらとの近さを計り、最も近いものを認識結果とします。話し手が異なると、この近さの尺度が人によって違うため、認識誤りが頻繁に起こります。改めて述べるまでもなく、声を聞いて人が誰か分かる位に人の声質は違っており、母音や子音といった発話内容の違いだけを、単なるパタンの違いとして機械的に区別したい音声認識にとって、人の声質の違いは厄介物です。
 ATRではこれまで、「話者適応」と呼ばれる方法で人の声質の違いを克服する技術を研究してきました。この方法では、認識の前に予め話し手が数十程度の単語を発声しておき、この単語に含まれる音響的な性質をもとに、もともと蓄えられていた認識の基準となる母音や子音の音響パタンを変形します。この話し手に応じた変形によって、その人の特徴が反映された母音や子音の音響パタンが新たに得られ、その話し手の入力音声との近さを計る精度が増し、認識率が向上しました。
 不特定の話者を対象とした音声を扱う上で、この「話者適応」は非常に有効な手段ですが、この技術だけで人の声質の違いを克服することは困難です。たとえば、男性の音声をもとに、女性の音声を用いて新たに話者適応するような場合、認識率は大きく向上しません。これは、もとの男性の声質の音響的なパタンが女性のものとかなり大幅に異なるため、数十の単語を用いただけの変形では十分でないためだと思われます。ちなみに、話し手が女性の場合、男性をもとに話者適応するのに比べ、他の女性の音声をもとに話者適応したほうが、はるかに高い認識率の向上がみられました。
 このように、いろいろな人の音声を認識するためには、男性と女性の違いに代表される声質の違いを配慮した「より詳細な話者適応」を行なうことが必要です。ここでは、複数の話者の音響的パタン特徴を有効的に用い、話し手に近い音響パタンに適応(変形)する工夫を紹介します。

2.人の声質の近さに基づく話者のグループ化
人の声質の違いは多種多様です。男声と女声、あるいは大人と子供の声のように、その声質の違いが特徴的で大きなものから、時として本人と取り違えてしまうほど似た親子、兄弟間などに見られる小さな違いまで様々です。自動的に音声認識をする機械にとって、それらの違いは、入力された音声が持つパタン特徴からの近さを計る上で誤差を生ずる原因になるという点では同じです。しかし、声質の似た人の間では局所的に音響パタンを変形する話者適応が有効ですが、大きな声質の違いを持つ話し手については局所的な変形だけでは対処できません。
 話し手のいろいろな声質のばらつきへの対策として、複数の話者の音響的パタンを利用する「話者クラスタリング法」が考えられました。この方法では、複数の話者の音響的パタン特徴を蓄え、それらの中から話し手に近いものを選び、それを用いて従来の話者適応を行ないます。この方法を用いて認識する場合、話し手の入力に対して、蓄えられているすべての話者の音響的パタンについて手際良く検証し、最も近い話者のパタンを手早く選び出すことが必要です。また、話し手に近い話者の音響パタンがどれだけ蓄えられているかによって、どのようにそれらを有効利用するかを考えねばなりません。
 このために、話者クラスタリング法では話者の音響パタンの違いに基づいて、に示すような木状のグループに逐次的に二分割してゆく方法がとられています。この分割は、自動的に行なわれますが、男女百数十人を用いた実験では第一回目の分割で、きれいに男女別にグループ化され、このような分割の妥当性が確かめられました。分割が進むにつれて、より近い音響的性質を持つ話者がグループ化され、次第にグループが小さくなり、最後には各個人一人だけのグループとなります。

3.話し手に近い声質を持つ話者グループを用いた話者適応
話者クラスタリング法を用いた認識では、まず、上記のようにして作られた話者グループの木構造を用い、話し手の入力音声に対して、最も近い声質を持つ話者グループを選択します。このような木構造は、この選択を効率的に進めるで役立つと同時に、グループごとに近い声質が階層的に整理されているので、予め蓄えられている話者のうちから話し手の声質に近い話者をどのように、何人選んでくるかといったことが自動的に決定されます。もし、話し手が予め蓄えられている話者の誰かに非常に似ている場合は、自動的に木構造の最下層のその話者が選ばれます。また、特に類似した一人の話者がない場合でも、音響てきに近い幾人かの話者から後世される中間のグループが選ばれ、それらの平均的音響パタンによって、話し手に近い話者への適応が可能となります。
 これらの話者適応に用いる認識モデルとしては、ATRで開発された隠れマルコフ網が用いられ、少ない単語数で適応が可能な方法が提案されています。文節認識実験の結果、この話者クラスタリング法により認識性能が確かめられました。また、この方法は、予め決められた単語を用いて話者適応を行なう「教師付き適応」だけでなく、任意の発生単語をもとに適応を行なう「教師なし適応」にも有効であることが判明しました。

不特定の話し手の音声の認識に向けて

いろいろな話し手の音声を認識するため、木状に話者のグループ化を行い、話し手に近い声質を持つ話者のグループを選択して、その音響パタンを変形して認識に用いる方法について紹介しました。不特定の話し手の音声の認識に向けては、このような話者適応の技術に加え、話者に依存せず、発話変動耐性の強い音声特徴パラメータの検討も合わせて行なっています。これらの技術をさらに進展させ、統合し、誰の声でも認識できる、いわば人見知りしない音声翻訳システムを目指しています。

参考文献


Copyright(c)2002(株)国際電気通信基礎技術研究所