
マイクロホンアレーを用いた雑音に頑健な音声認識
−音を聞き分ける音声認識を目指して−
1.はじめに
従来、音声翻訳システムの研究で対象とされていた音響環境は、非常に静寂な環境か、あるいは接話マイクロホンを使用した受音系でした。しかしながら、実際に利用されると想定される場面
は、海外旅行中などのFace-to-Faceの場面です。このような場合には、頭から装着するタイプの接話マイクロホンによる受音は利用者にとって大変わずらわしく、より使用者に負荷の少ない受音形態が望まれます。このためには、口元から離れた位
置での実際の利用場面の環境騒音に頑健な受音技術が不可欠になります。本稿では、遠隔発話の音声認識の問題点と手法および今後の研究のアプローチについて紹介します。
2.マイクロホンアレーを用いた遠隔発話音声認識
マイクロホンアレーとは図1に示すように複数個のマイクロホン素子を利用したもので環境騒音に頑健な遠隔発話音声受音を実現できる受音技術の1つとして注目されています。
図2の写真のように複数の話者が存在する環境下において、マイクロホンアレーを用いて雑音に頑健な音声認識を実現するためには、発話者の方向を推定(発話者方向推定)して、その方向にマイクロホンアレーの指向性を形成して(指向性制御:音に聞き耳を立てる)雑音の影響を削減した後に、発話者の音声を認識(音声認識)することが必要となります。図3にそのブロック図を示します。
発話者方向推定:音源方向推定は古くから研究されており、マイクロホンアレー受音信号の位相差などを用いて音源方向を推定することができます。しかし、現状では音源方向を推定することは比較的容易ですが、数ある音源の中から発話者の方向を推定することは非常に困難であり、現在の研究課題の1つです。これまでの研究から、CSP係数加算法を用いた複数音源の方向推定法[1]により複数の音源が存在する環境下においても音源の方向を高精度に推定可能となりました。また、推定した音源方向の中から発話者の方向を推定するために、音声と非音声の統計的なモデルを用いて発話者の方向を推定[2]すること検討しています。
指向性制御:マイクロホンアレーを用いて雑音に頑健な音声受音を実現するためには、雑音を抑圧しつつ、発話者の方向に聞き耳を立てることが必要です。そのためにマイクロホンアレーの指向性を発話者方向に制御することにより、雑音に頑健な音声受音を実現します。14素子のマイクロホンアレーを用いて指向性を目的方向に制御することにより、雑音が10dB以上削減できることが明らかとなっています。
音声認識:マイクロホンアレーを用いて指向性を制御することにより、受音信号はマイクロホンから離れて発話しているにも拘わらず、雑音の影響が大きく軽減されています。そこでマイクロホンアレー信号処理を従来の音声認識器の前処理として利用することにより、雑音に頑健な音声認識を実現することが可能です。これまでの研究により、雑音・残響下においてもマイクロホンアレーを用いることにより、SNR(信号対雑音比)が0dBの環境において、音声認識率は約45%向上し、SNRが10dBの環境においては、音声認識率は約30%向上することが明らかとなっています[2]。さらにこれまで音声認識において雑音と考えられてきた反射音に対しても、抑圧するのではなく有効に利用することにより音声認識性能の向上に役立つこともわかってきました[3]。
3.携帯型音声翻訳システムの実現に向けて
音声翻訳システムを実現するためには、遠隔発話音声認識が必要不可欠であり、2.で説明したようにマイクロホンアレーの利用は非常に有効です。しかしながら、PDAなどの小型情報機器へマイクロホンアレーを装着する場合、素子数およびマイクロホンアレーのサイズへ制約が生じます。すなわち、従来の研究で用いられてきたマイクロホンアレーよりも小規模なマイクロホンアレーを用いることが必要となります。我々のグループでは、図4に示すような小規模マイクロホンアレーを用いた雑音除去技術を提案しております[4]。本手法の原理を簡単に説明します。
1: 受音信号の位相差に基づいて目的信号および雑音の到来方向を推定します。
2: 方向情報を手掛かりに目的信号を完全に抑圧して雑音成分を推定します。
3: 受音信号から雑音成分を減算することにより目的信号を抽出します。
小規模マイクロホンアレーを用いる場合、大規模マイクロホンアレーのように特定の方向へ聞き耳を立てることは非常に困難です。しかし、たとえ2素子しか用いなくても、受音信号の差分信号を利用することによって特定方向へ指向特性の死角を形成することは可能です。これは、空間的なノッチフィルタに相当します。本手法では、方向推定および雑音推定において、指向特性の死角を積極的に利用しています。
小規模マイクロホンアレーを用いた雑音除去法の多くは、適応フィルタを用いて指向性制御を行っております。本手法は、以上の処理を短時間フレームごとに繰り返すことにより、適応フィルタでは扱うことが困難であった非定常雑音も除去することが可能です。今後は、様々な環境を想定し、素子数に関する検討および素子配置の問題について研究を行う予定です。
4.おわりに
実際の環境の中にある音源の中から、マイクロホンアレーと音の確率モデルを用いて、対象となる発話者を見つけてその音声を高音質に抽出し認識を行う技術とその小型化への実現に向けた技術について紹介いたしました。これらの技術は、非常に複雑な実際の音環境の中で、聞き耳を立て、選択的に音声の検出、音声の認識を行うために必要不可欠な技術です。今後、実際の利用を考え、少数素子で実現できるマイクロホンアレーの実現や、音のデータベースの拡充による音の確率モデルの高精度化、変化する環境に適応できる方法などの研究をさらに行っていく予定です。
Copyright(c)2002(株)国際電気通信基礎技術研究所

