Yosuke Iiduka, Konstantin Markov, Satoshi Nakamura
A speech recognition method considering articulatory movements
Abstract:現在、音声認識の技術は理想的な環境、発話に対して実用に近い状態になっているが実環境や自
然な発話に対してはまだ改良の余地がある。その問題点の一つとして調音結合について十分な対
処ができていないという点がある。音声認識で行われている連続的な音声波形から離散的な音素
系列へのマッピングは音声生成過程の逆過程の一種であると考えられるが、従来の音声認識では
音声生成のメカニズムを取り入れていない。調音結合などの問題を解決してより高い認識率を得
るために音声生成のメカニズムを音声認識に取り入れる必要があると考えられる。
本研究ではBayesian NetworkとHMMを組み合わせたHybrid HMM/BNモデルに基づいて実測した調
音パラメータを用い、音声と調音位置の依存関係を表現するモデルを作成した。音素認識実験を行
ったところ、音声データのみを用いた従来のHMMよりも、HMM/BNモデルの方が得られた認識率は、
約2%高くなっていた。この結果から、音声認識に音声生成過程を取り入れることが有効であるこ
とを明らかにした。