Masamitsu Umeda, Masaki Ida
Speech Recognition in Noisy Environment
Using Multi-stream Features
Abstract:近年、音声認識の性能は大きく改善されたが、さらに音声のSNRが低い雑音環境での
高い認識性能が求められている。実世界における雑音はスペクトル領域において偏りを持つ
ものが多い。そこで本稿では、周波数領域で特徴量を分割して、1つの特徴量を複数のス
トリームで表すマルチストリーム特徴量を用い、有効性を検討した。最適な重みを手動で与
えて認識をした場合、雑音の種類がairportでSNRが5dBのとき、27.71%向上した。また、
GPDアルゴリズムによる重み自動推定を行った場合、雑音の種類がairportでSNR
が5dBのとき、20.31%向上した。