TR-SLT-0004

TR-SLT-0004 :2002.2.22

梅田将満,伊田政樹

マルチストリーム特徴量による雑音にロバストな音声認識

Abstract:近年、音声認識の性能は大きく改善されたが、さらに音声のSNRが低い雑音環境での高い認識性能が求められている。実世界における雑音はスペクトル領域において偏りを持つものが多い。そこで本稿では、周波数領域で特徴量を分割して、1つの特徴量を複数のストリームで表すマルチストリーム特徴量を用い、有効性を検討した。最適な重みを手動で与えて認識をした場合、雑音の種類がairportでSNRが5dBのとき、27.71%向上した。また、 GPDアルゴリズムによる重み自動推定を行った場合、雑音の種類がairportでSNR が5dBのとき、20.31%向上した。