TR-I-0306

TR-I-0306 :1993.3.12

Kazuki KATAGISHI, ShiNgo FUJIWARA, Masahide SUGIYAMA

Telephone speech recognition using continuous HMMs with clean speech data

Abstract:マイク入力によって収録された標準音声を用いて学習した混合連続分布HMM音声認識システムを用いて、電話音声のように周波数特性がマイクのそれとは異なる系からの入力音声の認識手法を提案し、24音素認識実験および文節認識実験により評価した。男性話者一名(MAU)のマイク入力音声に対して24音素認識率 99.0%(99.9%)の音素HMMを用いた電話音声中の音素認識率は27.5%(80.2%)に低下した。標準HMMのガウス分布の平均および分散を補正することにより、74.2%(96.8%)の音素認識率に向上した。また、同一話者のマイク入力音声に対して文節認識率87.5%(98.6%)の音素HMMを用いた電話音声中の文節認識率は 2.9%(8.2%)に低下した。先の場合と同じ補正値を用いることにより、47.0%(68.5%)の文節認識率に向上した。以上のことから、本手法の有効性が確認された。