Toshiyuki Hanazawa, Takeshi Kawabata and
Kiyohiro Shikano
Recognition of Japanese Voiced Stops Using
Hidden Markov Models
Abstract:音韻を認識単位とするHMM(Hidden Markov Model)による音声認識手法の確立
を目指し、日本語有声破裂音/b//d//g/の識別実験によってHMMの学習回数や状態
数、状態間をつなぐ弧の構成法等を検討した。各破裂音は成人男性の発声した
5240単語中から切り出した。HMMの学習は各破裂音に対し約200サンプルを使い、
10回程度の繰り返し学習でほぼ収束した。有声破裂音に対するHMMは4状態、3
ループ以上が必要なことがわかった。状態間をつなぐ弧としてヌルアーク、タ
イドアーク等は識別率において大差なかった。また、語頭・語中別や後続母音別にH
MMを作成して識別実験を行った。語頭・語中別のHMMは/g/のように語頭・語中で
発声が異なるものに対しては有効であった。後続母音別のHMMでは学習データ
数の不足が問題となることがわかった。後続母音別のHMMと後続母音で分けて
いないHMMとのcomposite modelによる識別実験も行ったが後続母音で分けてい
ないものと同程度の識別率しか得られなかった。男性3名に対する語頭・語中で
HMMを分けた識別実験では3名の平均識別率94.4%を得た。