柘植覚,内藤正樹,シンガー・ハラルド,高野優,松井知子
連続音声認識研究用音響モデル
Abstract:自然発話音声データベース(旅行対話)の整備の終了に伴い、先に正式リリースした音響モデル(TR-IT-0266)と比較して、約2倍程度の話者の音声が音響モデルの学習に使用可能となった。そのため、本報告では、学習話者数の増加に応じて、音響モデルのガウス分布の最適な混合数及び、状態数の比較検討を行った。また、朗読発話音声により作成した音響モデルの自然発話音声への発話様式適応に関する検討を行った。
比較実験の結果、自然発話音声のみを用い学習した、ケプストラム平均減算法による正規化を行ったMFCCを特徴量とする1400状態5混合の男性モデル、1400状態15混合の女性モデルを自然発話音声認識用音響モデルとしてリリースをする。