Tetsji Tamura, Ken-ichi Kumatani, Kazumasa Murai, Toru Nakamura
On Audio and Video Modality Synchronizing
Model for Multimodal Speech Recognition
Abstract:近年、雑音下における頑強な音声認識システムとして、音声雑音から影響を受け
ない画像情報を用いたバイモーダル音声認識の研究が行われている。このバイモーダ
ル音声認識を行うためのモデルの構成法のひとつとしてHMM合成法があり、効率よ
く認識制度の高いモデルを生成することができる反面、音声情報と画像情報の同期の
ミスマッチにより性能が低下しているという問題がある。本研究では、このミスマ
ッチの問題を解決するための新たなモデルの提案を行い、実験によってこのモデルの
有効性を検討する。