TR-S-0020

TR-S-0020 :2001. 3.30

Kenichi Kumatani, Kazumasa Murai, Satoshi Nakamura

Study on adaptive integration of audio and visual information for bi-modal speech recognition

Abstract:本研究では，音声と口唇画像（バイモーダル）を用いた音声認識において二つの問題について述べる.(1)まず，小規模の音声画像同期データベースから，HMM合成を用い，音声と口唇画像の特徴の同期／非同期性を表現する方法について述べる． (2)次に，環境に応じて，そのHMMを適応化する方法について述べる．本手法による統合方法で，単語認識実験を行った．その結果，従来の音声・画像の統合方法より良い認識性能が得られ，また，少数の単語データからストリーム重み推定を行うことで，音声のみしか用いない音声認識システムより良い性能が得られることが分かり，本手法が有効であることが確かめられた．