TR-S-0020 :2001. 3.30

Kenichi Kumatani, Kazumasa Murai, Satoshi Nakamura

Study on adaptive integration of audio and visual information for bi-modal speech recognition

Abstract:本研究では,音声と口唇画像(バイモーダル)を用いた音声認識において二つの 問題について述べる.(1)まず,小規模の音声画像同期データベースから,HMM合 成を用い,音声と口唇画像の特徴の同期/非同期性を表現する方法について述べる. (2)次に,環境に応じて,そのHMMを適応化する方法について述べる.本手法によ る統合方法で,単語認識実験を行った.その結果,従来の音声・画像の統合方法より 良い認識性能が得られ,また,少数の単語データからストリーム重み推定を行うこと で,音声のみしか用いない音声認識システムより良い性能が得られることが分かり,本 手法が有効であることが確かめられた.