TR-S-0021

TR-S-0021 :2001.3.26

田村哲嗣,熊谷健一,村井和昌,中村哲

マルチモーダル音声認識のための音声と発話顔画像の同期のモデリング

Abstract:近年、雑音下における頑強な音声認識システムとして、音声雑音から影響を受けない画像情報を用いたバイモーダル音声認識の研究が行われている。このバイモーダル音声認識を行うためのモデルの構成法のひとつとしてHMM合成法があり、効率よく認識制度の高いモデルを生成することができる反面、音声情報と画像情報の同期のミスマッチにより性能が低下しているという問題がある。本研究では、このミスマッチの問題を解決するための新たなモデルの提案を行い、実験によってこのモデルの有効性を検討する。

TR-S-0021 :2001.3.26

田村哲嗣,熊谷健一,村井和昌,中村哲

マルチモーダル音声認識のための音声と発話顔画像の同 期のモデリング

マルチモーダル音声認識のための音声と発話顔画像の同期のモデリング