TR-SLT-0028

TR-SLT-0028 :2002.11.11

Akinobu Maejima, Shigeo Morishima, Satoshi Nakamura

Image Translation Of Multi Speaker's Conversation Scene

Abstract:本論文では、複数人の話者の会話シーンにおける画像翻訳の手法について述べる。会話シーンにおいて、ビデオ映像中の人物の顔の動きを推定し、映像中に存在する各話者について発話判定を行う。発話が検出された話者の口領域を、別に用意された音声に同期して合成された口唇映像で置き換えることにより、他言語もしくは変換された発話内容へのリップシンクを実現する。