Akinobu Maejima, Shigeo Morishima, Satoshi Nakamura
Image Translation Of Multi Speaker's Conversation Scene
Abstract:本論文では、複数人の話者の会話シーンにおける画像翻訳の手法について述べる。会話シ
ーンにおいて、ビデオ映像中の人物の顔の動きを推定し、映像中に存在する各話者につい
て発話判定を行う。発話が検出された話者の口領域を、別に用意された音声に同期して合
成された口唇映像で置き換えることにより、他言語もしくは変換された発話内容へのリッ
プシンクを実現する。