TR-SLT-0073

TR-SLT-0073 :2004.03.31

前島謙宣,四倉達夫,森島繁生,中村哲

雑音環境下における合成発話動画像の評価

Abstract:著者等は自然な発話顔アニメーションの合成手法を提案している．しかしながら，その性能に対する評価は課題として残されていた．発話顔アニメーションの性能は，(1)読唇をできる程度に再現されているか，(2)視覚的に自然であるか，(3)音声と正確に同期しているかの3点により決定される．本稿ではまず雑音環境下において発話顔アニメーションと音声とを被験者に提示し，発話内容の聞き取り実験により(1)を検証する．次に(2)について，発話顔アニメーションの視覚的な自然さおよび，発話口形の滑らかさを5段階評価する．最後に(3) について，一定間隔で音声と発話顔アニメーションとの同期をずらしたものを被験者に提示し，同期のずれの主観値を調査するとともに違和感の程度を5段階評価により評価する．加えて音声と発話顔アニメーションとの同期のずれが音声の知覚に及ぼす影響についても評価する．以上から，合成発話顔アニメーションの品質を評価するとともに，音声との自然な同期について検証した．