CAUSEとは？

音声には発話内容に相当する言語情報だけでなく、感情表現やムードに相当する非言語情報が含まれ、音声対話において重要な役割を担っています。我々は、この非言語情報は話者の顔表情に強く表出されているはずと考え、音声のみから話者のアクションユニット^[1]（顔面筋パラメータ）を推定する問題に取り組みました。これを可能にするのがCrossmodal Action Unit Sequence Estimation/Estimator (CAUSE)^[2]で、音声のメルスペクトログラムからアクションユニット強度系列を予測するニューラルネットワークモデルとなっています。例えばCAUSEにより音声から推定したアクションユニット強度系列を所与の顔画像に反映すれば、画像中の顔の表情を音声に合わせて動かすことができるようになります。

※本サイトで掲載しているサンプル画像やサンプル音声はCelebAデータセット^[3]およびVoxCeleb2データセット^[4]から転用したものです。

以下では、CAUSEとGANimation^[5]（Generative Adversarial Networks (GANs)に基づく画像変換手法）を組み合わせて音声から顔アニメーションを生成した例を紹介します。

デモ

1. 顔写真を選んでください

2. 音声を選んでください

脚注

^P. Ekman and W. V. Friesen, Facial action coding system: a technique for the measurement of facial movement, Consulting Psychologists Press, Palo Alto, CA, USA, 1978.

^H. Kameoka, T. Kaneko, S. Seki, and K. Tanaka, "CAUSE: Crossmodal action unit sequence estimation from speech," submitted to The 23rd Annual Conference of the International Speech Communication Association (Interspeech), 2022.

^Z. Liu, P. Luo, X. Wang, X. Tang: "Deep Learning Face Attributes in the Wild," in Proc. International Conference on Computer Vision (ICCV), pp. 3730-3738, 2015.

^J. S. Chung, A. Nagrani, A. Zisserman: "VoxCeleb2: Deep Speaker Recognition," in Proc. Annual Conference of the International Speech Communication Association (Interspeech), pp. 1086-1090, 2018.

^A. Pumarola, A. Agudo, A. M. Martinez, A. Sanfeliu, and F. Moreno-Noguer, “GANimation: Anatomically-aware facial animation from a single image,” in Proc. European Conference on Computer Vision (ECCV), 2018.

CAUSEとは？

デモ

デモシステム紹介

脚注