JoyVASA开源音频驱动面部动画模型 - 支持多语言生成面部动态与头部运动

首页

Joyvasa

由 jdh-algo 开发

JoyVASA是一种基于扩散模型的音频驱动面部动画生成方法，能够生成面部动态和头部运动，支持多语言输入。

视频处理开源协议:MIT #音频驱动动画 #解耦面部表征 #多语言支持

下载量 95

发布时间 : 11/13/2024

模型简介

JoyVASA通过解耦的面部表征框架和扩散变换器技术，从音频线索生成高质量的面部动画，适用于人物肖像和动物面部。

模型特点

解耦面部表征

将动态面部表情与静态3D面部表征分离，支持更长的视频生成

身份无关运动生成

扩散变换器直接从音频生成运动序列，不受角色身份影响

跨物种支持

不仅能处理人物肖像，还能为动物面部生成动画

多语言支持

在中文私有数据集和英文公开数据集的混合数据上训练

模型能力

音频驱动面部动画生成

3D面部表征渲染

跨物种面部动画

长视频序列生成

使用案例

数字娱乐

虚拟主播动画

为虚拟主播生成与语音同步的面部表情和头部运动

自然流畅的面部动画效果

教育

动物形象教学

为教育内容中的动物形象生成生动的面部动画

增强教学内容的趣味性和互动性

🚀 JoyVASA：基于扩散模型的音频驱动面部动画生成

JoyVASA是一种基于扩散模型的方法，用于在音频驱动的面部动画中生成面部动态和头部运动。该方法通过解耦面部表示和身份无关的运动生成过程，不仅适用于人物肖像，还能无缝实现动物面部的动画效果。同时，模型支持多语言，实验结果验证了其有效性。

🚀 快速开始

代码可在 GitHub 上找到。

✨ 主要特性

解耦面部表示框架：将动态面部表情与静态3D面部表示分离，可通过组合任意静态3D面部表示与动态运动序列生成更长的视频。
身份无关的运动生成：使用扩散变压器直接从音频提示中生成运动序列，不受角色身份的影响。
多语言支持：模型在包含中文和英文的混合数据集上进行训练，支持多语言输入。
广泛的应用范围：不仅适用于人物肖像，还能实现动物面部的动画效果。

📄 许可证

本项目采用MIT许可证。

📚 详细文档

简介

我们提出了JoyVASA，一种基于扩散模型的方法，用于在音频驱动的面部动画中生成面部动态和头部运动。具体来说，在第一阶段，我们引入了一个解耦的面部表示框架，将动态面部表情与静态3D面部表示分离。这种解耦使得系统能够通过组合任意静态3D面部表示与动态运动序列来生成更长的视频。然后，在第二阶段，训练一个扩散变压器，直接从音频提示中生成运动序列，而不受角色身份的影响。最后，在第一阶段训练的生成器使用3D面部表示和生成的运动序列作为输入，渲染高质量的动画。通过解耦的面部表示和身份无关的运动生成过程，JoyVASA不仅适用于人物肖像，还能无缝实现动物面部的动画效果。该模型在包含中文和英文的混合数据集上进行训练，支持多语言。实验结果验证了我们方法的有效性。未来的工作将重点关注提高实时性能和优化表情控制，进一步扩展该框架在肖像动画中的应用。

📚 引用

@misc{cao2024joyvasaportraitanimalimage,
      title={JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation}, 
      author={Xuyang Cao and Guoxin Wang and Sheng Shi and Jun Zhao and Yang Yao and Jintao Fei and Minyu Gao},
      year={2024},
      eprint={2411.09209},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.09209}, 
}