JoyHallo-v1开源模型 - 根据普通话语音免费生成逼真面部动画

首页

Joyhallo V1

由 jdh-algo 开发

JoyHallo是一个专注于普通话的音频驱动人脸动画生成模型，能够根据普通话语音生成逼真的面部动画。

文本生成视频开源协议:MIT #普通话数字人 #音频驱动动画 #跨语言生成

下载量 26

发布时间 : 9/18/2024

模型简介

该模型针对普通话语音特性优化，采用半解耦结构处理唇部、表情和姿态特征，显著提升中文视频生成质量，同时保持英语生成能力。

模型特点

普通话优化

专门针对普通话复杂的唇部动作进行优化，解决了中文语音驱动动画的技术难点

半解耦结构

创新性地采用半解耦结构处理唇部、表情和姿态特征间的关联关系，提升信息利用效率

跨语言能力

在优化普通话生成的同时，仍保持出色的英语视频生成能力

高效推理

相比传统结构，推理速度提升14.3%

模型能力

普通话语音驱动人脸动画生成

英语语音驱动人脸动画生成

唇部动作同步

面部表情生成

头部姿态模拟

使用案例

数字人应用

虚拟主播

为普通话新闻播报或节目主持生成逼真的数字人视频

实现自然流畅的唇部同步和表情变化

医疗咨询

生成专业医疗内容的讲解视频

准确传达专业术语的发音口型

教育领域

语言教学

生成标准普通话发音的示范视频

清晰展示发音时的唇部动作

🚀 JoyHallo：面向中文的数字人模型

JoyHallo是一款面向中文的数字人模型，它解决了中文音频驱动视频生成中数据集收集难、唇形运动复杂等问题。该模型通过构建包含多样化内容的jdh - Hallo数据集，并采用特定的音频特征嵌入和半解耦结构，提升了信息利用效率和推理速度，同时具备出色的跨语言视频生成能力。

🚀 快速开始

暂未提供快速开始相关内容，若有后续可进一步补充。

✨ 主要特性

针对性数据集：收集了来自京东健康国际股份有限公司员工的29小时中文语音视频，构建了jdh - Hallo数据集，该数据集涵盖不同年龄、说话风格，包含日常对话和专业医学话题。
音频特征嵌入：采用中文wav2vec2模型进行音频特征嵌入，以适配中文语音。
半解耦结构：提出半解耦结构来捕捉唇部、表情和姿态特征之间的相互关系，提高信息利用效率，使推理速度提升14.3%。
跨语言能力：在生成中文视频表现出色的同时，保持了强大的英文视频生成能力，具备优秀的跨语言生成能力。

📚 详细文档

📖 简介

在音频驱动的视频生成领域，生成中文视频面临着重大挑战。收集全面的中文数据集十分困难，而且与英语相比，中文复杂的唇形运动让模型训练更加复杂。在本研究中，我们从京东健康国际股份有限公司员工那里收集了29小时的中文语音视频，得到了jdh - Hallo数据集。该数据集涵盖了不同年龄段和说话风格，包括日常对话和专业医学话题。

为了让JoyHallo模型适配中文，我们采用中文wav2vec2模型进行音频特征嵌入。同时，提出了一种半解耦结构来捕捉唇部、表情和姿态特征之间的相互关系。这种结合不仅提高了信息利用效率，还使推理速度加快了14.3%。值得注意的是，JoyHallo在生成英文视频方面依然表现强劲，展示了出色的跨语言生成能力。