许可证:apache-2.0
任务类型:文本转语音
支持语言:
标签:
示例演示:
- 文本:"[S1] Dia是一款开源权重的文本对话模型。[S2] 您可以完全控制脚本和语音。[S1] 哇,太棒了。(笑声)[S2] 立即在GitHub或Hugging Face上试用。"
示例标题:"Dia介绍"
- 文本:"[S1] 着火了!天哪!该怎么办?大家该怎么做?烟雾可能正通过通风管道扩散![S2] 天啊!好吧...发生了。大家保持冷静![S1] 程序是什么...[S2] 大家都他妈冷静下来!!!...所有人都他妈冷静下来!!!![S1] 不!不!如果你摸门把手,如果它是热的,走廊那边可能着火了!"
示例标题:"紧急预案"
Dia是由Nari实验室开发的16亿参数文本转语音模型。它通过PytorchModelHubMixin集成推送至Hub。
Dia能够直接从文本生成高度逼真的对话。您可以通过音频条件化输出,实现情感和语调控制。该模型还能生成非语言交流,如笑声、咳嗽、清嗓等。
为加速研究,我们提供了预训练模型检查点和推理代码。模型权重托管于Hugging Face。目前该模型仅支持英语生成。
我们还提供了演示页面,将我们的模型与ElevenLabs Studio和Sesame CSM-1B进行对比。
- (更新)我们已部署ZeroGPU空间!立即试用。感谢HF团队的支持 :)
- 加入我们的Discord服务器获取社区支持和新功能访问权限。
- 体验更大版本的Dia:生成趣味对话、混音内容并与朋友分享。🔮 加入等候名单获取抢先体验资格。
⚡️ 快速开始
以下命令将启动可操作的Gradio界面:
git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py
若未预装uv
:
git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
注意:该模型未针对特定声音进行微调,因此每次运行会得到不同音色。
您可通过添加音频提示(指南即将发布——现在可先在Gradio中使用第二个示例尝试)或固定随机种子来保持说话者一致性。
功能特性
- 通过
[S1]
和[S2]
标签生成对话
- 生成非语言内容如
(笑声)
、(咳嗽)
等
- 以下非语言标签可被识别,但可能产生意外输出:
(笑声),(清嗓),(叹气),(喘息),(咳嗽),(唱歌),(哼唱),(嘟囔),(哔声),(呻吟),(抽鼻),(鼓掌),(尖叫),(吸气),(呼气),(掌声),(打嗝),(哼鸣),(喷嚏),(轻笑),(口哨)
- 语音克隆。详见
example/voice_clone.py
- 在Hugging Face空间中,可上传待克隆音频并将其文本脚本置于您的脚本前。确保文本符合格式要求,模型将仅输出脚本内容。
⚙️ 使用方法
作为Python库
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text = "[S1] Dia是一款开源权重的文本对话模型。[S2] 您可以完全控制脚本和语音。[S1] 哇,太棒了。(笑声)[S2] 立即在GitHub或Hugging Face上试用。"
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
PyPI软件包和CLI工具即将推出。
💻 硬件与推理速度
Dia目前仅支持GPU运行(pytorch 2.0+, CUDA 12.6)。CPU支持即将添加。
首次运行耗时较长,因为需要下载Descript音频编解码器。
在商用GPU上,Dia可实现实时音频生成。较旧GPU上推理速度会较慢。
以A4000 GPU为例,Dia约生成40词元/秒(86词元对应1秒音频)。
支持torch.compile
的GPU将获得速度提升。
完整版Dia需要约10GB显存。未来将推出量化版本。
若无可用硬件或想体验更大模型,请加入等候名单。
🪪 许可证
本项目采用Apache 2.0许可证,详见LICENSE文件。
⚠️ 免责声明
本项目提供的高保真语音生成模型仅供研究和教育用途。严格禁止以下行为:
- 身份冒用:未经许可生成与真实人物相似的音频
- 欺骗性内容:不得用于生成误导性内容(如虚假新闻)
- 非法或恶意用途:不得用于违法或蓄意伤害活动
使用本模型即表示您同意遵守相关法律标准和道德责任。我们对任何滥用行为不承担责任,并坚决反对任何不道德的技术使用。
🔭 待办事项/未来计划
- 支持Docker
- 优化推理速度
- 添加量化以提升内存效率
🤝 贡献指南
我们是由1名全职和1名兼职研究工程师组成的小团队。热烈欢迎任何贡献!
加入我们的Discord服务器参与讨论。
🤗 致谢