许可证:Apache-2.0
语言:
- 英语
标签:
- 文本转语音
任务标签:文本转语音
库名称:dia
基础模型:
- nari-labs/Dia-1.6B
注意: 本仓库包含 Dia-1.6B 模型 的 FP16(半精度)版本,已转换为 SafeTensors 格式,相比原始的 .pth
文件,加载速度可能更快且文件体积更小。
FP16 转换统计:
原始大小:6.002177 GB
转换后大小:3.001058 GB
体积缩减:50.000510%
最大绝对张量差异:0.000487
最大相对张量差异:0.229572
平均绝对张量差异:0.000010
使用 safetensors 文件时,请运行以下自定义脚本加载:
首先安装库:
git clone https://github.com/thepushkarp/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
然后运行:
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained(
"thepushkarp/Dia-1.6B-safetensors-fp16",
config_path="config.json",
checkpoint_path="dia-v0_1-fp16.safetensors",
)
text = "[S1] Dia 是一个开源权重的文本转对话模型。[S2] 你可以完全控制脚本和语音。[S1] 哇,太棒了。(笑声)[S2] 现在就在 GitHub 或 Hugging Face 上试试吧。"
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
Dia 是由 Nari Labs 开发的 16 亿参数文本转语音模型。
Dia 能够直接从文本生成高度逼真的对话。你可以通过音频条件控制输出,调节情感和语调。该模型还能生成非语言表达,如笑声、咳嗽、清嗓等。
为加速研究,我们提供了预训练模型检查点和推理代码。模型权重托管在 Hugging Face。目前该模型仅支持英语生成。
我们还提供了一个 演示页面,将我们的模型与 ElevenLabs Studio 和 Sesame CSM-1B 进行对比。
- (更新)我们已上线 ZeroGPU Space!立即体验 这里。感谢 HF 团队的支持 :)
- 加入我们的 Discord 服务器 获取社区支持和新功能访问权限。
- 体验更大版本的 Dia:生成有趣对话、混音内容并与朋友分享。🔮 加入 等候名单 获取早期访问资格。
⚡️ 快速开始
以下命令将启动一个可操作的 Gradio 界面:
git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py
如果未预装 uv
:
git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
注意:该模型未针对特定语音进行微调,因此每次运行会得到不同的语音效果。
如需保持说话者一致性,可通过添加音频提示(指南即将发布,目前可尝试 Gradio 中的第二个示例)或固定随机种子实现。
功能
- 通过
[S1]
和 [S2]
标签生成对话
- 生成非语言表达如
(笑声)
、(咳嗽)
等
- 语音克隆。详见
example/voice_clone.py
。
- 在 Hugging Face Space 中,可上传待克隆的音频并将其文本脚本置于你的脚本前。确保文本符合格式要求,模型将仅输出你的脚本内容。
⚙️ 使用方法
作为 Python 库
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text = "[S1] Dia 是一个开源权重的文本转对话模型。[S2] 你可以完全控制脚本和语音。[S1] 哇,太棒了。(笑声)[S2] 现在就在 GitHub 或 Hugging Face 上试试吧。"
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
PyPI 包和 CLI 工具即将推出。
💻 硬件与推理速度
Dia 仅在 GPU(PyTorch 2.0+,CUDA 12.6)上测试过。CPU 支持即将添加。
首次运行时间较长,因为需要下载 Descript 音频编解码器。
在商用 GPU 上,Dia 可实现实时音频生成。较旧 GPU 上推理速度会较慢。
参考数据:在 A4000 GPU 上,Dia 约生成 40 个标记/秒(86 个标记相当于 1 秒音频)。
torch.compile
可提升兼容 GPU 的速度。
完整版 Dia 需要约 10GB 显存运行。未来将推出量化版本。
若无可用硬件或想体验更大模型,请加入 等候名单。
🪪 许可证
本项目采用 Apache 2.0 许可证,详见 LICENSE 文件。
⚠️ 免责声明
本项目提供高保真语音生成模型,仅供研究和教育用途。严格禁止以下行为:
- 身份冒用:未经许可生成真实人物的相似音频
- 欺骗性内容:生成误导性内容(如假新闻)
- 非法或恶意用途:用于违法或造成伤害的活动
使用本模型即表示你同意遵守相关法律标准和道德责任。我们对任何滥用行为概不负责,并坚决反对该技术的任何不道德使用。
🔭 待办事项/未来计划
- 支持 Docker
- 优化推理速度
- 添加量化以提升内存效率
🤝 贡献
我们是一个由 1 名全职和 1 名兼职研究工程师组成的小团队,非常欢迎任何贡献!
加入我们的 Discord 服务器 参与讨论。
🤗 致谢