D

Dia 1.6B Safetensors Fp16

由 thepushkarp 开发
Dia 是由 Nari Labs 开发的 16 亿参数文本转语音模型,能够直接从文本生成高度逼真的对话,支持情感和语调调节以及非语言表达生成。
下载量 289
发布时间 : 4/23/2025
模型介绍
内容详情
替代品

模型简介

Dia 是一个开源的文本转对话模型,支持生成逼真的对话音频,包括非语言表达如笑声、咳嗽等,并可通过音频条件控制输出效果。

模型特点

对话生成
能够直接从文本生成高度逼真的对话,支持多说话者标签。
非语言表达生成
可以生成笑声、咳嗽、清嗓等非语言表达。
情感和语调控制
通过音频条件控制输出,调节情感和语调。
语音克隆
支持语音克隆功能,可通过上传音频进行克隆。

模型能力

文本转语音
对话生成
非语言表达生成
语音克隆

使用案例

语音合成
对话生成
生成多说话者的对话音频,适用于配音、广播剧等场景。
高度逼真的对话效果
语音克隆
克隆特定说话者的语音风格,用于个性化语音合成。
保持说话者一致性
娱乐
混音内容生成
生成有趣的对话内容,用于娱乐或社交媒体分享。
多样化的语音效果