T

Tango2

由 declare-lab 开发
Tango 2是基于Tango改进的文本生成音频模型,通过DPO对齐训练优化音频生成质量
下载量 147
发布时间 : 4/13/2024

模型简介

Tango 2是一个扩散式文本-音频生成模型,通过直接偏好优化(DPO)技术对齐人类音频偏好,能够根据文本提示生成高质量的音频内容

模型特点

DPO对齐训练
使用audio-alpaca数据集进行直接偏好优化,提升音频生成质量
高质量音频生成
支持100-200步采样,生成更自然、真实的音频
批量生成能力
可同时为多条文本提示生成多个音频样本

模型能力

文本到音频转换
高质量音频生成
批量音频生成

使用案例

音效制作
环境音效生成
根据文本描述生成自然环境音效
生成逼真的水流、风声等环境音效
事件音效生成
生成特定事件的音效如掌声、欢呼等
生成符合场景描述的生动音效
媒体制作
影视配乐生成
根据场景描述生成背景音乐
生成与场景氛围匹配的音乐片段
AIbase
智启未来,您的人工智能解决方案智库
简体中文