T

Tango

由 declare-lab 开发
TANGO是基于指令引导扩散的文本转音频模型,能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。
下载量 118
发布时间 : 4/23/2023
模型介绍
内容详情
替代品

模型简介

TANGO是一个用于文本转音频生成的潜在扩散模型,采用Flan-T5作为文本编码器,基于UNet架构的扩散模型进行音频生成。

模型特点

指令引导扩散
采用指令调优大语言模型Flan-T5作为文本编码器,实现精准的文本-音频映射
高质量音频生成
在客观指标和主观评价方面超越当前最先进的音频生成模型
多样化声音生成
支持生成人声、动物声音、自然与人工音效等多种类型音频

模型能力

文本转音频生成
多样化声音合成
高保真音频生成

使用案例

多媒体内容创作
影视音效生成
根据剧本描述自动生成场景音效
生成逼真的环境音效和特殊效果
游戏音频设计
为游戏场景生成动态音效
创造沉浸式的游戏音频体验
辅助技术
视障辅助
将文字描述转换为环境声音提示
帮助视障人士理解周围环境