T

Tango Full

由 declare-lab 开发
TANGO是基于潜在扩散模型的文本转音频生成工具,能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。
下载量 15
发布时间 : 5/30/2023

模型简介

TANGO采用冻结参数的指令调优大语言模型Flan-T5作为文本编码器,并训练了基于UNet架构的扩散模型进行音频生成。在客观指标和主观评价上,本模型均超越了当前最先进的音频生成模型。

模型特点

高质量音频生成
能够生成包括人声、动物声音、自然与人工音效在内的逼真音频
指令引导扩散
采用指令调优大语言模型Flan-T5作为文本编码器,实现精准的文本到音频转换
超越SOTA性能
在客观指标和主观评价上均超越了当前最先进的音频生成模型

模型能力

文本到音频生成
多类别声音合成
高质量音频渲染

使用案例

娱乐与媒体
音效制作
为影视、游戏等内容快速生成高质量音效
生成逼真的环境音效和特殊效果音
教育
教学辅助
为教育内容生成配套音频
创建生动的教学音频素材
AIbase
智启未来,您的人工智能解决方案智库
简体中文