tango2-full开源文本转音频模型 - 免费部署实现高质量语音内容生成

首页

Tango2 Full

由 declare-lab 开发

Tango 2是基于Tango改进的文本转音频生成模型，通过直接偏好优化(DPO)技术实现音频生成的对齐训练

音频生成

Transformers

英语#文本转音频生成 #扩散模型优化 #偏好对齐训练

下载量 63

发布时间 : 4/13/2024

模型简介

Tango 2是一个扩散式文本转音频生成模型，在Tango-full-ft检查点基础上，使用Audio-alpaca配对的文本-音频偏好数据集进行DPO对齐训练，能够根据文本描述生成高质量的音频

模型特点

直接偏好优化(DPO)

使用DPO技术对模型进行对齐训练，提高生成音频的质量和与文本描述的匹配度

扩展训练数据集

在扩展版Audio-alpaca数据集上进行训练，增强模型的泛化能力

高质量音频生成

支持100-200步采样，可生成高质量的音频效果

模型能力

文本到音频转换

批量音频生成

场景音效合成

使用案例

多媒体制作

音效生成

根据文本描述自动生成特定场景的音效

可生成如雷声、欢呼声等高质量音效

背景音乐合成

根据场景描述生成匹配的背景音乐

游戏开发

游戏音效制作

快速生成各种游戏场景所需的音效

🚀 Tango 2：通过直接偏好优化对齐基于扩散的文本到音频生成模型

🎵 我们在 Tango 的基础上开发了 Tango 2，用于文本到音频的生成。Tango 2 以 Tango-full-ft 检查点进行初始化，并在音频配对偏好数据集 audio-alpaca 上使用直接偏好优化（DPO）进行对齐训练。Tango-2-full 是在 Audio-alpaca 的扩展版本上进行训练的 🎶

阅读论文

🚀 快速开始

下载 Tango 2 模型，并根据文本提示生成音频：

import IPython
import soundfile as sf
from tango import Tango

tango = Tango("declare-lab/tango2-full")

prompt = "An audience cheering and clapping"
audio = tango.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=audio, rate=16000)

模型将自动下载并保存到缓存中。后续运行时将直接从缓存中加载模型。

generate 函数默认使用 100 步从潜在扩散模型中采样。我们建议使用 200 步来生成更高质量的音频，但这会增加运行时间。

prompt = "Rolling thunder with lightning strikes"
audio = tango.generate(prompt, steps=200)
IPython.display.Audio(data=audio, rate=16000)

使用 generate_for_batch 函数为一批文本提示生成多个音频样本：

prompts = [
    "A car engine revving",
    "A dog barks and rustles with some clicking",
    "Water flowing and trickling"
]
audios = tango.generate_for_batch(prompts, samples=2)

这将为三个文本提示中的每个提示生成两个样本。

💻 使用示例

基础用法

import IPython
import soundfile as sf
from tango import Tango

tango = Tango("declare-lab/tango2-full")

prompt = "An audience cheering and clapping"
audio = tango.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=audio, rate=16000)

高级用法

# 为了生成更高质量的音频，使用 200 步采样，不过这会增加运行时间
prompt = "Rolling thunder with lightning strikes"
audio = tango.generate(prompt, steps=200)
IPython.display.Audio(data=audio, rate=16000)

# 为一批文本提示生成多个音频样本
prompts = [
    "A car engine revving",
    "A dog barks and rustles with some clicking",
    "Water flowing and trickling"
]
audios = tango.generate_for_batch(prompts, samples=2)

📚 详细文档

代码

我们的代码发布在此处：https://github.com/declare-lab/tango

请按照仓库中的说明进行安装、使用和实验。

📄 许可证

本项目采用知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议（CC BY-NC-SA 4.0）。

📦 信息表格

属性	详情
模型类型	基于扩散的文本到音频生成模型
训练数据	bjoernp/AudioCaps、declare-lab/audio-alpaca
任务类型	文本到音频
标签	文本到音频