Tango 2开源文本生成音频模型 - 免费部署生成高质量音频

首页

Tango2

由 declare-lab 开发

Tango 2是基于Tango改进的文本生成音频模型，通过DPO对齐训练优化音频生成质量

音频生成

Transformers

英语#文本转音频扩散模型 #DPO对齐优化 #多场景音效生成

下载量 147

发布时间 : 4/13/2024

模型简介

Tango 2是一个扩散式文本-音频生成模型，通过直接偏好优化(DPO)技术对齐人类音频偏好，能够根据文本提示生成高质量的音频内容

模型特点

DPO对齐训练

使用audio-alpaca数据集进行直接偏好优化，提升音频生成质量

高质量音频生成

支持100-200步采样，生成更自然、真实的音频

批量生成能力

可同时为多条文本提示生成多个音频样本

模型能力

文本到音频转换

高质量音频生成

批量音频生成

使用案例

音效制作

环境音效生成

根据文本描述生成自然环境音效

生成逼真的水流、风声等环境音效

事件音效生成

生成特定事件的音效如掌声、欢呼等

生成符合场景描述的生动音效

媒体制作

影视配乐生成

根据场景描述生成背景音乐

生成与场景氛围匹配的音乐片段

🚀 Tango 2：通过直接偏好优化对齐基于扩散的文本到音频生成模型

🎵 我们在 Tango 的基础上开发了 Tango 2，用于文本到音频的生成。Tango 2 以 Tango-full-ft 检查点进行初始化，并在音频偏好数据集 audio-alpaca 上使用直接偏好优化（DPO）进行对齐训练。🎶

阅读论文

🚀 快速开始

下载 Tango 2 模型，并根据文本提示生成音频：

import IPython
import soundfile as sf
from tango import Tango

tango = Tango("declare-lab/tango2")

prompt = "An audience cheering and clapping"
audio = tango.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=audio, rate=16000)

模型将自动下载并保存到缓存中。后续运行将直接从缓存中加载模型。

generate 函数默认使用 100 步从潜在扩散模型中采样。我们建议使用 200 步来生成更高质量的音频，但这会增加运行时间。

prompt = "Rolling thunder with lightning strikes"
audio = tango.generate(prompt, steps=200)
IPython.display.Audio(data=audio, rate=16000)

使用 generate_for_batch 函数为一批文本提示生成多个音频样本：

prompts = [
    "A car engine revving",
    "A dog barks and rustles with some clicking",
    "Water flowing and trickling"
]
audios = tango.generate_for_batch(prompts, samples=2)

这将为三个文本提示中的每个提示生成两个样本。

💻 使用示例

基础用法

import IPython
import soundfile as sf
from tango import Tango

tango = Tango("declare-lab/tango2")

prompt = "An audience cheering and clapping"
audio = tango.generate(prompt)
sf.write(f"{prompt}.wav", audio, samplerate=16000)
IPython.display.Audio(data=audio, rate=16000)

高级用法

# 使用 200 步生成更高质量音频
prompt = "Rolling thunder with lightning strikes"
audio = tango.generate(prompt, steps=200)
IPython.display.Audio(data=audio, rate=16000)

# 为一批文本提示生成多个音频样本
prompts = [
    "A car engine revving",
    "A dog barks and rustles with some clicking",
    "Water flowing and trickling"
]
audios = tango.generate_for_batch(prompts, samples=2)