stable-audio-open-small开源音频模型 - 按文本提示生成11秒立体声音频

首页

Stable Audio Open Small

由 stabilityai 开发

基于文本提示生成最长11秒44.1kHz立体声音频的扩散模型

音频生成

Safetensors

英语开源协议:其他 #短音频生成 #文本转音频 #44.1kHz高保真

下载量 1,171

发布时间 : 5/12/2025

模型简介

该模型能够根据文本描述生成高质量短音频片段，包含自编码器、文本嵌入模块和基于Transformer的扩散模型三个核心组件

模型特点

高质量音频生成

可生成44.1kHz CD音质的立体声音频片段

文本条件控制

通过T5文本嵌入实现文本到音频的精确控制

快速推理

支持8步采样实现高效生成

版权合规

训练数据经过严格版权筛查，仅使用CC许可内容

模型能力

文本引导音频生成

音乐片段生成

音效生成

短音频循环生成

使用案例

创意制作

背景音乐生成

为视频项目快速生成定制背景音乐

11秒内的音乐循环片段

音效设计

根据文本描述生成特定音效

高质量音效片段

研究实验

生成模型研究

探索音频生成模型的局限性与可能性

推动音频AI领域发展

🚀 稳定音频开放小模型

Stable Audio Open Small 是一个文本到音频的模型，能够根据文本提示生成长达 11 秒的立体声音频，为音频生成研究和创作提供了有力支持。

🚀 快速开始

请注意：如需商业使用，请参考 https://stability.ai/license

✨ 主要特性

Stable Audio Open Small 可根据文本提示生成可变长度（最长 11 秒）、采样率为 44.1kHz 的立体声音频。
模型由三部分组成：将波形压缩为可管理序列长度的自动编码器、基于 T5 的文本嵌入用于文本条件处理，以及在自动编码器潜在空间中运行的基于变压器的扩散（DiT）模型。

📦 安装指南

此模型可与 stable-audio-tools 库一起使用。

💻 使用示例

基础用法

import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond

device = "cuda" if torch.cuda.is_available() else "cpu"

# 下载模型
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-small")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]

model = model.to(device)

# 设置文本和时间条件
conditioning = [{
    "prompt": "128 BPM tech house drum loop",
    "seconds_total": 11
}]

# 生成立体声音频
output = generate_diffusion_cond(
    model,
    steps=8,
    conditioning=conditioning,
    sample_size=sample_size,
    sampler_type="pingpong",
    device=device
)

# 将音频批次重新排列为单个序列
output = rearrange(output, "b d n -> d (b n)")

# 峰值归一化、裁剪、转换为 int16 并保存到文件
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)

📚 详细文档

模型详情

属性	详情
模型类型	`Stable Audio Open Small` 是一个基于变压器架构的潜在扩散模型。
语言	英文
许可证	Stability AI 社区许可证
商业许可证	如需商业使用此模型，请参考 https://stability.ai/license
研究论文	https://arxiv.org/abs/2505.08175

Arm CPU 优化

要进一步优化此模型以在 Arm CPU 上实现最佳性能，您可以按照 Arm 学习路径的分步指南进行部署。

训练数据集

所用数据集

我们的数据集包含 486492 条音频记录，其中 472618 条来自 Freesound，13874 条来自自由音乐档案（FMA）。所有音频文件均遵循 CC0、CC BY 或 CC Sampling+ 许可。Freesound 和自由音乐档案数据集均用于训练自动编码器。DiT 仅在 Freesound 数据集上进行训练。我们使用公开可用的预训练 T5 模型（t5-base）进行文本条件处理。

归属说明

用于训练 Stable Audio Open Small 的所有音频记录的归属信息可在我们的归属页面上找到。

风险缓解

在开始训练之前，我们进行了深入分析，以确保训练数据中不存在未经授权的受版权保护的音乐。

为此，我们首先使用基于 AudioSet 类的 PANNs 音乐分类器识别 Freesound 中的音乐样本。识别出的音乐样本至少有 30 秒的音乐，且被预测属于与音乐相关的类别，阈值为 0.15（PANNs 输出概率范围为 0 到 1）。该阈值是通过对 FMA 中已知音乐示例进行分类并确保不存在假阴性来确定的。

识别出的音乐样本被发送到 Audible Magic 的识别服务（一家值得信赖的内容检测公司），以确保不存在受版权保护的音乐。Audible Magic 标记了疑似受版权保护的音乐，我们在对数据集进行训练之前将其移除。大部分移除的内容是背景中播放着受版权保护音乐的现场录音。经过此过程，我们剩下 266324 条 CC0、194840 条 CC-BY 和 11454 条 CC Sampling+ 音频记录。

我们还进行了深入分析，以确保 FMA 子集中不存在受版权保护的内容。在这种情况下，过程略有不同，因为 FMA 子集由音乐信号组成。我们针对一个大型受版权保护音乐数据库（https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset）进行了元数据搜索，并标记了任何潜在匹配项。标记的内容由人工单独审核。经过此过程，我们最终得到 8967 条 CC-BY 和 4907 条 CC0 曲目。