语言:
- 英文
库名称: stable-audio-tools
许可证: 其他
许可证名称: stability-ai-community
许可证链接: LICENSE
任务标签: 文本转音频
额外授权提示: 点击"同意"即表示您同意许可协议并确认已阅读Stability AI的隐私政策。
额外授权字段:
姓名: 文本
电子邮箱: 文本
国家: 国家选择
所属组织或机构: 文本
是否愿意接收Stability AI产品、服务及研究的电子邮件更新与促销信息?:
类型: 下拉选择
选项:
- '是'
- '否'
您计划如何使用该模型?:
类型: 下拉选择
选项:
- 研究用途
- 个人使用
- 创意专业人士
- 初创企业
- 大型企业
我同意许可协议并确认Stability AI的隐私政策: 复选框
Stable Audio Open小型版
请注意:商业用途请参考https://stability.ai/license
模型描述
Stable Audio Open小型版
能够根据文本提示生成最长11秒的44.1kHz立体声音频。该模型包含三个核心组件:将波形压缩为可管理序列长度的自编码器、基于T5的文本嵌入模块用于文本条件控制,以及在自编码器潜在空间中运行的基于Transformer的扩散模型(DiT)。
使用方法
本模型可通过stable-audio-tools
库进行调用。
配合stable-audio-tools
使用
该模型专为与stable-audio-tools
推理库配合使用而设计,示例如下:
import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond
device = "cuda" if torch.cuda.is_available() else "cpu"
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-small")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]
model = model.to(device)
conditioning = [{
"prompt": "128 BPM科技浩室鼓点循环",
"seconds_total": 11
}]
output = generate_diffusion_cond(
model,
steps=8,
conditioning=conditioning,
sample_size=sample_size,
sampler_type="pingpong",
device=device
)
output = rearrange(output, "b d n -> d (b n)")
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)
模型详情
Arm CPU优化
如需在Arm CPU上获得最佳性能,可按照Arm学习路径的逐步指南进行部署优化。
训练数据集
使用数据集
我们的数据集包含486492条音频记录,其中472618条来自Freesound,13874条来自自由音乐档案馆(FMA)。所有音频文件均采用CC0、CC BY或CC Sampling+许可。Freesound和自由音乐档案馆数据集均用于训练自编码器,而DiT模型仅使用Freesound数据集训练。文本条件控制采用公开预训练的T5模型(t5-base)。
版权声明
Stable Audio Open小型版所用全部音频记录的版权声明可在我们的版权声明页面查看。
版权过滤措施
在训练开始前,我们进行了深入分析以确保训练数据中不存在未经授权的受版权保护音乐。
具体流程包括:首先使用基于AudioSet类别的PANNs音乐分类器识别Freesound中的音乐样本。被识别为音乐样本的音频需满足:至少包含30秒被预测为音乐类别的片段,且置信度阈值设为0.15(PANNs输出概率范围为0-1)。该阈值通过分类FMA已知音乐样本并确保无误判确定。
识别出的音乐样本随后提交至Audible Magic的内容识别服务进行版权检测。我们移除了被标记为疑似受版权保护的内容,其中大部分是背景中存在版权音乐的现场录音。最终保留266324条CC0许可、194840条CC-BY许可和11454条CC Sampling+许可的音频记录。
对于FMA子集,我们采用了不同的分析流程:通过元数据匹配大型版权音乐数据库(https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset)进行筛查,人工复核所有匹配项。最终保留8967条CC-BY和4907条CC0音轨。
使用范围与限制
预期用途
Stable Audio Open小型版主要用于AI音乐与音频生成的研究实验,包括:
- 研究生成模型的局限性以推动科学发展
- 机器学习从业者与艺术家探索文本引导的音乐/音频生成能力
非适用范围
未经风险评估与缓解措施,不得直接用于下游应用。禁止用于制造或传播造成敌对/排斥环境的音频内容。
技术限制
- 无法生成逼真人声
- 仅支持英文描述,其他语言效果欠佳
- 对不同音乐风格/文化的生成效果不均衡
- 音效/环境音生成优于音乐生成
- 需通过提示工程优化生成效果
数据偏差
训练数据源可能存在文化多样性不足的问题。模型对不同音乐流派和音效的生成效果存在差异,生成样本将反映训练数据中的偏差。