S

Stable Audio Open Small

由 stabilityai 开发
基于文本提示生成最长11秒44.1kHz立体声音频的扩散模型
下载量 1,171
发布时间 : 5/12/2025
模型介绍
内容详情
替代品

模型简介

该模型能够根据文本描述生成高质量短音频片段,包含自编码器、文本嵌入模块和基于Transformer的扩散模型三个核心组件

模型特点

高质量音频生成
可生成44.1kHz CD音质的立体声音频片段
文本条件控制
通过T5文本嵌入实现文本到音频的精确控制
快速推理
支持8步采样实现高效生成
版权合规
训练数据经过严格版权筛查,仅使用CC许可内容

模型能力

文本引导音频生成
音乐片段生成
音效生成
短音频循环生成

使用案例

创意制作
背景音乐生成
为视频项目快速生成定制背景音乐
11秒内的音乐循环片段
音效设计
根据文本描述生成特定音效
高质量音效片段
研究实验
生成模型研究
探索音频生成模型的局限性与可能性
推动音频AI领域发展