S

Stable Audio Open Small

由 stabilityai 开发
基于文本提示生成最长11秒44.1kHz立体声音频的扩散模型
下载量 1,171
发布时间 : 5/12/2025

模型简介

该模型能够根据文本描述生成高质量短音频片段,包含自编码器、文本嵌入模块和基于Transformer的扩散模型三个核心组件

模型特点

高质量音频生成
可生成44.1kHz CD音质的立体声音频片段
文本条件控制
通过T5文本嵌入实现文本到音频的精确控制
快速推理
支持8步采样实现高效生成
版权合规
训练数据经过严格版权筛查,仅使用CC许可内容

模型能力

文本引导音频生成
音乐片段生成
音效生成
短音频循环生成

使用案例

创意制作
背景音乐生成
为视频项目快速生成定制背景音乐
11秒内的音乐循环片段
音效设计
根据文本描述生成特定音效
高质量音效片段
研究实验
生成模型研究
探索音频生成模型的局限性与可能性
推动音频AI领域发展
AIbase
智启未来,您的人工智能解决方案智库
简体中文