S

Stable Audio Open 1.0

由 stabilityai 开发
Stable Audio Open 1.0 是一个文本到音频生成模型,能够根据文本提示生成最长47秒的44.1kHz立体声音频。
下载量 36.03k
发布时间 : 5/24/2024
模型介绍
内容详情
替代品

模型简介

该模型能够将文本描述转换为高质量的音频片段,适用于创意音频生成和研究用途。

模型特点

高质量音频生成
能够生成44.1kHz的立体声音频,最长可达47秒。
文本条件控制
使用T5文本嵌入模块实现精确的文本到音频转换。
扩散模型技术
采用基于Transformer的扩散模型(DiT)在潜在空间进行音频生成。

模型能力

文本到音频生成
立体声音频合成
条件音频生成

使用案例

创意音频制作
音乐片段生成
根据文本描述生成特定风格的音乐片段。
生成44.1kHz立体声音频
音效设计
生成特定音效,如锤子敲击木质表面的声音。
高质量音效生成
研究应用
音频生成算法研究
用于研究文本到音频生成算法和模型。