ACE-Step-v1-3.5B开源文本转音频模型 - 免费生成高质量音乐及音效

首页

Ace Gguf

由 calcuis 开发

ACE-Step-v1-3.5B是一个文本转音频模型，支持高质量音频生成，适用于音乐和声音效果创作。

音频生成开源协议:Apache-2.0 #文本转音频 #GGUF量化 #轻量化部署

下载量 1,332

发布时间 : 5/9/2025

模型简介

该模型基于ACE-Step架构，专注于将文本描述转换为音频，特别适合生成音乐和特定风格的音频内容。

模型特点

GGUF量化

模型经过GGUF量化处理，加载速度快于safetensors检查点，避免最后时刻的瓶颈问题。

开箱即用

提供完整的GGUF套件（模型+编码器+VAE），无需额外配置即可使用。

高质量音频生成

能够根据文本描述生成高质量的音乐和声音效果，支持多种风格。

模型能力

文本转音频

音乐生成

声音效果生成

使用案例

音乐创作

女声流行电子音乐

根据文本描述生成特定风格的音乐，如狐獴风格或粉红小猪风格。

生成高质量的FLAC格式音频文件。

声音效果

环境音效

根据文本描述生成环境音效，如自然声音或城市噪音。

🚀 gguf量化的ace-step-v1-3.5b

本项目提供了gguf量化的ace-step-v1-3.5b模型，可用于文本到音频的转换。它基于ace-step基础模型，完整的gguf集（模型+编码器+变分自编码器）可直接使用。

🚀 快速开始

安装步骤

首次设置（仅需一次）

将 ace-step 拖到 > ./ComfyUI/models/diffusion_models
将 umt5-base 拖到 > ./ComfyUI/models/text_encoders
将 pig 拖到 > ./ComfyUI/models/vae

工作流程

将下面的JSON文件或示例音频拖到浏览器中以进行工作流操作。

提示词	音频示例
女性演唱流行音乐，电子节拍，耳廓狐主题 `可爱的耳廓狐女孩` `巨大的耳廓狐耳朵` `蓬松的大尾巴` `金色长波浪发` `蓝色大眼睛` `我爱耳廓狐女孩`	🎵 ace-step
女性演唱流行音乐，电子节拍，耳廓狐主题 `可爱的粉色小猪` `巨大的粉色耳朵` `蓬松的大尾巴` `可爱的长波浪发` `蓝色大眼睛` `我爱粉色小猪`	🎵 ace-audio

✨ 主要特性

模型优势

由于需要保留一些关键张量（处于f32状态）以确保其正常工作，文件大小可能不会大幅减小，但通常比safetensors检查点加载速度更快（不存在最后时刻的瓶颈问题）。
成功应用了重建umt5-base分词器逻辑；将您的节点升级到最新版本以支持umt5-base编码器；因此，不再需要safetensors检查点（此处已移除；如果您仍然需要，可从comfyui-org获取）。

编码器支持

可从这里获取更多 umt5-base 编码器。

📄 许可证

本项目采用Apache-2.0许可证。

📚 详细文档

另一个模型：fp8/16/32缩放的stable-audio-open-1.0与gguf量化的t5_base编码器

基础模型来自 stabilityai
注意：这是一个不同的模型，请勿混淆；它同样强大且轻量级。

安装步骤

将 t5-base 拖到 > ./ComfyUI/models/text_encoders
将 safetensors 拖到 > ./ComfyUI/models/checkpoints
将 pig 拖到 > ./ComfyUI/models/vae

工作流程示例

提示词	音频示例
天堂教堂，电子舞曲音乐	🎵 stable-audio

模型说明

此仓库中的safetensors检查点是提取版本；仅包含模型和条件切换张量（极其轻量级）；内部不包含clip和变分自编码器；应与单独的clip（文本编码器）和变分自编码器一起使用。
可从这里选择获取嵌入了模型和变分自编码器的fp8/16/32缩放检查点。
可从这里获取更多 t5-base 编码器。