许可证:apache-2.0
标签:
- 音乐
- 文本生成音乐
管道标签:文本转音频
语言:
- 英语
- 中文
- 德语
- 法语
- 西班牙语
- 意大利语
- 葡萄牙语
- 波兰语
- 土耳其语
- 俄语
- 捷克语
- 荷兰语
- 阿拉伯语
- 日语
- 匈牙利语
- 韩语
- 印地语
库名称:diffusers
🎵 ACE-Step中文说唱LoRA(说唱机器)
这是一个混合说唱声线模型。我们精心筛选了中文说唱/嘻哈数据集进行训练,并进行了严格的数据清洗和重新标注。训练成果显示:
- 中文发音准确度提升
- 更贴合嘻哈与电子乐风格
- 说唱声线表现力更加多元
音频示例见:https://ace-step.github.io/#RapMachine
使用指南
- 生成更高质量的中文歌曲
- 创作优质嘻哈作品
- 与其他流派融合可:
- 制作人声质感更细腻的音乐
- 添加实验性元素(如地下、街头文化风格)
- 微调推荐参数:
人声控制
vocal_timbre
(音色)
- 示例:明亮/暗沉/温暖/冷冽/气声/鼻音/沙哑/平滑/烟嗓/金属感/耳语/共鸣/空灵/烟熏/慵懒/清亮/高亢/撕裂感/爆发力/缥缈感/笛音/空洞/天鹅绒般/尖锐/嘶哑/圆润/单薄/厚重/簧片感/银铃般/鼻音重
- 描述人声本质特质
techniques
(技巧列表)
- 说唱风格:
模糊说唱
/快嘴
/旋律说唱
/抒情说唱
/陷阱flow
/倍速说唱
- 声音特效:
电音
/混响
/延迟
/失真
- 演绎方式:
耳语
/呐喊
/口语诗
/叙事腔
/演唱
- 其他:
即兴唱词
/呼应唱法
/和声
社区说明
虽然中文说唱LoRA对非中文社区可能显得小众,但我们通过此类项目持续证明:ACE-step作为音乐生成基础模型具有无限潜力。它不仅提升单一语言的发音表现,更能催生全新风格。
人类对音乐的普世审美是珍贵资产。如同抽象的乐高积木,这些元素终将以更有机的方式组合。愿我们的开源贡献推动音乐史的演进。
ACE-Step:迈向音乐生成基础模型的一步

模型描述
ACE-Step是突破性的开源音乐生成基础模型,通过整体架构设计克服了现有方案的局限性。它融合扩散生成、Sana深度压缩自编码器(DCAE)和轻量级线性变换器,在生成速度、音乐连贯性和可控性方面达到顶尖水平。
核心优势:
- 比LLM基线快15倍(A100显卡4分钟音乐仅需20秒)
- 旋律/和声/节奏的卓越协调性
- 支持全曲生成、时长控制和自然语言描述输入
应用场景
直接应用
适用于:
- 根据文本描述生成原创音乐
- 音乐混音与风格迁移
- 歌词编辑
衍生应用
可作为基础用于:
- 声纹克隆应用
- 细分音乐生成(说唱、爵士等)
- 音乐制作工具
- 创意AI助手
禁用场景
禁止用于:
- 未经授权生成受版权保护内容
- 创作有害或冒犯性内容
- 将AI生成音乐伪造成人类作品
快速开始
详见:https://github.com/ace-step/ACE-Step
硬件性能
设备 |
27步生成 |
60步生成 |
NVIDIA A100 |
27.27倍 |
12.27倍 |
RTX 4090 |
34.48倍 |
15.63倍 |
RTX 3090 |
12.76倍 |
6.48倍 |
M2 Max |
2.27倍 |
1.03倍 |
RTF(实时系数)值越高代表生成越快
局限性
- 语言差异:前10种语言效果最佳
- 长时生成(>5分钟)可能结构松散
- 稀有乐器还原不完美
- 输出不稳定:对随机种子和输入时长极度敏感,呈现"抽卡式"波动结果
- 风格短板:特定类型(如中文说唱/zh_rap)表现欠佳,存在风格契合度与音乐性天花板
- 衔接瑕疵:补绘/延长操作存在不自然过渡
- 人声质量:合成声线缺乏细腻变化
- 控制粒度:需更精细的音乐参数调控
伦理规范
使用者应:
- 核查生成作品的原创性
- 披露AI参与情况
- 尊重文化元素与著作权
- 避免生成有害内容
模型详情
开发团队: ACE Studio与阶跃函数
模型类型: 基于扩散的变换器条件音乐生成
许可证: Apache 2.0
资源链接:
引用格式
@misc{gong2025acestep,
title={ACE-Step:迈向音乐生成基础模型的一步},
author={龚俊敏, 赵文潇, 王森, 徐晟源, 郭靖},
howpublished={\url{https://github.com/ace-step/ACE-Step}},
year={2025},
note={GitHub仓库}
}
致谢
本项目由ACE Studio与阶跃函数联合主导。