许可协议:知识共享-署名-非商业性使用-相同方式共享 4.0
语言支持:
- 英语
- 中文
技术标签:
- 文本转语音
库标签:spark-tts
Spark-TTS
官方模型:
Spark-TTS:基于单流解耦语音令牌的高效大语言模型文本转语音系统
Spark-TTS
üëâüèª Github仓库 üëàüèª
üëâüèª 论文 üëàüèª
概述
Spark-TTS是基于大语言模型(LLM)的先进文本转语音系统,能够实现高精度、自然流畅的语音合成。该系统专为高效性、灵活性和强大性能而设计,适用于研究和生产场景。
核心特性
- 简洁高效:完全基于Qwen2.5架构,无需依赖流匹配等额外生成模型。通过大语言模型直接预测音频编码重构语音,简化流程并提升效率。
- 高质量音色克隆:支持零样本音色克隆,即使没有目标音色的训练数据也能复现说话人特征,特别适合跨语言和语码转换场景。
- 双语支持:支持中英文混合合成,在跨语言场景下保持高自然度和准确性。
- 可控语音生成:可通过调节性别、音高、语速等参数创建虚拟说话人。
音色克隆推理流程
 |
可控生成推理流程
 |
安装指南
克隆与安装
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
- 安装Conda:参考https://docs.conda.io/en/latest/miniconda.html
- 创建虚拟环境:
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
模型下载
Python下载方式:
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
Git下载方式:
mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
基础使用
运行演示脚本:
cd example
bash infer.sh
或直接执行推理命令:
python -m cli.inference \
--text "待合成文本" \
--device 0 \
--save_dir "音频保存路径" \
--model_dir pretrained_models/Spark-TTS-0.5B \
--prompt_text "提示音频文本" \
--prompt_speech_path "提示音频路径"
图形界面
运行python webui.py
启动交互界面,支持:
- 音色克隆(可上传参考音频或实时录制)
- 语音定制生成
音色克隆界面 |
语音定制界面 |
 |
 |
开发计划
- [x] 发布Spark-TTS论文
- [ ] 开源训练代码
- [ ] 发布训练数据集VoxBox
引用格式
@misc{wang2025sparktts,
title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens},
author={王鑫盛等},
year={2025},
eprint={2503.01710},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2503.01710},
}
许可更新
因部分训练数据许可条款变更,模型许可证已从Apache 2.0变更为CC BY-NC-SA:
- 仅限非商业用途
- 衍生作品需保持相同许可
- 使用时需标明出处
使用声明
本零样本音色克隆模型仅限用于:
✓ 学术研究
✓ 教育用途
✓ 合法应用(如辅助技术、语言研究)
严禁用于:
✗ 未经授权的音色克隆
✗ 身份冒充/欺诈
✗ 违法深度伪造
开发者对模型滥用不承担法律责任,请遵守当地法规并恪守伦理准则。如有伦理疑虑请联系我们。