许可证: cc-by-nc-sa-4.0
语言:
- 英文
- 中文
标签:
- 文本转语音
库标签: spark-tts
基础模型:
- SparkAudio/Spark-TTS-0.5B
Spark-TTS
官方模型
Spark-TTS:基于LLM的高效文本转语音模型,采用单流解耦语音令牌
Spark-TTS üî•
üëâüèª Github仓库 üëàüèª
üëâüèª 论文 üëàüèª
概述
Spark-TTS是一款先进的文本转语音系统,利用大型语言模型(LLM)的强大能力,实现高精度且自然流畅的语音合成。它设计高效、灵活且功能强大,适用于研究和生产环境。
主要特性
- 简洁高效:完全基于Qwen2.5构建,Spark-TTS无需额外生成模型(如流匹配)。它直接从LLM预测的代码重构音频,简化流程,提高效率并降低复杂性。
- 高质量语音克隆:支持零样本语音克隆,即使没有特定语音的训练数据也能复制说话者的声音。这非常适合跨语言和语码转换场景,无需为每种语言单独训练即可实现无缝切换。
- 双语支持:支持中文和英文,能够进行跨语言和语码转换的零样本语音克隆,使模型能以高自然度和准确度合成多种语言的语音。
- 可控语音生成:支持通过调整性别、音高和语速等参数创建虚拟说话者。
语音克隆推理概览
 |
可控生成推理概览
 |
安装
克隆与安装
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
- 安装Conda:请参考 https://docs.conda.io/en/latest/miniconda.html
- 创建Conda环境:
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
模型下载
通过Python下载:
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
通过git克隆下载:
mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
基本用法
您可以通过以下命令简单运行演示:
cd example
bash infer.sh
或者,您可以直接在命令行中执行以下命令进行推理:
python -m cli.inference \
--text "待合成的文本。" \
--device 0 \
--save_dir "保存音频的路径" \
--model_dir pretrained_models/Spark-TTS-0.5B \
--prompt_text "提示音频的转录文本" \
--prompt_speech_path "提示音频的路径"
界面用法
通过运行python webui.py
启动界面,您可以进行语音克隆和语音创建。语音克隆支持上传参考音频或直接录制音频。
语音克隆 |
语音创建 |
 |
 |
待办事项
- [x] 发布Spark-TTS论文。
- [ ] 发布训练代码。
- [ ] 发布训练数据集VoxBox。
引用
@misc{wang2025sparktts,
title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens},
author={Xinsheng Wang and Mingqi Jiang and Ziyang Ma and Ziyu Zhang and Songxiang Liu and Linqin Li and Zheng Liang and Qixi Zheng and Rui Wang and Xiaoqin Feng and Weizhen Bian and Zhen Ye and Sitong Cheng and Ruibin Yuan and Zhixian Zhao and Xinfa Zhu and Jiahao Pan and Liumeng Xue and Pengcheng Zhu and Yunlin Chen and Zhifei Li and Xie Chen and Lei Xie and Yike Guo and Wei Xue},
year={2025},
eprint={2503.01710},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2503.01710},
}
‚ö† 许可证更新
由于部分训练数据的许可条款,模型许可证已从Apache 2.0更新为CC BY-NC-SA。
主要变更:
请确保遵守新的许可条款。
‚ö†Ô∏è 使用免责声明
本项目提供的零样本语音克隆TTS模型旨在用于学术研究、教育目的及合法应用,如个性化语音合成、辅助技术和语言研究。
请注意:
我们倡导负责任地开发和利用AI,并鼓励社区在AI研究和应用中坚持安全与道德原则。如对伦理或滥用问题有任何疑虑,请联系我们。