Spark-TTS-0.5B开源文本转语音系统 - 免费实现高精度自然流畅语音合成

首页

Spark TTS 0.5B

由 prince-canuma 开发

Spark-TTS是基于大语言模型的先进文本转语音系统，能够实现高精度、自然流畅的语音合成。

语音合成

Safetensors

支持多种语言#零样本音色克隆 #中英混合合成 #LLM语音生成

下载量 20

发布时间 : 5/8/2025

模型简介

Spark-TTS是基于大语言模型（LLM）的文本转语音系统，专为高效性、灵活性和强大性能而设计，适用于研究和生产场景。支持音色克隆和可控语音生成。

模型特点

简洁高效

完全基于Qwen2.5架构，无需依赖流匹配等额外生成模型，通过大语言模型直接预测音频编码重构语音，简化流程并提升效率。

高质量音色克隆

支持零样本音色克隆，即使没有目标音色的训练数据也能复现说话人特征，特别适合跨语言和语码转换场景。

双语支持

支持中英文混合合成，在跨语言场景下保持高自然度和准确性。

可控语音生成

可通过调节性别、音高、语速等参数创建虚拟说话人。

模型能力

文本转语音

音色克隆

语音参数控制

中英文混合合成

使用案例

语音合成

音色克隆

使用少量参考音频克隆特定说话人的音色

生成具有目标说话人特征的语音

虚拟说话人生成

通过调节参数创建自定义虚拟说话人

生成具有特定性别、音高和语速特征的语音

跨语言应用

中英文混合合成

在单一语音中流畅切换中英文

保持语音自然度和一致性

🚀 Spark-TTS

Spark-TTS是一款先进的文本转语音系统，借助大语言模型（LLM）的强大能力，实现高度准确且自然的语音合成。它高效、灵活且功能强大，适用于研究和生产环境。

🚀 快速开始

项目资源链接

安装步骤

克隆并安装依赖

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

安装Conda，请参考：https://docs.conda.io/en/latest/miniconda.html 创建Conda环境：

conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
# 如果你在中国内地，可以设置镜像如下：
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

模型下载

通过Python下载：

from huggingface_hub import snapshot_download

snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

通过git clone下载：

mkdir -p pretrained_models

# 确保你已经安装了git-lfs (https://git-lfs.com)
git lfs install

git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

基本使用

你可以使用以下命令运行演示：

cd example
bash infer.sh

或者，你也可以在命令行中直接执行以下命令进行推理：

python -m cli.inference \
    --text "text to synthesis." \
    --device 0 \
    --save_dir "path/to/save/audio" \
    --model_dir pretrained_models/Spark-TTS-0.5B \
    --prompt_text "transcript of the prompt audio" \
    --prompt_speech_path "path/to/prompt_audio"

UI使用

你可以通过运行 python webui.py 启动UI界面，该界面支持语音克隆和语音创建。语音克隆支持上传参考音频或直接录制音频。

语音克隆	语音创建

✨ 主要特性

简单高效：完全基于Qwen2.5构建，Spark-TTS无需额外的生成模型（如流匹配模型）。它直接根据大语言模型预测的代码重构音频，而不是依赖单独的模型生成声学特征。这种方法简化了流程，提高了效率并降低了复杂度。
高质量语音克隆：支持零样本语音克隆，即无需特定语音的训练数据即可复制说话者的声音。这在跨语言和代码切换场景中非常理想，允许在不同语言和语音之间无缝过渡，而无需为每种语言和语音单独训练。
双语支持：支持中文和英文，并且能够在跨语言和代码切换场景中进行零样本语音克隆，使模型能够以高度自然和准确的方式合成多种语言的语音。
可控语音生成：支持通过调整性别、音高和语速等参数创建虚拟说话者。

推理概述 - 语音克隆推理概述 - 可控生成

📄 许可证

由于部分训练数据的许可条款，模型的许可证已从Apache 2.0更新为CC BY - NC - SA。

主要变更：

该模型仅可用于非商业目的。
任何修改或衍生作品也必须在CC BY - NC - SA 4.0许可下发布。
使用或修改模型时需要进行适当的引用。

请确保遵守新的许可条款。

📚 详细文档

待办事项

[x] 发布Spark-TTS论文。
[ ] 发布训练代码。
[ ] 发布训练数据集VoxBox。

引用信息

@misc{wang2025sparktts,
      title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens}, 
      author={Xinsheng Wang and Mingqi Jiang and Ziyang Ma and Ziyu Zhang and Songxiang Liu and Linqin Li and Zheng Liang and Qixi Zheng and Rui Wang and Xiaoqin Feng and Weizhen Bian and Zhen Ye and Sitong Cheng and Ruibin Yuan and Zhixian Zhao and Xinfa Zhu and Jiahao Pan and Liumeng Xue and Pengcheng Zhu and Yunlin Chen and Zhifei Li and Xie Chen and Lei Xie and Yike Guo and Wei Xue},
      year={2025},
      eprint={2503.01710},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2503.01710}, 
}