S

Spark TTS 0.5B

由 prince-canuma 开发
Spark-TTS是基于大语言模型的先进文本转语音系统,能够实现高精度、自然流畅的语音合成。
下载量 20
发布时间 : 5/8/2025
模型介绍
内容详情
替代品

模型简介

Spark-TTS是基于大语言模型(LLM)的文本转语音系统,专为高效性、灵活性和强大性能而设计,适用于研究和生产场景。支持音色克隆和可控语音生成。

模型特点

简洁高效
完全基于Qwen2.5架构,无需依赖流匹配等额外生成模型,通过大语言模型直接预测音频编码重构语音,简化流程并提升效率。
高质量音色克隆
支持零样本音色克隆,即使没有目标音色的训练数据也能复现说话人特征,特别适合跨语言和语码转换场景。
双语支持
支持中英文混合合成,在跨语言场景下保持高自然度和准确性。
可控语音生成
可通过调节性别、音高、语速等参数创建虚拟说话人。

模型能力

文本转语音
音色克隆
语音参数控制
中英文混合合成

使用案例

语音合成
音色克隆
使用少量参考音频克隆特定说话人的音色
生成具有目标说话人特征的语音
虚拟说话人生成
通过调节参数创建自定义虚拟说话人
生成具有特定性别、音高和语速特征的语音
跨语言应用
中英文混合合成
在单一语音中流畅切换中英文
保持语音自然度和一致性