S

Spark TTS 0.5B

由 unsloth 开发
Spark-TTS是一款基于大型语言模型(LLM)的高效文本转语音系统,支持中英文双语合成和零样本语音克隆。
下载量 116
发布时间 : 5/15/2025
模型介绍
内容详情
替代品

模型简介

Spark-TTS是一款先进的文本转语音系统,利用大型语言模型(LLM)的强大能力实现高精度且自然流畅的语音合成。它设计高效、灵活且功能强大,适用于研究和生产环境。

模型特点

高效简洁
完全基于Qwen2.5构建,无需额外生成模型,直接从LLM预测的代码重构音频,简化流程提高效率
高质量语音克隆
支持零样本语音克隆,即使没有特定语音的训练数据也能复制说话者的声音
双语支持
支持中文和英文,能够进行跨语言和语码转换的零样本语音克隆
可控语音生成
支持通过调整性别、音高和语速等参数创建虚拟说话者

模型能力

文本转语音合成
零样本语音克隆
跨语言语音合成
语音参数控制

使用案例

语音合成
个性化语音助手
为虚拟助手创建自然流畅的个性化语音
高自然度和准确度的语音输出
有声读物制作
将文本内容转换为自然语音
支持多种语言和语音风格
语音克隆
语音复制
基于少量样本复制特定说话者的声音特征
无需训练即可实现高相似度克隆