许可协议:其他
许可名称:Coqui公共模型许可
许可链接:https://coqui.ai/cpml
库名称:coqui
任务标签:文本转语音
演示示例:
ⓍTTS语音生成模型
ⓍTTS是一款革命性的语音生成模型,仅需6秒音频片段即可实现跨语言音色克隆。无需耗费数百小时训练数据,该模型与驱动Coqui Studio和Coqui API的核心技术同源。
核心特性
- 支持17种语言
- 6秒音频实现音色克隆
- 通过克隆实现情感与风格迁移
- 跨语言音色克隆
- 多语言语音合成
- 24kHz采样率
较XTTS-v1的升级
- 新增匈牙利语和韩语支持
- 优化说话人特征提取架构
- 支持多参考音色融合与插值
- 显著提升系统稳定性
- 全面改进韵律表现与音质
支持语言
当前版本支持:英语(en)、西班牙语(es)、法语(fr)、德语(de)、意大利语(it)、葡萄牙语(pt)、波兰语(pl)、土耳其语(tr)、俄语(ru)、荷兰语(nl)、捷克语(cs)、阿拉伯语(ar)、中文(zh-cn)、日语(ja)、匈牙利语(hu)、韩语(ko)、印地语(hi)。我们将持续扩展语言支持,欢迎通过社区渠道提出需求建议!
代码实现
项目代码库支持推理与微调训练。
演示空间
- XTTS交互演示:体验多语言合成效果,支持上传自定义参考音频或麦克风输入
- 智能语音对话系统:集成Mistral 7B Instruct或Zephyr 7B Beta的流式语音交互
许可条款
本模型采用Coqui公共模型许可(CPML),关于该许可的设计初衷可参阅官方解读文章。
联系我们
欢迎加入🐸开发者社区:Discord | Twitter
商务合作:info@coqui.ai
🐸TTS API调用示例:
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
tts.tts_to_file(text="倾注多年心血铸就的声音,此刻我必须让它响彻世界",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="zh-cn")
🐸TTS命令行调用:
tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
--text "今天不想去学校" \
--speaker_wav /path/to/target/speaker.wav \
--language_idx zh-cn \
--use_cuda true
直接调用模型:
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()
outputs = model.synthesize(
"倾注多年心血铸就的声音,此刻我必须让它响彻世界",
config,
speaker_wav="/data/TTS-public/_refclips/3.wav",
gpt_cond_len=3,
language="zh-cn",
)