许可证:其他
许可证名称:Coqui公共模型许可证
许可证链接:https://coqui.ai/cpml
任务标签:文本转语音
示例:
- 文本:当我六岁时曾看到一幅壮丽的图画
输出:
音频链接:samples/en_sample.wav
ⓍTTS语音生成模型
ⓍTTS是一款语音生成模型,仅需6秒的音频片段即可将声音克隆至不同语言。无需耗费数小时的大量训练数据。
该模型与驱动Coqui Studio和Coqui API的核心技术相同或相似。
核心功能
- 支持16种语言
- 仅需6秒音频即可实现声音克隆
- 通过克隆实现情感与风格迁移
- 跨语言声音克隆
- 多语言语音生成
- 24kHz采样率
相比XTTS-v1的升级
- 新增2种语言:匈牙利语和韩语
- 改进了说话人条件处理的架构
- 支持多说话人参考及声音插值
- 稳定性提升
- 全面改善韵律与音质
支持语言
XTTS-v2支持16种语言:英语(en)、西班牙语(es)、法语(fr)、德语(de)、意大利语(it)、葡萄牙语(pt)、波兰语(pl)、土耳其语(tr)、俄语(ru)、荷兰语(nl)、捷克语(cs)、阿拉伯语(ar)、中文(zh-cn)、日语(ja)、匈牙利语(hu)及韩语(ko)。
我们将持续扩展语言支持,欢迎提交语言需求建议!
代码实现
代码库支持推理与微调。
演示空间
许可协议
本模型采用Coqui公共模型许可证(CPML)。关于生成模型的许可背景,可阅读CPML的起源故事。
联系我们
加入🐸社区:Discord | Twitter
邮箱:info@coqui.ai
使用🐸TTS API:
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
tts.tts_to_file(text="我花了很长时间才培养出这个声音,现在拥有了它,我绝不会沉默。",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="zh-cn")
tts.tts_to_file(text="我花了很长时间才培养出这个声音,现在拥有了它,我绝不会沉默。",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="zh-cn",
decoder_iterations=30)
使用🐸TTS命令行:
tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
--text "今天不想去学校。" \
--speaker_wav /path/to/target/speaker.wav \
--language_idx zh-cn \
--use_cuda true
直接调用模型:
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()
outputs = model.synthesize(
"我花了很长时间才培养出这个声音,现在拥有了它,我绝不会沉默。",
config,
speaker_wav="/data/TTS-public/_refclips/3.wav",
gpt_cond_len=3,
language="zh-cn",
)