license: other
license_name: coqui-public-model-license
license_link: https://coqui.ai/cpml
library_name: coqui
pipeline_tag: text-to-speech
�X TTS
ⓍTTS 是一款语音生成模型,仅需6秒的音频片段即可克隆声音并应用于不同语言。基于Tortoise架构,ⓍTTS通过关键模型改进实现了跨语言声音克隆和多语言语音生成的简易化,无需海量训练数据。
该模型已应用于Coqui Studio和Coqui API,我们通过技术优化使其响应更快并支持流式推理。
注意:ⓍTTS V2模型已发布 XTTS V2
特性
- 支持14种语言
- 仅需6秒音频即可克隆声音
- 通过克隆实现情感与风格迁移
- 跨语言声音克隆
- 多语言语音生成
- 24kHz采样率
支持语言
当前XTTS-v1(v1.1版本)支持:英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文和日语。
我们将持续扩展语言支持,欢迎通过社区渠道提出您的语言需求!
代码实现
当前版本支持推理和微调
许可协议
本模型采用Coqui公共模型许可协议,关于生成式模型许可的详细背景可查阅CPML起源故事。
联系我们
加入🐸开发者社区:Discord | Twitter
邮箱咨询:info@coqui.ai
使用🐸TTS API示例:
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v1", gpu=True)
tts.tts_to_file(text="我花费很长时间才培养出这个声音,现在拥有了它,我绝不会沉默",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="zh")
tts.tts_to_file(text="我花费很长时间才培养出这个声音,现在拥有了它,我绝不会沉默",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="zh",
decoder_iterations=30)
使用🐸TTS命令行:
tts --model_name tts_models/multilingual/multi-dataset/xtts_v1 \
--text "今天不想去学校" \
--speaker_wav /path/to/target/speaker.wav \
--language_idx zh \
--use_cuda true
直接调用模型:
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts
config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()
outputs = model.synthesize(
"我花费很长时间才培养出这个声音,现在拥有了它,我绝不会沉默",
config,
speaker_wav="/data/TTS-public/_refclips/3.wav",
gpt_cond_len=3,
language="zh",
)