XTTS-v2开源语音生成模型 - 免费使用，6秒克隆音色支持17种语言

首页

XTTS V2

由 coqui 开发

ⓍTTS是一款革命性的语音生成模型，仅需6秒音频片段即可实现跨语言音色克隆，支持17种语言。

语音合成开源协议:其他 #6秒音色克隆 #跨语言语音合成 #多语言支持

下载量 1.7M

发布时间 : 10/31/2023

模型简介

ⓍTTS是一款先进的语音合成模型，能够通过极短的音频样本克隆音色，并支持多语言语音合成与情感风格迁移。

模型特点

快速音色克隆

仅需6秒音频即可克隆目标音色

跨语言支持

支持17种语言的语音合成

情感风格迁移

可通过克隆实现情感与风格的转换

高质量输出

24kHz采样率提供高保真音质

多参考音色融合

支持融合多个参考音色特征

模型能力

文本转语音

音色克隆

跨语言语音合成

情感风格迁移

多语言支持

使用案例

语音合成

个性化语音助手

为语音助手创建个性化音色

实现自然、个性化的语音交互体验

多语言有声内容创作

使用同一音色生成不同语言的语音内容

简化多语言内容制作流程

娱乐应用

游戏角色配音

快速生成游戏角色的个性化语音

降低游戏配音成本

🚀 ⓍTTS

ⓍTTS是一款语音生成模型，只需一个简短的6秒音频片段，就能将语音克隆到不同语言中，无需大量耗时的训练数据。

🚀 快速开始

ⓍTTS可让你仅用6秒的音频片段，就能将语音克隆到不同语言中，无需大量时长的训练数据。该模型与为Coqui Studio和Coqui API提供支持的模型相同或相似。

✨ 主要特性

支持17种语言。
仅需6秒音频片段即可进行语音克隆。
通过克隆实现情感和风格迁移。
跨语言语音克隆。
多语言语音生成。
24kHz采样率。

🔍 XTTS-v2相较于XTTS-v1的更新

新增2种语言：匈牙利语和韩语。
对说话人调节进行了架构改进。
支持使用多个说话人参考并在说话人之间进行插值。
稳定性得到提升。
整体韵律和音频质量更好。

🌐 支持的语言

XTTS-v2支持17种语言：英语 (en)、西班牙语 (es)、法语 (fr)、德语 (de)、意大利语 (it)、葡萄牙语 (pt)、波兰语 (pl)、土耳其语 (tr)、俄语 (ru)、荷兰语 (nl)、捷克语 (cs)、阿拉伯语 (ar)、中文 (zh-cn)、日语 (ja)、匈牙利语 (hu)、韩语 (ko)、印地语 (hi)。

我们会持续添加更多语言支持，敬请关注。如果你有特定语言需求，欢迎随时联系我们！

💻 使用示例

基础用法

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

高级用法

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)

📚 详细文档

代码库：代码库支持推理和微调。
演示空间：
- XTTS Space：你可以查看模型在支持语言上的表现，并使用自己的参考音频或麦克风输入进行尝试。
- XTTS Voice Chat with Mistral or Zephyr：你可以体验与Mistral 7B Instruct或Zephyr 7B Beta的流式语音聊天。