XTTS-v2开源语音生成模型 - 仅用6秒音频跨16种语言克隆声音

首页

XTTS V2

由 reach-vb 开发

ⓍTTS是一款先进的语音生成模型，仅需6秒音频即可实现跨语言声音克隆，支持16种语言。

语音合成

Transformers

开源协议:其他 #6秒声音克隆 #跨语言语音合成 #多语言支持

下载量 125

发布时间 : 11/14/2023

模型简介

ⓍTTS是一款基于深度学习的语音生成模型，能够通过极短的音频样本克隆声音并生成多语言语音，支持情感与风格迁移。

模型特点

极短样本克隆

仅需6秒音频即可实现高质量声音克隆

多语言支持

支持16种语言的语音生成和跨语言克隆

情感风格迁移

能够通过克隆实现情感与风格的转换

音质提升

24kHz采样率，全面改善韵律与音质

模型能力

文本转语音

声音克隆

跨语言语音生成

情感风格迁移

多说话人参考

声音插值

使用案例

语音合成

个性化语音助手

为语音助手创建个性化声音

自然流畅的个性化语音输出

多语言内容创作

为视频、播客等内容创建多语言配音

保持相同声音特征的多语言语音

无障碍技术

语音恢复

为失去语音能力的人恢复个人声音

保留个人声音特征的语音输出

🚀 ⓍTTS

ⓍTTS是一款语音生成模型，只需短短6秒的音频片段，就能将声音克隆到不同语言中，无需大量耗时的训练数据。

该模型与为Coqui Studio和Coqui API提供支持的模型相同或相似。

🚀 快速开始

使用🐸TTS API

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

# generate speech by cloning a voice using custom settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en",
                decoder_iterations=30)

使用🐸TTS命令行

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

直接使用模型

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)

✨ 主要特性

支持16种语言。
仅需6秒音频片段即可进行声音克隆。
通过克隆实现情感和风格转移。
跨语言声音克隆。
多语言语音生成。
24kHz采样率。

📚 详细文档

相较于XTTS - v1的更新

新增2种语言：匈牙利语和韩语。
对说话人调节进行了架构改进。
支持使用多个说话人参考并在说话人之间进行插值。
稳定性提升。
整体韵律和音频质量更佳。

支持的语言

XTTS - v2支持16种语言：英语 (en)、西班牙语 (es)、法语 (fr)、德语 (de)、意大利语 (it)、葡萄牙语 (pt)、波兰语 (pl)、土耳其语 (tr)、俄语 (ru)、荷兰语 (nl)、捷克语 (cs)、阿拉伯语 (ar)、中文 (zh - cn)、日语 (ja)、匈牙利语 (hu) 和韩语 (ko)。

我们会持续添加更多语言支持，若您有语言需求，欢迎随时联系我们！

代码

[代码库](https://github.com/coqui - ai/TTS)支持推理和微调。

演示空间

XTTS Space：您可以查看模型在支持语言上的表现，并使用自己的参考音频或麦克风输入进行尝试。
[XTTS Voice Chat with Mistral or Zephyr](https://huggingface.co/spaces/coqui/voice - chat - with - mistral)：您可以体验与Mistral 7B Instruct或Zephyr 7B Beta的流式语音聊天。