XTTS-v2开源语音生成模型 - 17种语言支持，6秒克隆声音跨语言合成

首页

XTTS V2

由 shadialhakimi 开发

ⓍTTS-v2是一个先进的语音生成模型，支持17种语言，仅需6秒音频即可克隆声音并实现跨语言语音合成。

语音合成开源协议:其他 #6秒克隆语音 #多语言语音生成 #情感风格迁移

下载量 6

发布时间 : 10/24/2024

模型简介

XTTS-v2是Coqui AI开发的文本转语音模型，具有高质量语音合成、声音克隆和跨语言转换能力。它支持多种情感和风格迁移，采样率为24kHz。

模型特点

多语言支持

支持17种语言的语音合成和声音克隆

快速声音克隆

仅需6秒音频片段即可克隆目标声音

跨语言转换

可将克隆的声音用于不同语言的语音合成

情感风格迁移

能够保留并转换原始语音的情感和风格特征

高质量输出

24kHz采样率提供高质量的语音合成效果

模型能力

文本转语音

声音克隆

跨语言语音合成

情感风格转换

多说话人插值

使用案例

内容创作

有声书制作

使用克隆的声音为不同语言的有声书配音

保持一致的叙述声音同时支持多语言版本

视频配音

为视频内容生成多语言配音

快速创建本地化内容

辅助技术

语音辅助设备

为语音辅助设备提供个性化声音选项

增强用户体验和可访问性

教育

语言学习

生成目标语言的发音示例

帮助学习者掌握正确发音

🚀 ⓍTTS

ⓍTTS是一款语音生成模型，仅需一段6秒的音频片段，就能将语音克隆到不同语言中，无需大量长达数小时的训练数据。该模型与为Coqui Studio和Coqui API提供支持的模型相同或相似。

🚀 快速开始

你可以通过以下几种方式使用ⓍTTS模型：

使用🐸TTS API

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

使用🐸TTS命令行

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

直接使用模型

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)

✨ 主要特性

支持17种语言。
仅需6秒音频片段即可进行语音克隆。
通过克隆实现情感和风格转移。
跨语言语音克隆。
多语言语音生成。
24kHz采样率。

🆕 相较于XTTS-v1的更新

新增2种语言：匈牙利语和韩语。
对说话人调节进行了架构改进。
支持使用多个说话人参考并在说话人之间进行插值。
稳定性提升。
整体韵律和音频质量更佳。

🌐 支持的语言

XTTS-v2支持17种语言：英语（en）、西班牙语（es）、法语（fr）、德语（de）、意大利语（it）、葡萄牙语（pt）、波兰语（pl）、土耳其语（tr）、俄语（ru）、荷兰语（nl）、捷克语（cs）、阿拉伯语（ar）、中文（zh-cn）、日语（ja）、匈牙利语（hu）、韩语（ko）、印地语（hi）。

我们会持续添加更多语言支持，若你有特定语言需求，欢迎随时反馈！