XTTS-v2_C3PO开源多语言文本转语音模型 - 免费体验C-3PO讽刺风语音

首页

XTTS V2 C3PO

由 Borcherding 开发

基于《星球大战》C-3PO角色语音微调的多语言文本转语音模型，具有讽刺风格和情感表达能力

语音合成开源协议:其他 #C-3PO声线克隆 #多语言讽刺语音 #星际角色语音合成

下载量 40

发布时间 : 6/26/2024

模型简介

该模型通过20条C-3PO语音片段微调，能生成具有该角色标志性说话风格的语音，支持17种语言并保持角色声线特征

模型特点

角色声线克隆

精准复现C-3PO标志性的说话方式，包括刻板腔调和讽刺语气

多语言支持

支持17种语言的语音合成，同时保持角色音色特征

情感风格迁移

能还原原始语音的情感基调和戏剧性表达风格

高清音质输出

24kHz采样率确保语音清晰度和保真度

模型能力

语音克隆

多语言语音合成

情感语音生成

跨语言声线保持

使用案例

娱乐应用

角色配音生成

为游戏或视频内容生成C-3PO风格的配音

增强内容的趣味性和沉浸感

聊天机器人语音

为聊天机器人添加特色语音交互功能

提升用户体验和互动趣味性

教育应用

语言学习辅助

生成多语言学习材料的有声内容

使学习过程更具吸引力

🚀 ⓍTTS_v2 - C-3PO 微调语音模型 (Borcherding/XTTS-v2_C3PO)

ⓍTTS（讽刺文本转语音）模型位于 Borcherding/XTTS-v2_C3PO 仓库中，它不仅仅是一项技术，更像是一件艺术品，是代码、创造力和幽默的完美结合。想象一下，在一个数字画廊中，参观者能听到 C-3PO 的讽刺言论在虚拟大厅中回响。

✨ 主要特性

C-3PO 的独特语音

借助从 Voicy 收集的 20 条独特语音台词，ⓍTTS 模型捕捉到了 C-3PO 独特的说话模式精髓。你可以期待听到协议机器人的正式用语、意外的评论和偶尔的存在主义思考的有趣融合。

讽刺语气

ⓍTTS 模型不采用中立或严肃的语气，而是热衷于讽刺。它会俏皮地夸大语调，插入幽默的停顿，偶尔还会打破第四面墙。每一条语音台词都像是想象画布上的一笔。

本仓库托管了 ⓍTTS 模型的微调版本，使用了来自标志性星球大战角色 C-3PO 的 20 条独特语音台词。这些语音台词来自 Voicy。

C-3PO

聆听 ⓍTTS_v2 - C-3PO 微调模型的示例：

这是训练数据中的一段 C-3PO 的 mp3 语音台词片段：

其他特性

🎙️ 语音克隆：只需一段简短的音频片段，即可实现逼真的语音克隆。
🌍 多语言支持：可以生成 17 种不同语言的语音，同时保持 C-3PO 的独特声音。
😃 情感与风格迁移：捕捉原始语音的情感基调和风格。
🔄 跨语言克隆：在不同语言中保持独特的语音特征。
🎧 高质量音频：以 24kHz 的采样率输出，提供清晰、高保真的音频。

📚 详细文档

支持的语言

该模型支持以下 17 种语言：英语（en）、西班牙语（es）、法语（fr）、德语（de）、意大利语（it）、葡萄牙语（pt）、波兰语（pl）、土耳其语（tr）、俄语（ru）、荷兰语（nl）、捷克语（cs）、阿拉伯语（ar）、中文（zh-cn）、日语（ja）、匈牙利语（hu）、韩语（ko）和印地语（hi）。

在 Roll Cage 中的使用

🤖💬 使用这个 Ollama 插件提升你的 AI 体验！享受实时音频 🎙️ 和文本 🔍 聊天、LaTeX 渲染 📜、代理自动化 ⚙️、工作流 🔄、文本转图像 📝➡️🖼️、图像转文本 🖼️➡️🔤、图像转视频 🖼️➡️🎥 转换。微调文本 📝、语音 🗣️ 和图像 🖼️ 生成。包括 Windows 宏控件 🖥️ 和 DuckDuckGo 搜索。

ollama_agent_roll_cage (OARC) 是 Ollama 命令行界面的一个完全本地化的 Python 和 CMD 工具集插件。OARC 工具集可以自动创建代理，让用户对可能的输出有更多控制。它为每个 ./Modelfile 提供系统提示模板，允许用户快速设计和部署自定义代理。用户可以选择在代理构建中使用哪个本地模型文件，并使用所需的系统提示。

为何为 Roll Cage 选择此模型

C-3PO 微调模型是为 Roll Cage 聊天机器人设计的，旨在通过熟悉且受欢迎的声音增强用户交互。通过融入 C-3PO 独特的说话模式和语气，Roll Cage 变得更具吸引力和趣味性。多语言支持和情感迁移的加入确保了聊天机器人能够在不同语言和语境中有效且富有表现力地进行交流，为用户提供更沉浸式的体验。

新的 Coqui 分支由 idiap 维护，愿上帝保佑他：

CoquiTTS 及相关资源

🐸💬 idiap/CoquiTTS：GitHub 上的 Coqui TTS
👩‍💻 daswer123/xtts-finetune-webui 👩‍💻：xtts-finetune-webui
📚 文档：ReadTheDocs
👩‍💻 问题咨询：GitHub 讨论区
🗯 社区：Discord

💻 使用示例

基础用法

使用 🐸TTS API：

from TTS.api import TTS

tts = TTS(model_path="D:/CodingGit_StorageHDD/Ollama_Custom_Mods/ollama_agent_roll_cage/AgentFiles/Ignored_TTS/XTTS-v2_C3PO/", 
          config_path="D:/CodingGit_StorageHDD/Ollama_Custom_Mods/ollama_agent_roll_cage/AgentFiles/Ignored_TTS/XTTS-v2_C3PO/config.json", progress_bar=False, gpu=True).to(self.device)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

使用 🐸TTS 命令行：

 tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
     --text "Bugün okula gitmek istemiyorum." \
     --speaker_wav /path/to/target/speaker.wav \
     --language_idx tr \
     --use_cuda true

高级用法

直接使用模型：

from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("/path/to/xtts/config.json")
model = Xtts.init_from_config(config)
model.load_checkpoint(config, checkpoint_dir="/path/to/xtts/", eval=True)
model.cuda()

outputs = model.synthesize(
    "It took me quite a long time to develop a voice and now that I have it I am not going to be silent.",
    config,
    speaker_wav="/data/TTS-public/_refclips/3.wav",
    gpt_cond_len=3,
    language="en",
)