FreeSVC开源歌声转换模型 - 免费支持多语言，零样本跨语言转换歌声

首页

Free Svc

由 alefiury 开发

FreeSVC是一款支持多语言的零样本歌声转换模型，能够实现跨语言的歌声转换而无需针对特定语言进行大量训练。

语音合成支持多种语言#零样本歌声转换 #多语言支持 #跨语言音色保持

下载量 27

发布时间 : 1/7/2025

模型简介

FreeSVC采用增强版VITS架构，集成了说话人无关聚类(SPIN)技术和ECAPA2说话人编码器，能有效分离说话人特征与语言内容，确保跨多种语言的高质量自然音色转换。

模型特点

多语言支持

支持11种语言的零样本转换，包括中文、英语、日语等主要语言

跨语言转换能力

无需针对特定语言进行训练即可实现跨语言的歌声转换

高质量音色保持

通过SPIN技术和ECAPA2编码器有效分离说话人特征与语言内容

多样化训练数据

使用超过12个不同数据集进行训练，涵盖语音和歌唱数据

模型能力

语音转换

歌声转换

语音克隆

歌声克隆

跨语言转换

零样本学习

使用案例

音乐创作

多语言歌曲翻唱

将歌曲从一种语言转换为另一种语言，同时保持原唱歌手的音色特点

实现自然流畅的跨语言歌曲转换

虚拟歌手音色定制

为虚拟歌手创建独特的音色特征

生成具有特定音色特征的歌唱声音

语音技术研究

跨语言语音转换研究

用于研究不同语言间的语音特征转换

为语音转换技术提供研究平台

🚀 FreeSVC：零样本多语言歌唱语音转换

FreeSVC 是一个极具前景的多语言零样本歌唱语音转换模型。它能够实现跨语言的歌唱语音转换，而无需进行大量特定语言的训练。GitHub 仓库。论文 arXiv 预印本。

🚀 快速开始

FreeSVC 作为一款多语言零样本歌唱语音转换模型，能在无需大量特定语言训练的情况下，实现跨语言的歌唱语音转换。你可以通过 GitHub 仓库查看项目代码，通过论文 arXiv 预印本了解更多技术细节。

✨ 主要特性

多语言支持：支持多种语言的歌唱语音转换，包括中文、荷兰语、英语、法语等。
零样本转换：无需大量特定语言的训练，即可实现跨语言的歌唱语音转换。
高质量转换：采用增强的 VITS 架构，结合 Speaker - invariant Clustering (SPIN) 和 ECAPA2 说话人编码器，确保转换后的语音质量高、自然度好。

📚 详细文档

🔍 支持的语言

语言	ID	状态	语音数据	歌唱数据
中文	0	✅ 完整支持	255 小时	70 小时
荷兰语	1	✅ 完整支持	CML 的一部分	-
英语	2	✅ 完整支持	921 小时	47 小时
法语	3	✅ 完整支持	CML 的一部分	-
德语	4	✅ 完整支持	CML 的一部分	-
意大利语	5	✅ 完整支持	CML 的一部分	-
日语	6	✅ 完整支持	30 小时	-
其他*	7	⚠️ 部分支持	-	10 小时
波兰语	8	✅ 完整支持	CML 的一部分	-
葡萄牙语	9	✅ 完整支持	CML 的一部分	-
西班牙语	10	✅ 完整支持	CML 的一部分	-

*注：“其他”类别用于无内容的发声技巧。

🧠 模型概述

FreeSVC 利用了增强的 VITS 架构，集成了 Speaker - invariant Clustering (SPIN) 和 ECAPA2 说话人编码器。这种组合有效地将说话人特征与语言内容分离，确保了跨多种语言的高质量、自然听起来的语音转换。

📊 训练数据集

FreeSVC 在多种涵盖多种语言的语音和歌唱数据集上进行了训练：

数据集	时长	语言	类型
AISHELL - 1	170 小时	中文	语音
AISHELL - 3	85 小时	中文	语音
CML - TTS	3.1k	7 种语言	语音
HiFiTTS	292 小时	英语	语音
JVS	30 小时	日语	语音
LibriTTS - R	585 小时	英语	语音
NUS (NHSS)	7 小时	英语	语音、歌唱
OpenSinger	50 小时	中文	歌唱
Opencpop	5 小时	中文	歌唱
PopBuTFy	10 小时、40 小时	中文、英语	歌唱
POPCS	5 小时	中文	歌唱
VCTK	44 小时	英语	语音
VocalSet	10 小时	其他	歌唱

📄 许可证

FreeSVC 遵循 知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议 (CC BY - NC - SA 4.0) 发布。这意味着：

该模型 仅可用于研究和非商业目的。严禁任何商业用途。
任何衍生作品必须 以相同的许可协议进行共享。
使用该模型时必须进行适当的引用。

用户还必须 遵守用于训练的原始数据集的许可协议。一些数据集可能有超出 CC BY - NC - SA 4.0 的额外限制。在使用该模型之前，请确保你已审查并遵守其条款。

完整详情请参考 CC BY - NC - SA 4.0 许可协议。

📖 引用

@INPROCEEDINGS{10890068,
  author={Ferreira, Alef Iury and Gris, Lucas Rafael and Da Rosa, Augusto and Oliveira, Frederico and Casanova, Edresson and Sousa, Rafael and Junior, Arnaldo and Soares, Anderson and Filho, Arlindo Galvão},
  booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={FreeSVC: Towards Zero-shot Multilingual Singing Voice Conversion}, 
  year={2025},
  volume={},
  number={},
  pages={1-5},
  keywords={Training;Source coding;Zero shot learning;Refining;Signal processing;Data models;Acoustics;Multilingual;Data mining;Speech synthesis;Singing Voice Conversion;Synthesis of Singing Voices;Cross-lingual and multilingual aspects in speech synthesis},
  doi={10.1109/ICASSP49660.2025.10890068}}