Metis（墨提斯）开源语音生成模型 - 预训练微调适配多样语音任务

首页

Metis

由 amphion 开发

墨提斯是一个面向统一语音生成的基础模型，采用预训练与微调范式，通过掩码生成建模在大规模无标注语音数据上进行预训练，再通过微调适配多样化语音生成任务。

语音合成

Safetensors

#语音生成基础模型 #掩码生成预训练 #多任务语音生成

下载量 25

发布时间 : 2/24/2025

模型简介

墨提斯是一个基于掩码生成预训练的语音生成基础模型，能够通过微调适配多种语音生成任务，如文本转语音、语音转换、目标说话人提取等。

模型特点

掩码生成预训练

在大规模无标注语音数据上进行掩码生成预训练，学习语音的通用表征。

多样化语音生成任务适配

通过微调可以适配多种语音生成任务，如文本转语音、语音转换等。

高效参数利用

以不足2000万可训练参数或1/300训练数据量，超越当前最先进的单任务或多任务系统。

模型能力

文本转语音

语音转换

目标说话人提取

语音增强

唇语转语音

使用案例

语音生成

零样本文本转语音

将文本转换为自然语音，无需特定说话人数据。

全面超越当前最先进的单任务或多任务系统。

语音转换

将一种语音转换为另一种语音，保留内容但改变说话人特征。

以有限数据和可训练参数实现高效适配。

语音处理

目标说话人提取

从混合语音中提取特定说话人的语音。

在多项任务中表现优异。

语音增强

提高语音信号的质量和清晰度。

以1/300训练数据量超越当前系统。

🚀 Metis：基于掩码生成式预训练的基础语音生成模型

Metis 是一个用于统一语音生成的基础模型，采用预训练和微调范式，在大规模无标签语音数据上进行掩码生成式预训练，能高效适应多种语音生成任务。

项目链接

📚 详细文档

概述

我们推出了 Metis，这是一个用于统一语音生成的基础模型。与以往特定任务或多任务模型不同，Metis 遵循预训练和微调范式。它在大规模无标签语音数据上使用掩码生成式建模进行预训练，然后进行微调以适应各种语音生成任务。具体而言：

Metis 使用两种离散语音表示：从语音自监督学习（SSL）特征派生的 SSL 令牌，以及直接从波形量化的声学令牌。
Metis 在 SSL 令牌上执行掩码生成式预训练，利用 300K 小时的多样化语音数据，无需任何额外条件。
通过使用特定任务条件进行微调，Metis 能够高效适应各种语音生成任务，同时支持多模态输入，即使在使用有限数据和可训练参数的情况下也是如此。

实验表明，Metis 可以作为统一语音生成的基础模型：在包括零样本文本转语音、语音转换、目标说话人提取、语音增强和唇语转语音在内的五项语音生成任务中，即使可训练参数少于 2000 万或训练数据减少 300 倍，Metis 也优于最先进的特定任务或多任务系统。音频样本可在演示页面上获取。

模型介绍

Metis 与 MaskGCT 完全兼容，并与它共享几个关键模型组件。这些共享组件包括：

模型名称	描述
Semantic Codec	将语音转换为语义令牌。
Acoustic Codec	将语音转换为声学令牌，并从声学令牌重建波形。
Semantic2Acoustic	根据语义令牌预测声学令牌。

我们开源了 Metis 第一阶段（掩码生成式预训练）的预训练模型检查点，以及用于语音增强（SE）、目标说话人提取（TSE）、语音转换（VC）、唇语转语音（L2S）的微调模型和统一多任务（Omni）模型。

对于零样本文本转语音，你可以从 MaskGCT 下载 text2semantic 模型，它与 Metis 框架兼容。

模型名称	描述
Metis-Base	经过掩码生成式预训练的基础模型。
Metis-TSE	用于目标说话人提取的微调模型。提供全量和 LoRA（r = 32）版本。
Metis-VC	用于语音转换的微调模型。提供全量版本。
Metis-SE	用于语音增强的微调模型。提供全量和 LoRA（r = 32）版本。
Metis-L2S	用于唇语转语音的微调模型。提供全量版本。
Metis-TTS	零样本文本转语音模型（与 MaskGCT 的第一阶段相同）。
Metis-Omni	支持零样本 TTS、VC、TSE 和 SE 的统一多任务模型。

引用

如果你在研究中使用了 Metis，请引用以下论文：

@article{wang2025metis,
  title={Metis: A Foundation Speech Generation Model with Masked Generative Pre-training},
  author={Wang, Yuancheng and Zheng, Jiachen and Zhang, Junan and Zhang, Xueyao and Liao, Huan and Wu, Zhizheng},
  journal={arXiv preprint arXiv:2502.03128},
  year={2025}
}
@inproceedings{wang2024maskgct,
  author={Wang, Yuancheng and Zhan, Haoyue and Liu, Liwei and Zeng, Ruihong and Guo, Haotian and Zheng, Jiachen and Zhang, Qiang and Zhang, Xueyao and Zhang, Shunsi and Wu, Zhizheng},
  title={MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer},
  booktitle    = {{ICLR}},
  publisher    = {OpenReview.net},
  year         = {2025}
}
@article{amphion_v0.2,
  title        = {Overview of the Amphion Toolkit (v0.2)},
  author       = {Jiaqi Li and Xueyao Zhang and Yuancheng Wang and Haorui He and Chaoren Wang and Li Wang and Huan Liao and Junyi Ao and Zeyu Xie and Yiqiao Huang and Junan Zhang and Zhizheng Wu},
  year         = {2025},
  journal      = {arXiv preprint arXiv:2501.15442},
}
@inproceedings{amphion,
    author={Zhang, Xueyao and Xue, Liumeng and Gu, Yicheng and Wang, Yuancheng and Li, Jiaqi and He, Haorui and Wang, Chaoren and Song, Ting and Chen, Xi and Fang, Zihao and Chen, Haopeng and Zhang, Junan and Tang, Tze Ying and Zou, Lexiao and Wang, Mingxuan and Han, Jun and Chen, Kai and Li, Haizhou and Wu, Zhizheng},
    title={Amphion: An Open-Source Audio, Music and Speech Generation Toolkit},
    booktitle={{IEEE} Spoken Language Technology Workshop, {SLT} 2024},
    year={2024}
}

信息表格

属性	详情
模型类型	基于掩码生成式预训练的基础语音生成模型
训练数据	300K 小时的多样化语音数据
许可证	CC BY-NC 4.0
数据集	amphion/Emilia-Dataset
任务类型	文本转语音