M

Metis

由 amphion 开发
墨提斯是一个面向统一语音生成的基础模型,采用预训练与微调范式,通过掩码生成建模在大规模无标注语音数据上进行预训练,再通过微调适配多样化语音生成任务。
下载量 25
发布时间 : 2/24/2025
模型介绍
内容详情
替代品

模型简介

墨提斯是一个基于掩码生成预训练的语音生成基础模型,能够通过微调适配多种语音生成任务,如文本转语音、语音转换、目标说话人提取等。

模型特点

掩码生成预训练
在大规模无标注语音数据上进行掩码生成预训练,学习语音的通用表征。
多样化语音生成任务适配
通过微调可以适配多种语音生成任务,如文本转语音、语音转换等。
高效参数利用
以不足2000万可训练参数或1/300训练数据量,超越当前最先进的单任务或多任务系统。

模型能力

文本转语音
语音转换
目标说话人提取
语音增强
唇语转语音

使用案例

语音生成
零样本文本转语音
将文本转换为自然语音,无需特定说话人数据。
全面超越当前最先进的单任务或多任务系统。
语音转换
将一种语音转换为另一种语音,保留内容但改变说话人特征。
以有限数据和可训练参数实现高效适配。
语音处理
目标说话人提取
从混合语音中提取特定说话人的语音。
在多项任务中表现优异。
语音增强
提高语音信号的质量和清晰度。
以1/300训练数据量超越当前系统。