标签:
- 模型中心混合
- PyTorch模型中心混合
许可证: bsd-2-clause
语言:
- 英语
指标:
- 准确率
基础模型:
- openai/whisper-large-v3
数据集:
- ajd12342/paraspeechcaps
管道标签: 音频分类
Whisper Large v3语音质量分类模型
模型描述
本模型实现了《Vox-Profile: 用于表征多样化说话人与语音特征的语音基础模型基准》(https://arxiv.org/pdf/2505.14648)中描述的语音质量分类方法。
评估指标:
我们采用说话人级别的宏平均F1分数。具体流程为:为每位说话人随机抽取5条语音样本,重复此分层过程20次。说话人级别分数计算为跨说话人的宏平均F1分数均值。最终报告VoxCeleb和Expresso数据集上说话人级别宏平均F1分数的未加权平均值。
特别说明:
由于EARS数据集在保留集中样本量不足,我们将其从ParaSpeechCaps中排除。
包含的标签类别如下:
[
'尖锐', '鼻音', '低沉', # 音高
'丝滑', '沙哑', '刺耳', '喉音', '气泡音', # 音质
'洪亮', '威严', '响亮', '轻声', '柔和', # 音量
'清晰', '含糊', '咬舌', '结巴', # 清晰度
'抑扬顿挫', '跑调', '流畅', '单调', '断奏', '重读', '字正腔圆', '迟疑', # 节奏
]
- 代码库: https://github.com/tiantiaf0627/vox-profile-release
使用方法
下载代码库
git clone git@github.com:tiantiaf0627/vox-profile-release.git
安装环境
conda create -n vox_profile python=3.8
cd vox-profile-release
pip install -e .
加载模型
import torch
import torch.nn.functional as F
from src.model.voice_quality.whisper_voice_quality import WhisperWrapper
device = torch.device("cuda") if torch.cuda.is_available() else "cpu"
model = WhisperWrapper.from_pretrained("tiantiaf/whisper-large-v3-voice-quality").to(device)
model.eval()
预测示例
voice_quality_label_list = [
'尖锐', '鼻音', '低沉',
'丝滑', '沙哑', '刺耳', '喉音', '气泡音',
'洪亮', '威严', '响亮', '轻声', '柔和',
'清晰', '含糊', '咬舌', '结巴',
'抑扬顿挫', '跑调', '流畅', '单调', '断奏', '重读', '字正腔圆', '迟疑',
]
max_audio_length = 15 * 16000
data = torch.zeros([1, 16000]).float().to(device)[:, :max_audio_length]
logits = model(data, return_feature=False)
voice_quality_prob = nn.Sigmoid()(torch.tensor(logits))
voice_label = []
threshold = 0.7
predictions = (voice_quality_prob > threshold).int().detach().cpu().numpy()[0].tolist()
for label_idx in range(len(predictions)):
if predictions[label_idx] == 1: voice_label.append(voice_quality_label_list[label_idx])
print(voice_label)
问题咨询
请联系: 冯甜甜 (tiantiaf@usc.edu)
引用须知
如使用本模型或认为其有价值,请引用我们的论文:
@article{feng2025vox,
title={Vox-Profile: 用于表征多样化说话人与语音特征的语音基础模型基准},
author={冯甜甜 and 李智焕 and 徐安峰 and 李允静 and 塔纳泰·勒特佩普 and 石璇 and 王鹤霖 and 托马斯·特博 and 劳雷亚诺·莫罗-贝拉斯克斯 and 丹妮·伯德 and 等},
journal={arXiv预印本 arXiv:2505.14648},
year={2025}
}