标签:
- 模型中心混合
- PyTorch模型中心混合
- 语音情感识别
许可证: bsd-2-clause
语言:
- 英文
评估指标:
- 准确率
基础模型:
- openai/whisper-large-v3
管道标签: 音频分类
Whisper-Large V3 分类情感识别模型
模型描述
该模型实现了《Vox-Profile: 一个用于表征多样化说话者和语音特征的语音基础模型基准》(https://arxiv.org/pdf/2505.14648)中描述的分类情感识别功能。
所采用的训练流程同时也是INTERSPEECH 2025——语音情感挑战赛(https://lab-msp.com/MSP-Podcast_Competition/IS2025/)中的最佳解决方案(SAILER)。需要注意的是,与官方参赛系统相比,我们未使用全部数据增强技术且未利用文本转录,而是构建了一个纯语音系统以保持模型简洁高效。
本模型基于MSP-Podcast数据集训练,需注意其情感预测可能对语音内容敏感。但这一特性使其特别适合对网络内容进行情感分类。
包含的情感类别如下:
[
'愤怒',
'轻蔑',
'厌恶',
'恐惧',
'快乐',
'中性',
'悲伤',
'惊讶',
'其他'
]
- 代码库: https://github.com/tiantiaf0627/vox-profile-release
使用方法
下载代码库
git clone git@github.com:tiantiaf0627/vox-profile-release.git
安装依赖
conda create -n vox_profile python=3.8
cd vox-profile-release
pip install -e .
加载模型
import torch
import torch.nn.functional as F
from src.model.emotion.whisper_emotion import WhisperWrapper
device = torch.device("cuda") if torch.cuda.is_available() else "cpu"
model = WhisperWrapper.from_pretrained("tiantiaf/whisper-large-v3-msp-podcast-emotion").to(device)
model.eval()
预测示例
emotion_label_list = [
'愤怒',
'轻蔑',
'厌恶',
'恐惧',
'快乐',
'中性',
'悲伤',
'惊讶',
'其他'
]
max_audio_length = 15 * 16000
data = torch.zeros([1, 16000]).float().to(device)[:, :max_audio_length]
logits, embedding, _, _, _, _ = model(
data, return_feature=True
)
emotion_prob = F.softmax(logits, dim=1)
print(emotion_label_list[torch.argmax(emotion_prob).detach().cpu().item()])
如有疑问请联系: 冯甜甜 (tiantiaf@usc.edu)
若使用本模型或认为其有帮助,请引用我们的论文
@article{feng2025vox,
title={Vox-Profile: 一个用于表征多样化说话者和语音特征的语音基础模型基准},
author={冯甜甜 and 李智焕 and 徐安峰 and 李允静 and 勒特佩普恩·塔纳泰 and 石璇 and 王鹤霖 and 托马斯·特博 and 劳雷亚诺·莫罗-贝拉克斯克斯 and 丹妮·伯德等},
journal={arXiv预印本 arXiv:2505.14648},
year={2025}
}