SER-Odyssey-Baseline-WavLM-Arousal开源模型 - 精准预测语音唤醒度值

首页

SER Odyssey Baseline WavLM Arousal

由 3loi 开发

基于WavLM架构的语音情绪识别基线模型，专门用于预测语音中的唤醒度值（0-1范围）

音频分类

Transformers

英语开源协议:MIT #语音唤醒度预测 #单任务情绪识别 #MSP-Podcast数据集

下载量 72

发布时间 : 3/15/2024

模型简介

该模型是Odyssey 2024情绪识别竞赛的基线模型，基于MSP-Podcast数据集训练，专注于单任务唤醒度预测。

模型特点

高精度唤醒度预测

在Test3和开发集上分别达到0.566和0.651的CCC指标

单任务专注设计

专门优化用于唤醒度预测，避免多任务干扰

标准化音频处理

内置均值/标准差标准化流程，确保输入一致性

模型能力

语音情绪分析

唤醒度值预测

音频特征提取

使用案例

心理健康监测

语音情绪状态评估

通过语音分析用户的情绪唤醒程度

可量化输出0-1范围的唤醒度值

人机交互

智能客服情绪响应

实时检测用户语音情绪状态以调整响应策略

🚀 音频分类模型

该模型用于音频分类，在奥德赛2024情感识别竞赛基线中，基于 MSP-Podcast 数据集进行训练。此特定模型是单任务的唤醒度（arousal）专业模型，能预测唤醒度，范围约为0到1。

✨ 主要特性

基于 MSP-Podcast 数据集训练，用于奥德赛2024情感识别竞赛基线。
单任务专业唤醒度模型，可预测约0到1范围内的唤醒度。

📚 详细文档

基准测试

基于奥德赛竞赛的Test3和开发集进行CCC（一致性相关系数）评估。

单任务设置	Test 3	开发集
唤醒度（Aro）	0.566	0.651

更多详细信息请参考：演示、论文和 GitHub。

引用信息

@InProceedings{Goncalves_2024,
            author={L. Goncalves and A. N. Salman and A. {Reddy Naini} and L. Moro-Velazquez and T. Thebaud and L. {Paola Garcia} and N. Dehak and B. Sisman and C. Busso},
            title={Odyssey2024 - Speech Emotion Recognition Challenge: Dataset, Baseline Framework, and Results},
            booktitle={Odyssey 2024: The Speaker and Language Recognition Workshop)},
            volume={To appear},
            year={2024},
            month={June},
            address =  {Quebec, Canada},
}

💻 使用示例

基础用法

from transformers import AutoModelForAudioClassification
import librosa, torch

#load model
model = AutoModelForAudioClassification.from_pretrained("3loi/SER-Odyssey-Baseline-WavLM-Arousal", trust_remote_code=True)

#get mean/std
mean = model.config.mean
std = model.config.std

#load an audio file
audio_path = "/path/to/audio.wav"
raw_wav, _ = librosa.load(audio_path, sr=model.config.sampling_rate)

#normalize the audio by mean/std
norm_wav = (raw_wav - mean) / (std+0.000001)

#generate the mask
mask = torch.ones(1, len(norm_wav))

#batch it (add dim)
wavs = torch.tensor(norm_wav).unsqueeze(0)

#predict
with torch.no_grad():
    pred = model(wavs, mask)

print(model.config.id2label) 
print(pred)
#{0: 'arousal'}
#tensor([[0.3670]])