Speech_Emotion_Recognition_wav2vec2开源语音情感识别模型

首页

Speech Emotion Recognition Wav2vec2 Large Xlsr 53 240304 SER Fine Tuned2.0

由 hughlan1214 开发

基于wav2vec2-large-xlsr-53的语音情感识别模型，支持7种情感分类

音频分类

Transformers

开源协议:Apache-2.0 #语音情感识别 #多语言支持 #实时情绪推断

下载量 145

发布时间 : 3/4/2024

模型简介

该模型通过微调facebook/wav2vec2-large-xlsr-53实现，能够识别语音中的7种情感类型（愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶），为多模态情绪分析提供基础。

模型特点

跨语言能力

尽管仅使用英文数据训练，但模型在中文和法语情感识别上也表现良好

多情感分类

可识别7种不同的人类基本情感状态

多数据集融合训练

基于Crema、Ravdess、Savee和Tess四个主流语音情感数据集的融合数据训练

模型能力

语音情感识别

跨语言情感分析

实时情绪推断

使用案例

人机交互

智能客服情绪分析

实时分析客户语音中的情绪状态

提升客服响应质量和用户体验

心理健康

情绪状态监测

通过语音分析用户情绪变化

辅助心理健康评估

🚀 SER_wav2vec2-large-xlsr-53_240304_fine-tuned_2

本模型是在hughlan1214/SER_wav2vec2-large-xlsr-53_240304_fine-tuned1.1基础上，针对语音情感识别（英语）数据集进行微调得到的版本。该数据集涵盖了英语领域最常用的4个数据集：Crema、Ravdess、Savee和Tess，总计包含超过12000个.wav音频文件。这四个数据集中的每一个都包含6到8种不同的情感标签。该模型在评估集上取得了以下成绩：

损失值：1.0601
准确率：0.6731
精确率：0.6761
召回率：0.6794
F1值：0.6738

✨ 主要特性

跨语言能力强：尽管模型是基于纯英文数据集进行训练的，但发布后的测试表明，它在预测中文和法语语音情感方面也表现出色，展现了facebook/wav2vec2-large-xlsr-53预训练模型强大的跨语言能力。
多情感预测：能够预测语音中包含的7种情感类型，为后续结合视觉层面的人类微表情以及大语言模型（LLMS）下的上下文语义实时推断用户情感奠定了基础。

📚 详细文档

模型描述

该模型通过使用facebook/wav2vec2-large-xlsr-53进行特征提取，并经过多轮微调得到。它旨在预测语音中包含的7种情感，为后续在视觉层面利用人类微表情以及在大语言模型（LLMS）下结合上下文语义实时推断用户情感奠定基础。

emotions = ['angry', 'disgust', 'fear', 'happy', 'neutral', 'sad', 'surprise']

预期用途和局限性

更多信息待补充。

训练和评估数据

使用整个数据集的70%进行训练，30%进行评估。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：5e-05
训练批次大小：8
评估批次大小：4
随机种子：42
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：余弦
学习率调度器预热比例：0.1
训练轮数：10

训练结果

训练损失	轮数	步数	验证损失	准确率	精确率	召回率	F1值
0.8904	1.0	1048	1.1923	0.5773	0.6162	0.5563	0.5494
1.1394	2.0	2096	1.0143	0.6071	0.6481	0.6189	0.6057
0.9373	3.0	3144	1.0585	0.6126	0.6296	0.6254	0.6119
0.7405	4.0	4192	0.9580	0.6514	0.6732	0.6562	0.6576
1.1638	5.0	5240	0.9940	0.6486	0.6485	0.6627	0.6435
0.6741	6.0	6288	1.0307	0.6628	0.6710	0.6711	0.6646
0.604	7.0	7336	1.0248	0.6667	0.6678	0.6751	0.6682
0.6835	8.0	8384	1.0396	0.6722	0.6803	0.6790	0.6743
0.5421	9.0	9432	1.0493	0.6714	0.6765	0.6785	0.6736
0.5728	10.0	10480	1.0601	0.6731	0.6761	0.6794	0.6738