W

Wav2vec2 Large Robust 12 Ft Emotion Msp Dim

由 audeering 开发
该模型通过对Wav2Vec2-Large-Robust进行微调训练,用于语音情感识别,输出唤醒度、支配度和效价三个维度的预测值。
下载量 394.51k
发布时间 : 4/6/2022
模型介绍
内容详情
替代品

模型简介

本模型接收原始音频信号输入,输出唤醒度、支配度和效价三个维度的预测值(范围约0...1),同时提供最后transformer层的池化状态。

模型特点

维度情感识别
预测唤醒度、支配度和效价三个连续维度值,而非离散情感类别
预训练模型微调
基于Wav2Vec2-Large-Robust进行微调,利用了大规模自监督预训练的优势
特征提取能力
可输出最后transformer层的池化状态作为语音特征向量
模型优化
原始24层Transformer被剪枝至12层,平衡了性能与效率

模型能力

语音情感分析
语音特征提取
连续维度情感预测

使用案例

人机交互
智能客服情绪分析
分析用户语音中的情绪状态,优化客服响应策略
可量化用户情绪变化
心理健康
情绪状态监测
通过语音分析监测抑郁症等心理疾病患者的情绪波动
提供客观的情绪维度指标