开源modernbert-base-go-emotions模型 - 精准识别28种情感标签做情感分类

首页

Modernbert Base Go Emotions

由 cirimus 开发

基于ModernBERT-base微调的多标签情感分类模型，可识别28种情感标签

文本分类

Transformers

英语开源协议:MIT #多标签情感分析 #Reddit评论分类 #动态阈值优化

下载量 3,056

发布时间 : 1/14/2025

模型简介

该模型专为英文文本情感分析设计，支持同时预测多种情感标签，适用于社交媒体情绪监测和用户反馈分析等场景

模型特点

多标签预测

支持单文本同时预测多个情感标签，符合真实场景中复杂情感的表达

细粒度分类

可识别28种不同情感，包括赞赏、兴奋、失望等细微情感差异

动态阈值优化

针对不同情感标签采用个性化预测阈值，提升小样本标签的识别效果

模型能力

情感标签预测

文本情绪分析

多标签分类

使用案例

社交媒体分析

用户评论情绪监测

分析Reddit等平台用户评论的情感倾向

可识别兴奋、愤怒等多维度情绪状态

客户服务

反馈情感分析

自动分类客户反馈中的情绪标签

帮助优先处理负面情绪反馈

🚀 现代BERT情感分类模型

本模型基于ModernBERT，在GoEmotions数据集上微调，用于英文文本的多标签情感分类任务。它能精准识别文本中的情感状态，涵盖28种不同的情感标签，可广泛应用于社交媒体情感分析、客户反馈评估等领域。

🚀 快速开始

本模型是基于ModernBERT-base在GoEmotions数据集上进行微调的多标签分类模型，可预测文本中的情感状态，共有28种可能的标签。每个输入文本可以有一个或多个相关标签，体现了该任务的多标签性质。

你可以点击此处进行试用。

✨ 主要特性

精准分类：能够对英文文本进行多标签情感分类，涵盖28种情感标签。
易于使用：借助Hugging Face Transformers框架，可轻松加载和使用模型。
应用广泛：适用于社交媒体情感分析、客户反馈评估、行为或心理研究等领域。

📦 模型详情

属性	详情
基础模型	ModernBERT-base
微调数据集	GoEmotions
标签数量	28
问题类型	多标签分类
语言	英文
许可证	MIT
微调框架	Hugging Face Transformers

💻 使用示例

基础用法

以下是使用Hugging Face Transformers调用该模型的示例代码：

from transformers import pipeline
import torch

# 加载模型
classifier = pipeline(
    "text-classification", 
    model="cirimus/modernbert-base-go-emotions",
    return_all_scores=True
)

text = "I am so happy and excited about this opportunity!"
predictions = classifier(text)

# 打印前5个检测到的情绪
sorted_preds = sorted(predictions[0], key=lambda x: x['score'], reverse=True)
top_5 = sorted_preds[:5]

print("\nTop 5 emotions detected:")
for pred in top_5:
    print(f"\t{pred['label']:10s} : {pred['score']:.3f}")

## 示例输出:
# Top 5 emotions detected:
#        excitement : 0.937
#        joy        : 0.915
#        desire     : 0.022
#        love       : 0.020
#        admiration : 0.017

🔧 技术细节

模型创建过程

模型使用以下超参数进行了3个epoch的微调：

学习率：2e-5
批量大小：16
权重衰减：0.01
预热步数：500
优化器：AdamW
评估指标：精确率、召回率、F1分数（加权）、准确率

数据集

GoEmotions数据集是一个基于Reddit评论的多标签情感分类数据集，包含58,000个示例和28种情感标签（如钦佩、娱乐、愤怒等），并针对多标签分类进行了标注。

评估结果

模型在GoEmotions数据集的测试集上进行了评估，使用0.5的阈值对预测结果进行二值化处理。以下是评估结果：

标准结果：使用默认阈值0.5。

标签	准确率	精确率	召回率	F1分数	马修斯相关系数	样本数量	阈值
宏平均	0.970	0.665	0.389	0.465	0.477	5427	0.5
钦佩	0.945	0.737	0.627	0.677	0.650	504	0.5
娱乐	0.980	0.794	0.803	0.798	0.788	264	0.5
愤怒	0.968	0.680	0.258	0.374	0.406	198	0.5
烦恼	0.940	0.468	0.159	0.238	0.249	320	0.5
认可	0.942	0.614	0.276	0.381	0.387	351	0.5
关心	0.976	0.524	0.244	0.333	0.347	135	0.5
困惑	0.975	0.625	0.294	0.400	0.418	153	0.5
好奇	0.951	0.538	0.423	0.473	0.452	284	0.5
渴望	0.987	0.604	0.349	0.443	0.453	83	0.5
失望	0.974	0.656	0.139	0.230	0.294	151	0.5
不认可	0.950	0.494	0.292	0.367	0.356	267	0.5
厌恶	0.980	0.674	0.252	0.367	0.405	123	0.5
尴尬	0.995	0.857	0.324	0.471	0.526	37	0.5
兴奋	0.984	0.692	0.262	0.380	0.420	103	0.5
恐惧	0.992	0.796	0.551	0.652	0.659	78	0.5
感激	0.990	0.957	0.892	0.924	0.919	352	0.5
悲痛	0.999	0.000	0.000	0.000	0.000	6	0.5
喜悦	0.978	0.652	0.571	0.609	0.600	161	0.5
爱	0.982	0.792	0.798	0.795	0.786	238	0.5
紧张	0.996	0.636	0.304	0.412	0.439	23	0.5
乐观	0.975	0.743	0.403	0.523	0.536	186	0.5
自豪	0.998	0.857	0.375	0.522	0.566	16	0.5
领悟	0.973	0.514	0.124	0.200	0.244	145	0.5
宽慰	0.998	1.000	0.091	0.167	0.301	11	0.5
懊悔	0.992	0.594	0.732	0.656	0.656	56	0.5
悲伤	0.979	0.759	0.385	0.511	0.532	156	0.5
惊讶	0.978	0.649	0.340	0.447	0.460	141	0.5
中立	0.794	0.715	0.623	0.666	0.520	1787	0.5

最优结果：根据训练集为每个标签使用最佳阈值（基于F1分数进行调整）。

标签	准确率	精确率	召回率	F1分数	马修斯相关系数	样本数量	阈值
宏平均	0.967	0.568	0.531	0.541	0.526	5427	不同
钦佩	0.946	0.700	0.726	0.713	0.683	504	0.30
娱乐	0.981	0.782	0.856	0.817	0.808	264	0.40
愤怒	0.963	0.490	0.510	0.500	0.481	198	0.20
烦恼	0.917	0.337	0.425	0.376	0.334	320	0.25
认可	0.922	0.411	0.473	0.440	0.399	351	0.25
关心	0.971	0.424	0.415	0.419	0.405	135	0.25
困惑	0.970	0.468	0.484	0.476	0.460	153	0.30
好奇	0.947	0.493	0.630	0.553	0.530	284	0.35
渴望	0.988	0.708	0.410	0.519	0.533	83	0.45
失望	0.963	0.321	0.291	0.306	0.287	151	0.25
不认可	0.943	0.429	0.464	0.446	0.417	267	0.30
厌恶	0.981	0.604	0.496	0.545	0.538	123	0.20
尴尬	0.995	0.789	0.405	0.536	0.564	37	0.30
兴奋	0.979	0.444	0.388	0.415	0.405	103	0.25
恐惧	0.991	0.693	0.667	0.680	0.675	78	0.30
感激	0.990	0.951	0.886	0.918	0.913	352	0.50
悲痛	0.999	0.500	0.500	0.500	0.499	6	0.20
喜悦	0.978	0.628	0.609	0.618	0.607	161	0.40
爱	0.982	0.789	0.819	0.804	0.795	238	0.45
紧张	0.995	0.375	0.391	0.383	0.380	23	0.25
乐观	0.970	0.558	0.597	0.577	0.561	186	0.15
自豪	0.998	0.750	0.375	0.500	0.529	16	0.15
领悟	0.968	0.326	0.200	0.248	0.240	145	0.25
宽慰	0.998	0.429	0.273	0.333	0.341	11	0.25
懊悔	0.993	0.611	0.786	0.688	0.689	56	0.55
悲伤	0.979	0.667	0.538	0.596	0.589	156	0.20
惊讶	0.978	0.585	0.511	0.545	0.535	141	0.30
中立	0.782	0.649	0.737	0.690	0.526	1787	0.40

📚 预期用途

该模型旨在对英文文本进行情感分类，尤其适用于以下领域：

社交媒体情感分析
客户反馈评估
行为或心理研究

📄 许可证

本模型采用MIT许可证。

🚫 局限性和偏差

⚠️ 重要提示

数据偏差：数据集基于Reddit评论，可能无法很好地推广到其他领域或文化背景中。

类别代表性不足：某些标签（如“悲痛”和“宽慰”）的示例非常少，导致这些类别的性能较低。

标注歧义：部分训练数据存在标注不一致或歧义的情况，可能会影响预测结果。

🌱 环境影响

使用的硬件：NVIDIA RTX4090
训练时间：<1小时
碳排放：约0.04千克二氧化碳（通过ML CO2 Impact Calculator计算）

📖 引用

如果您使用此模型，请按以下方式引用：

@inproceedings{JdFE2025b,
  title = {Emotion Classification with ModernBERT},
  author = {Enric Junqu\'e de Fortuny},
  year = {2025},
  howpublished = {\url{https://huggingface.co/cirimus/modernbert-base-go-emotions}},
}