库名称: transformers
许可证: apache-2.0
基础模型: answerdotai/ModernBERT-base
基础模型关系: 微调
标签:
- 训练生成
指标:
- 准确率
模型索引:
- 名称: ModernBERT-base-zeroshot-v2.0
结果: []
ModernBERT-base-zeroshot-v2.0
模型描述
该模型基于answerdotai/ModernBERT-base微调,训练数据集与零样本分类器集合中的zeroshot-v2.0
模型相同。
核心优势:
- 高效快速:模型推理速度显著快于DeBERTav3,内存占用更低。内存效率支持更大批量,启用bf16(替代fp16)可获得约2倍加速。
- 性能表现:在下方测试任务中平均表现略逊于DeBERTav3。
- 持续优化:正在准备新版本,利用更优质的合成数据充分发挥8k上下文窗口优势,并更新旧版
zeroshot-v2.0
模型的训练组合。
训练结果
分数据集表现:
数据集 |
平均 |
排除NLI |
mnli_m |
mnli_mm |
fevernli |
anli_r1 |
anli_r2 |
anli_r3 |
wanli |
lingnli |
wellformedquery |
rottentomatoes |
amazonpolarity |
imdb |
yelpreviews |
hatexplain |
massive |
banking77 |
emotiondair |
emocontext |
empathetic |
agnews |
yahootopics |
biasframes_sex |
biasframes_offensive |
biasframes_intent |
financialphrasebank |
appreviews |
hateoffensive |
trueteacher |
spam |
wikitoxic_toxicaggregated |
wikitoxic_obscene |
wikitoxic_identityhate |
wikitoxic_threat |
wikitoxic_insult |
manifesto |
capsotu |
准确率 |
0.831 |
0.835 |
0.932 |
0.936 |
0.884 |
0.763 |
0.647 |
0.657 |
0.823 |
0.889 |
0.753 |
0.864 |
0.949 |
0.935 |
0.974 |
0.798 |
0.788 |
0.727 |
0.789 |
0.793 |
0.489 |
0.893 |
0.717 |
0.927 |
0.851 |
0.859 |
0.907 |
0.952 |
0.926 |
0.726 |
0.978 |
0.912 |
0.914 |
0.93 |
0.951 |
0.906 |
0.476 |
0.708 |
F1宏平均 |
0.813 |
0.818 |
0.925 |
0.93 |
0.872 |
0.74 |
0.61 |
0.611 |
0.81 |
0.874 |
0.751 |
0.864 |
0.949 |
0.935 |
0.974 |
0.751 |
0.738 |
0.746 |
0.733 |
0.798 |
0.475 |
0.893 |
0.712 |
0.919 |
0.851 |
0.859 |
0.892 |
0.952 |
0.847 |
0.721 |
0.966 |
0.912 |
0.914 |
0.93 |
0.942 |
0.906 |
0.329 |
0.637 |
推理速度(文本/秒,A100 40GB GPU,batch=128) |
3472.0 |
3474.0 |
2338.0 |
4416.0 |
2993.0 |
2959.0 |
2904.0 |
3003.0 |
4647.0 |
4486.0 |
5032.0 |
4354.0 |
2466.0 |
1140.0 |
1582.0 |
4392.0 |
5446.0 |
5296.0 |
4904.0 |
4787.0 |
2251.0 |
4042.0 |
1884.0 |
4048.0 |
4032.0 |
4121.0 |
4275.0 |
3746.0 |
4485.0 |
1114.0 |
4322.0 |
2260.0 |
2274.0 |
2189.0 |
2085.0 |
2410.0 |
3933.0 |
4388.0 |
训练超参数
训练采用以下配置:
- 学习率: 5e-05
- 训练批量: 32
- 评估批量: 128
- 随机种子: 42
- 优化器: adamw_torch(beta=(0.9,0.999),epsilon=1e-08,无额外参数)
- 学习率调度器: 线性预热(预热比例0.06)
- 训练轮次: 2
框架版本
- Transformers 4.48.0.dev0
- Pytorch 2.5.1+cu124
- Datasets 3.2.0
- Tokenizers 0.21.0