语言:
- 英文
许可证: mit
标签:
- 训练生成
数据集:
- glue
评估指标:
- 准确率
小部件示例:
- 文本: "她已身受重伤。再中一矛便会倒下。"
模型索引:
- 名称: deberta-v3-large-mnli-2
结果:
- 任务:
类型: 文本分类
名称: 文本分类
数据集:
名称: GLUE MNLI
类型: glue
参数: mnli
指标:
- 类型: 准确率
值: 0.8949349064279902
名称: 准确率
- 任务:
类型: 自然语言推理
名称: 自然语言推理
数据集:
名称: glue
类型: glue
配置: mnli
拆分: validation_matched
指标:
- 类型: 准确率
值: 0.9000509424350484
名称: 准确率
已验证: true
验证令牌: [略]
- 类型: 精确率
值: 0.9000452542826349
名称: 宏平均精确率
已验证: true
验证令牌: [略]
- 类型: 精确率
值: 0.9000509424350484
名称: 微平均精确率
已验证: true
验证令牌: [略]
- 类型: 精确率
值: 0.9014585350976404
名称: 加权精确率
已验证: true
验证令牌: [略]
- 类型: 召回率
值: 0.900253092056111
名称: 宏平均召回率
已验证: true
验证令牌: [略]
- 类型: 召回率
值: 0.9000509424350484
名称: 微平均召回率
已验证: true
验证令牌: [略]
- 类型: 召回率
值: 0.9000509424350484
名称: 加权召回率
已验证: true
验证令牌: [略]
- 类型: F1分数
值: 0.8997940135019421
名称: 宏平均F1
已验证: true
验证令牌: [略]
- 类型: F1分数
值: 0.9000509424350484
名称: 微平均F1
已验证: true
验证令牌: [略]
- 类型: F1分数
值: 0.9003949466748086
名称: 加权F1
已验证: true
验证令牌: [略]
- 类型: 损失值
值: 0.6493226289749146
名称: 损失值
已验证: true
验证令牌: [略]
基于MNLI微调的DeBERTa-v3-large模型
本模型是在GLUE MNLI数据集上对microsoft/deberta-v3-large进行微调的版本,评估集表现如下:
模型描述
DeBERTa通过解耦注意力机制和增强型掩码解码器改进了BERT和RoBERTa模型。凭借这两项创新,DeBERTa在80GB训练数据下,于多数NLU任务中超越了RoBERTa。
在DeBERTa V3中,我们采用ELECTRA风格的预训练配合梯度解耦嵌入共享技术,进一步提升了模型效率。相较原版DeBERTa,V3版本在下游任务上展现出显著性能提升。技术细节详见我们的论文。
更多实现细节与更新请参阅官方代码库。
DeBERTa V3 large模型包含24个网络层和1024维隐藏状态,主干参数达304M。其词表包含128K个标记,嵌入层参数为131M。本模型与DeBERTa V2同样使用160GB数据进行训练。
使用场景与限制
需补充信息
训练与评估数据
需补充信息
训练流程
超参数配置
- 学习率: 3e-05
- 训练批大小: 16
- 评估批大小: 8
- 随机种子: 42
- 优化器: Adam (beta1=0.9, beta2=0.999, epsilon=1e-08)
- 学习率调度器类型: 线性
- 训练轮次: 5.0
- 混合精度训练: 原生AMP
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
准确率 |
0.3676 |
1.0 |
24544 |
0.3761 |
0.8681 |
0.2782 |
2.0 |
49088 |
0.3605 |
0.8881 |
0.1986 |
3.0 |
73632 |
0.4672 |
0.8894 |
0.1299 |
4.0 |
98176 |
0.5248 |
0.8967 |
0.0643 |
5.0 |
122720 |
0.6489 |
0.8999 |
框架版本
- Transformers 4.13.0.dev0
- Pytorch 1.10.0+cu111
- Datasets 1.16.1
- Tokenizers 0.10.3