deberta-v3-small-finetuned-mnli开源模型 - 用于自然语言推理，准确率达87.46%

首页

Deberta V3 Small Finetuned Mnli

由 mrm8488 开发

在GLUE MNLI数据集上微调的DeBERTa v3小规模版本，用于自然语言推理任务，准确率达87.46%

文本分类

Transformers

英语开源协议:MIT #文本蕴含推理 #小参数量优化 #多领域NLI

下载量 139

发布时间 : 3/2/2022

模型简介

该模型是在MNLI数据集上微调的DeBERTa v3小规模版本，专门用于文本蕴含分类任务，能够判断两个句子之间的逻辑关系（蕴含/矛盾/中立）

模型特点

解耦注意力机制

采用创新的解耦注意力机制，改进了传统Transformer架构

增强型掩码解码器

使用增强型掩码解码器提升模型性能

高效训练

相比V2版本，V3采用RTD目标进行更高效的预训练

小规模设计

6层网络结构，适合资源有限环境部署

模型能力

文本分类

自然语言推理

句子关系分析

使用案例

自然语言处理

文本蕴含判断

判断两个句子之间是否存在蕴含关系

在MNLI测试集上达到87.46%准确率

矛盾检测

识别文本中的矛盾陈述

🚀 DeBERTa v3（小型）在MNLI上微调

本模型是 microsoft/deberta-v3-small 在GLUE MNLI数据集上的微调版本。它在评估集上取得了以下结果：

损失：0.4985
准确率：0.8746

🚀 快速开始

此模型是基于 microsoft/deberta-v3-small 在GLUE MNLI数据集上进行微调得到的。你可以直接使用该模型进行文本分类任务。

✨ 主要特性

性能提升：在GLUE MNLI数据集上取得了较高的准确率。
模型改进：基于DeBERTa v3架构，采用了RTD（Replaced Token Detection）目标进行预训练。

📚 详细文档

模型描述

DeBERTa 通过解耦注意力和增强掩码解码器改进了BERT和RoBERTa模型。通过这两项改进，DeBERTa在80GB训练数据的大多数自然语言理解（NLU）任务上优于RoBERTa。有关更多详细信息和更新，请查看官方仓库。

在 DeBERTa V3 中，我们在预训练时用ELECTRA引入的RTD（Replaced Token Detection）目标取代了MLM目标，并在即将发表的论文中介绍了一些创新。与DeBERTa-V2相比，我们的V3版本显著提高了模型在下游任务中的性能。你可以在我们原始论文的附录A11中找到关于该模型的简单介绍，我们将在单独的文章中提供更多细节。

DeBERTa V3小型模型有6层，隐藏层大小为768。由于我们使用了包含128K个词元的词汇表，在嵌入层引入了98M个参数，因此其总参数数量为1.43亿。该模型使用了与DeBERTa V2相同的160GB数据进行训练。

预期用途与限制

更多信息待补充。

训练和评估数据

多类型自然语言推理语料库（Multi-Genre Natural Language Inference Corpus）是一个众包的句子对集合，带有文本蕴含注释。给定一个前提句子和一个假设句子，任务是预测前提是否蕴含假设（蕴含）、与假设矛盾（矛盾）或两者都不是（中立）。前提句子来自十个不同的来源，包括转录语音、小说和政府报告。该基准的作者使用标准测试集（他们从RTE作者那里获得了私有标签），并在匹配（领域内）和不匹配（跨领域）部分进行评估。他们还使用并推荐SNLI语料库作为55万个辅助训练数据示例。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：3e-05
训练批次大小：16
评估批次大小：8
随机种子：42
优化器：Adam，β值为(0.9, 0.999)，ε值为1e-08
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：3.0

训练结果

训练损失	轮数	步数	验证损失	准确率
0.7773	0.04	1000	0.5241	0.7984
0.546	0.08	2000	0.4629	0.8194
0.5032	0.12	3000	0.4704	0.8274
0.4711	0.16	4000	0.4383	0.8355
0.473	0.2	5000	0.4652	0.8305
0.4619	0.24	6000	0.4234	0.8386
0.4542	0.29	7000	0.4825	0.8349
0.4468	0.33	8000	0.3985	0.8513
0.4288	0.37	9000	0.4084	0.8493
0.4354	0.41	10000	0.3850	0.8533
0.423	0.45	11000	0.3855	0.8509
0.4167	0.49	12000	0.4122	0.8513
0.4129	0.53	13000	0.4009	0.8550
0.4135	0.57	14000	0.4136	0.8544
0.4074	0.61	15000	0.3869	0.8595
0.415	0.65	16000	0.3911	0.8517
0.4095	0.69	17000	0.3880	0.8593
0.4001	0.73	18000	0.3907	0.8587
0.4069	0.77	19000	0.3686	0.8630
0.3927	0.81	20000	0.4008	0.8593
0.3958	0.86	21000	0.3716	0.8639
0.4016	0.9	22000	0.3594	0.8679
0.3945	0.94	23000	0.3595	0.8679
0.3932	0.98	24000	0.3577	0.8645
0.345	1.02	25000	0.4080	0.8699
0.2885	1.06	26000	0.3919	0.8674
0.2858	1.1	27000	0.4346	0.8651
0.2872	1.14	28000	0.4105	0.8674
0.3002	1.18	29000	0.4133	0.8708
0.2954	1.22	30000	0.4062	0.8667
0.2912	1.26	31000	0.3972	0.8708
0.2958	1.3	32000	0.3713	0.8732
0.293	1.34	33000	0.3717	0.8715
0.3001	1.39	34000	0.3826	0.8716
0.2864	1.43	35000	0.4155	0.8694
0.2827	1.47	36000	0.4224	0.8666
0.2836	1.51	37000	0.3832	0.8744
0.2844	1.55	38000	0.4179	0.8699
0.2866	1.59	39000	0.3969	0.8681
0.2883	1.63	40000	0.4000	0.8683
0.2832	1.67	41000	0.3853	0.8688
0.2876	1.71	42000	0.3924	0.8677
0.2855	1.75	43000	0.4177	0.8719
0.2845	1.79	44000	0.3877	0.8724
0.2882	1.83	45000	0.3961	0.8713
0.2773	1.87	46000	0.3791	0.8740
0.2767	1.91	47000	0.3877	0.8779
0.2772	1.96	48000	0.4022	0.8690
0.2816	2.0	49000	0.3837	0.8732
0.2068	2.04	50000	0.4644	0.8720
0.1914	2.08	51000	0.4919	0.8744
0.2	2.12	52000	0.4870	0.8702
0.1904	2.16	53000	0.5038	0.8737
0.1915	2.2	54000	0.5232	0.8711
0.1956	2.24	55000	0.5192	0.8747
0.1911	2.28	56000	0.5215	0.8761
0.2053	2.32	57000	0.4604	0.8738
0.2008	2.36	58000	0.5162	0.8715
0.1971	2.4	59000	0.4886	0.8754
0.192	2.44	60000	0.4921	0.8725
0.1937	2.49	61000	0.4917	0.8763
0.1931	2.53	62000	0.4789	0.8778
0.1964	2.57	63000	0.4997	0.8721
0.2008	2.61	64000	0.4748	0.8756
0.1962	2.65	65000	0.4840	0.8764
0.2029	2.69	66000	0.4889	0.8767
0.1927	2.73	67000	0.4820	0.8758
0.1926	2.77	68000	0.4857	0.8762
0.1919	2.81	69000	0.4836	0.8749
0.1911	2.85	70000	0.4859	0.8742
0.1897	2.89	71000	0.4853	0.8766
0.186	2.93	72000	0.4946	0.8768
0.2011	2.97	73000	0.4851	0.8767