语言:
- 英语
许可证: mit
标签:
- 训练生成
数据集:
- glue
评估指标:
- 马修斯相关系数
小部件:
- 文本: "他们向系主任玛丽严肃地介绍她是一位真正的语言学家。"
模型索引:
- 名称: deberta-v3-small
结果:
- 任务:
类型: 文本分类
名称: 文本分类
数据集:
名称: GLUE COLA
类型: glue
参数: cola
指标:
- 类型: 马修斯相关系数
值: 0.6333205721749096
名称: 马修斯相关系数
- 任务:
类型: 文本分类
名称: 文本分类
数据集:
名称: glue
类型: glue
配置: cola
分割: 验证
指标:
- 类型: 准确率
值: 0.8494726749760306
名称: 准确率
已验证: true
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMjJjOTM0MTEzMzBlZWJlMWYwNzgzZmI3M2NiZWVjMDQ5ZDA1MWY0NGY3NjU1NTlmZWE3N2JjZWEzODE0ZTNkNSIsInZlcnNpb24iOjF9.Kt-3jnDTp3-Te5zMHVgG_5hpB5UMCkAMP7fmjx46QDWJfFHpyRgBlf-qz_fw5saFPAQ5G6QNq3bjEJ6mY2lhAw
- 类型: 精确率
值: 0.8455882352941176
名称: 精确率
已验证: true
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiODAxMzNkZGEwNGNmYjk4NWRhZDk4OWE4MzA5Y2NiNjQyNTdkOWRmYjU0ZjY0YzQzYmE4ZmI3MjQ4OTk4OWIwNCIsInZlcnNpb24iOjF9.YBFnePtD5-HX15aST39xpPLroFYBgqEn5iLyVaClh62j0M7HQbB8aaGEbgaTIUIr-qz12gVfIQ7UZZIHxby_BQ
- 类型: 召回率
值: 0.957004160887656
名称: 召回率
已验证: true
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMjRjMTVhN2E4YjNlOWY2MWRhODZiM2FhZDVjNzYwMjIyNWUyYTMxMWFlZjkwNzVhYjNmMjQxYjk2MTFmMzYyYiIsInZlcnNpb24iOjF9.40GYlU9Do74Y_gLmbIKR2WM8okz5fm-QUwJAsoIyM1UtQ71lKd-FV5Yr9CdAh3fyQYa3SMYe6tm9OByNMMw_AA
- 类型: AUC
值: 0.9167413271767129
名称: AUC
已验证: true
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYzVjYmMyZDkyMzM0ZTQ1MTk0ZmY4MWUwZmIxMGRlOWMyMjJmNDRiZGNkMGZlZDZmY2I5OWI2NDYzMGQ2YzhiNSIsInZlcnNpb24iOjF9.setZF_g9x-aknFXM1k0NxrOWMJcmpNi6z7QlyfL0i6fTPJOj6SbKJ1WQb3J1zTuabgx9cOc5xgHtBH3IA7fkDQ
- 类型: F1
值: 0.8978529603122967
名称: F1
已验证: true
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNmQ1NmNiMDhmNTU2Y2UxMzU0ODRmYmZmZTFkYjI4MzczMWUwYWQ4OTk2NGJlY2MzNmViYTA4MTRkODJhMTU1MyIsInZlcnNpb24iOjF9.GUIRxsYKgjYK63JS2rd9vCLHHmCiB4H68Xo5GxMaITfyzcUcdNc6l62njmQGrOoUidlTt1F7DzGP2Cu_Gz8HDg
- 类型: 损失
值: 0.4050811529159546
名称: 损失
已验证: true
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjBjNjg0OTFjOTc5Mzc2MWQ1ZDIyYmM5MmIzZDVlY2JjYzBlZjMyN2IwOWU4YzNlMDcwZmM0NTMxYjExY2I0MiIsInZlcnNpb24iOjF9.xayLZc97iUW0zNqG65TiW9BXoqzV-tqF8g9qGCYQ1ZGuSDSjLlK7Y4og7-wqPEiME8JtNyVxl6-ZcWnF1t8cDg
基于CoLA微调的DeBERTa-v3-small模型
此模型是在GLUE COLA数据集上对microsoft/deberta-v3-small进行微调的版本。
在评估集上取得了以下结果:
- 损失: 0.4051
- 马修斯相关系数: 0.6333
模型描述
DeBERTa通过解耦注意力和增强的掩码解码器改进了BERT和RoBERTa模型。凭借这两项改进,DeBERTa在使用80GB训练数据的情况下,在大多数NLU任务上表现优于RoBERTa。
请查看官方仓库获取更多详情和更新。
在DeBERTa V3中,我们将MLM目标替换为ELECTRA引入的RTD(替换令牌检测)目标用于预训练,以及我们即将发表的论文中介绍的一些创新。与DeBERTa-V2相比,我们的V3版本显著提高了下游任务的模型性能。您可以从我们原始论文的附录A11中找到关于该模型的简单介绍,但我们将在单独的文档中提供更多细节。
DeBERTa V3小型模型包含6层和768的隐藏大小。由于我们使用了包含128K标记的词汇表,在嵌入层引入了98M参数,其总参数数为143M。该模型使用与DeBERTa V2相同的160GB数据进行训练。
预期用途与限制
需要更多信息
训练与评估数据
完整的语言学可接受性语料库(CoLA)由来自23个语言学出版物的10657个句子组成,由原作者专家标注了可接受性(语法性)。此处提供的公开版本包含属于训练集和开发集的9594个句子,并排除了属于保留测试集的1063个句子。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率: 3e-05
- 训练批次大小: 16
- 评估批次大小: 8
- 随机种子: 42
- 优化器: Adam,beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: 线性
- 训练轮数: 5.0
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
马修斯相关系数 |
无记录 |
1.0 |
535 |
0.4051 |
0.6333 |
0.3371 |
2.0 |
1070 |
0.4455 |
0.6531 |
0.3371 |
3.0 |
1605 |
0.5755 |
0.6499 |
0.1305 |
4.0 |
2140 |
0.7188 |
0.6553 |
0.1305 |
5.0 |
2675 |
0.8047 |
0.6700 |
框架版本
- Transformers 4.13.0.dev0
- Pytorch 1.10.0+cu111
- Datasets 1.16.1
- Tokenizers 0.10.3