D

Deberta V3 Small

由 microsoft 开发
DeBERTa-v3是微软推出的改进版自然语言理解模型,通过ELECTRA风格预训练和梯度解耦嵌入共享技术优化,在保持较小参数量的同时实现高效性能。
下载量 189.23k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

DeBERTa-v3小型模型采用6层网络结构,专注于自然语言理解任务,通过解耦注意力机制和增强型掩码解码器提升模型效率。

模型特点

ELECTRA风格预训练
采用更高效的ELECTRA预训练框架,提升模型训练效率
梯度解耦嵌入共享
通过创新性的梯度解耦技术优化嵌入层参数共享
解耦注意力机制
改进的注意力机制能更好捕捉文本中的位置和内容信息
增强型掩码解码器
增强的掩码语言建模能力提升模型理解性能

模型能力

文本分类
问答系统
自然语言推理

使用案例

文本理解
问答系统
应用于SQuAD等问答数据集
SQuAD 2.0上F1得分82.8
文本分类
应用于MNLI等自然语言推理任务
MNLI匹配/不匹配准确率88.3/87.7