D

Deberta V3 Xsmall

由 microsoft 开发
DeBERTaV3是微软提出的改进版DeBERTa模型,通过ELECTRA风格的梯度解耦嵌入共享预训练方法提升效率,在自然语言理解任务中表现优异。
下载量 87.40k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

DeBERTaV3采用解耦注意力机制和增强型掩码解码器,结合ELECTRA风格的预训练方法,显著提升了模型在下游任务中的性能表现。

模型特点

梯度解耦嵌入共享
采用ELECTRA风格的预训练方法,通过梯度解耦技术优化嵌入共享机制
解耦注意力机制
改进的注意力机制能够分别处理内容和位置信息,提升模型理解能力
高效参数设计
xsmall版本仅2200万主干参数,在保持性能的同时大幅减小模型规模

模型能力

文本分类
问答系统
自然语言推理

使用案例

自然语言处理
问答系统
用于构建高性能问答系统
在SQuAD 2.0上F1得分84.8,EM得分82.0
文本分类
用于自然语言推理任务
在MNLI任务上准确率达88.1/88.3(m/mm)