D

Deberta V3 Base

由 microsoft 开发
DeBERTaV3是基于DeBERTa改进的预训练语言模型,通过梯度解耦嵌入共享的ELECTRA风格预训练方法提升效率,在自然语言理解任务上表现优异。
下载量 1.6M
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

DeBERTaV3通过解耦注意力机制和增强型掩码解码器改进BERT与RoBERTa模型,采用ELECTRA风格预训练进一步提升性能,适用于多种自然语言理解任务。

模型特点

解耦注意力机制
通过分离内容和位置注意力计算,更精确地建模文本依赖关系
ELECTRA风格预训练
采用梯度解耦嵌入共享的ELECTRA预训练方法,提升训练效率
增强型掩码解码器
改进的掩码语言建模机制,增强模型对上下文的捕捉能力

模型能力

文本分类
问答系统
自然语言推理
语义理解

使用案例

文本理解
问答系统
用于构建高精度问答系统
在SQuAD 2.0上F1得分88.4,EM得分85.4
文本分类
用于自然语言推理任务
在MNLI任务上准确率达90.6/90.7(匹配/不匹配)