D

Deberta Base

由 microsoft 开发
DeBERTa是基于解耦注意力机制和增强型掩码解码器改进的BERT模型,在多项自然语言理解任务上表现优异。
下载量 298.78k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

DeBERTa通过创新的解耦注意力机制改进了BERT架构,在80GB训练数据上超越了BERT和RoBERTa的性能表现。

模型特点

解耦注意力机制
通过分离内容和位置信息处理,提升注意力机制的表达能力
增强型掩码解码
改进的掩码预测机制,更好地捕捉上下文依赖关系
高效预训练
使用80GB训练数据即达到超越RoBERTa的性能表现

模型能力

文本掩码预测
自然语言理解
上下文表征学习

使用案例

问答系统
SQuAD问答任务
用于机器阅读理解任务
在SQuAD 1.1上达到93.1/87.2(F1/EM)
文本分类
MNLI推理任务
用于自然语言推理任务
在MNLI-m上达到88.8%准确率