D

Deberta Xlarge

由 microsoft 开发
DeBERTa通过解耦注意力机制和增强型掩码解码器改进了BERT与RoBERTa模型,在多数自然语言理解任务上表现优异。
下载量 312
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

DeBERTa是一种改进的BERT模型,通过解耦注意力机制和增强型掩码解码器提升自然语言理解任务的性能。

模型特点

解耦注意力机制
通过分离内容和位置注意力机制,提升模型对文本的理解能力。
增强型掩码解码器
改进的掩码解码策略,提高模型在掩码语言建模任务中的表现。
大规模预训练
使用80GB训练数据进行预训练,在各种自然语言理解任务上超越RoBERTa。

模型能力

文本理解
掩码填充
自然语言推理
问答系统
文本分类

使用案例

自然语言理解
问答系统
在SQuAD 1.1/2.0等问答数据集上表现优异。
在SQuAD 1.1上F1/EM达到95.5/90.1
文本分类
在GLUE基准测试中的文本分类任务表现突出。
在SST-2情感分类任务上准确率达97.0%
自然语言推理
在MNLI等自然语言推理任务上表现优异。
在MNLI-m/mm上准确率达91.5/91.2