D

Deberta V2 Xlarge

由 kamalkraj 开发
DeBERTa是基于解耦注意力机制的增强型BERT解码模型,通过改进的注意力机制和增强型掩码解码器,在多项自然语言理解任务上超越BERT和RoBERTa的表现。
下载量 302
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

DeBERTa是一种改进的BERT模型,通过解耦注意力机制和增强型掩码解码器提升了自然语言理解任务的性能。该模型在160GB数据上训练,具有24层网络结构和1536维隐藏层大小,参数量达9亿。

模型特点

解耦注意力机制
通过分离内容和位置注意力计算,更有效地捕捉文本中的依赖关系
增强型掩码解码器
改进的掩码语言建模方法,提升模型对上下文的理解能力
大规模预训练
基于160GB原始数据进行训练,具备强大的语言表示能力

模型能力

文本理解
问答系统
文本分类
自然语言推理
语义相似度计算

使用案例

自然语言处理
问答系统
构建高性能问答系统,如SQuAD任务
在SQuAD 2.0上达到91.4/89.7的F1/EM分数
文本分类
用于情感分析等文本分类任务
在SST-2情感分析任务上达到97.5%准确率
自然语言推理
判断两段文本之间的逻辑关系
在MNLI任务上达到91.7/91.9的准确率