v3large-2epoch DeBERTa开源模型 - 自然语言理解强，表现超越BERT和RoBERTa

首页

V3large 2epoch

由 NDugar 开发

DeBERTa是基于解耦注意力机制的增强型BERT改进模型，通过160GB训练数据和15亿参数规模，在多项自然语言理解任务中超越BERT和RoBERTa表现。

大型语言模型

Transformers

英语开源协议:MIT #解耦注意力机制 #零样本分类 #自然语言理解

下载量 31

发布时间 : 3/2/2022

模型简介

DeBERTa通过解耦注意力和增强型掩码解码器改进BERT架构，特别适用于自然语言理解任务，在GLUE基准测试中表现优异。

模型特点

解耦注意力机制

通过分离内容和位置注意力计算，增强模型对文本关系的理解能力

增强型掩码解码器

改进的掩码语言建模目标，提升模型对上下文的建模能力

大规模预训练

使用160GB原始文本数据进行预训练，参数规模达15亿

模型能力

文本分类

自然语言推理

问答系统

语义相似度计算

句子对分类

使用案例

文本理解

多体裁自然语言推理

判断两段文本之间的逻辑关系（蕴含/矛盾/中立）

在MNLI数据集上达到91.7/91.9的准确率

情感分析

分析文本情感倾向（正面/负面）

在SST-2数据集上达到97.2%准确率

问答系统

机器阅读理解

基于给定文本回答相关问题

在SQuAD 2.0上达到92.2/89.7的F1/EM分数

🚀 DeBERTa：具有解耦注意力的解码增强型BERT

DeBERTa是一种基于解耦注意力和增强掩码解码器改进的模型，它在BERT和RoBERTa的基础上进行了优化。该模型使用80GB训练数据，在大多数自然语言理解（NLU）任务上的表现优于BERT和RoBERTa。更多详细信息和更新请查看官方仓库。此为DeBERTa V2 xxlarge模型，有48层，隐藏层大小为1536，总参数达15亿，使用160GB原始数据进行训练。

🚀 快速开始

本部分将为你介绍DeBERTa模型在自然语言理解（NLU）任务上的微调情况，以及如何运行该模型。

✨ 主要特性

解耦注意力机制：改进了传统BERT和RoBERTa模型，在NLU任务上表现更优。
增强掩码解码器：提升了模型的性能。
多任务表现出色：在多个GLUE基准任务和SQuAD数据集上取得了良好的效果。

📦 安装指南

运行模型前，你需要安装必要的依赖：

pip install datasets
pip install deepspeed

同时，下载deepspeed配置文件：

wget https://huggingface.co/microsoft/deberta-v2-xxlarge/resolve/main/ds_config.json -O ds_config.json

💻 使用示例

基础用法

使用Deepspeed运行模型：

export TASK_NAME=mnli
output_dir="ds_results"
num_gpus=8
batch_size=8
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v2-xxlarge \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --max_seq_length 256 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 3e-6 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 10 \
  --logging_dir $output_dir \
  --deepspeed ds_config.json

高级用法

使用--sharded_ddp运行模型：

cd transformers/examples/text-classification/
export TASK_NAME=mnli
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py   --model_name_or_path microsoft/deberta-v2-xxlarge   \
--task_name $TASK_NAME   --do_train   --do_eval   --max_seq_length 256   --per_device_train_batch_size 8   \
--learning_rate 3e-6   --num_train_epochs 3   --output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16

📚 详细文档

微调结果

以下是DeBERTa在SQuAD 1.1/2.0和多个GLUE基准任务上的开发结果：

模型	SQuAD 1.1	SQuAD 2.0	MNLI-m/mm	SST-2	QNLI	CoLA	RTE	MRPC	QQP	STS-B
	F1/EM	F1/EM	Acc	Acc	Acc	MCC	Acc	Acc/F1	Acc/F1	P/S
BERT-Large	90.9/84.1	81.8/79.0	86.6/-	93.2	92.3	60.6	70.4	88.0/-	91.3/-	90.0/-
RoBERTa-Large	94.6/88.9	89.4/86.5	90.2/-	96.4	93.9	68.0	86.6	90.9/-	92.2/-	92.4/-
XLNet-Large	95.1/89.7	90.6/87.9	90.8/-	97.0	94.9	69.0	85.9	90.8/-	92.3/-	92.5/-
DeBERTa-Large¹	95.5/90.1	90.7/88.0	91.3/91.1	96.5	95.3	69.5	91.0	92.6/94.6	92.3/-	92.8/92.5
DeBERTa-XLarge¹	-/-	-/-	91.5/91.2	97.0	-	-	93.1	92.1/94.3	-	92.9/92.7
DeBERTa-V2-XLarge¹	95.8/90.8	91.4/88.9	91.7/91.6	97.5	95.8	71.1	93.9	92.0/94.2	92.3/89.8	92.9/92.9
DeBERTa-V2-XXLarge^1,2	96.1/91.4	92.2/89.7	91.7/91.9	97.2	96.0	72.0	93.5	93.1/94.9	92.7/90.3	93.2/93.1

注意事项

¹ 遵循RoBERTa的做法，对于RTE、MRPC、STS-B任务，我们基于DeBERTa-Large-MNLI、DeBERTa-XLarge-MNLI、DeBERTa-V2-XLarge-MNLI、DeBERTa-V2-XXLarge-MNLI进行微调。从MNLI微调模型开始，SST-2/QQP/QNLI/SQuADv2的结果也会略有提升，但我们仅报告从预训练基础模型微调的结果。
² 若要使用**HF transformers尝试XXLarge模型，建议使用deepspeed**，因为它更快且节省内存。

🔧 技术细节

模型架构：DeBERTa基于Transformer架构，采用了解耦注意力和增强掩码解码器。
训练数据：使用了80GB训练数据，DeBERTa V2 xxlarge模型使用了160GB原始数据。

📄 许可证

本项目采用MIT许可证。

📖 引用

如果你觉得DeBERTa对你的工作有帮助，请引用以下论文：

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}